Tout récemment, pour deux boulots distincts, il a fallu que j'apprenne à me servir d'un OCR, d'un logiciel de reconnaissance de caractères. Au départ, ça a eu un côté antichambre de l'enfer. J'ai hésité à me retaper des kilomètres de texte à la main.
Et puis finalement j'ai insisté.
C'est technique, l'OCR, surtout quand on n'est pas formidablement équipé. J'avais un vieux texte à récupérer pour un boulot de direction d'ouvrage, écrit petit, dont n'existait aucune version numérique nulle part, ni en VO, ni en VF. Il a fallu que j'emprunte la seule édition française (merci encore, Bruno, t'es un chef), que je photographie tout avec mon téléphone, et que je bidouille.
Inutile de dire que ça a été long. Et qu'au départ, toutes mes tentatives de reconnaissances de caractères m'arrivaient en bouillie. Ce truc n'est pas une science exacte. Mais, à l'usage, j'ai trouvé quelques astuces.
D'abord, éclairer à balles. On peut recontraster le fichier a posteriori, mais mieux c'est éclairé au départ, mieux ce sera. Ensuite, photographier droit. Si c'est un peu en biais, l'OCR ne saura pas reconnaître les lignes entières et les couperas en deux pour les remélanger, vous aurez pour le même prix un texte de William Burroughs. Pour les mêmes raisons, aplatir la page au max. Tout gondolage va projeter des bouts de phrases dans tous les sens.
Une fois que vous avez votre photo, recadrer au plus serré, histoire de ne pas avoir de bouts de la page d'en face qui s'invitent. Re-contraster au besoin (merci l'outil Courbes) et seulement après, passez-le à l'OCR. (et pas décontrasté, n'en déplaise à Garcimore, paix à son âme)
Là, faites un preview, s'il existe une option "langue française", cochez-la.
Le résultat sera encore en bouillie, mais moins. Vous n'aurez plus qu'à rattraper les sauts de ligne, corriger les accents et apostrophes mal compris, les lettres comprises comme des chiffres, les espaces saupoudrés au petit bonheur la chance... Mais si vous avez bien géré, vous aurez gagné du temps par rapport à une frappe complète de votre texte.
Pour info, après avoir téléchargé puis désinstallé des trucs, je me suis orienté vers un OCR en ligne. J'en ai testé plusieurs, celui-ci est pas mal.
Sur le deuxième boulot, j'avais des citations à insérer dans mon texte, j'avais une partie du matos en ebooks, une autre sur papier, et de m'être bien rôdé les semaines précédentes avec du gros pavé fait que c'est passé tout seul.
Je sais pas qui parmi vous aura besoin de toucher à ça, mais je pose ça là, ça peut servir.
Commentaires