vendredi 23 septembre 2016

Délivrez les livres

Toujours en quête d'info et de doc, je suis devenu un gros consommateur de bibliothèques virtuelles. Google et d'autres ont en effet numérisé un fonds documentaire considérable. Pour quelqu'un comme moi, c'est pain béni, surtout que pas mal de bibliothèques universitaires y sont passées. Et ce genre d'institution est très fourni.

Il y a juste un petit hic. Sur le matos en anglais, tout va bien. Le scan a été fait proprement, et le fichier de reconnaissance de caractères en général relu. C'est dans les autres langues que c'est souvent pénible. Parce qu'il n'y a personne pour relire ces bouquins scannés en masse, et comme le traitement est automatisé, le logiciel d'OCR est souvent paramétré par défaut. Et n'identifie donc pas correctement les caractères accentués. Les bouquins sont donc totalement inutilisables. Tout ce boulot de Romain, dont on nous a rebattu les oreilles, pour que dalle.

Alors, je suis méchant, les bouquins sont aussi dispos en brut de scan, au format PDF. Ça permet des les lire, mais pas de faire de recherches par mots-clés ni de copier-coller des citations de texte pour les bosser et les compiler (et annoter du PDF, avouons que c'est quand même chiant).

Pour le reste, tout est à refaire. Et il n'y a personne pour le faire correctement.

2 commentaires:

  1. Si on a le pdf, c'est l'essentiel. il est toujours possible par la suite de reprendre ces fichiers par un programme informatique. Le plus délicat, le plus long, le plus coûteux sans doute, c'est le scan automatique par un robot matériel ou une personne humaine.

    RépondreSupprimer
  2. Tout à fait, mais c'est quand même terrible de voir que tout le foin qu'on a fait autour de la numérisation par Google accouche d'une telle bouillie.

    RépondreSupprimer