En ce moment, je bosse entre autres sur des traductions de vieux trucs pulps apparemment inédits sous nos latitudes. C'est un peu un bordel parce qu'on travaille à partir de PDFs montés à partir de scans, et que vu le papier sur lequel étaient imprimés ces machins, c'est parfois pas clean-clean.
Les illustrateurs n'avaient | vraiment peur de rien |
Par chance, les sites d'archives où je vais récupérer ce matos (bonne nouvelle d'ailleurs archive.org qui est mon pourvoyeur habituel en vieilleries de ce genre, semble s'être remis de la récente attaque informatique qui avait failli m'en coller une. d'attaque, je veux dire) ont parfois une version texte faite à partir d'un OCR, d'une reconnaissance de caractère. Ça aide vachement. On s'use vachement moins les yeux.
Sauf que...
Ben comme c'est de l'OCR en batch non relu, que le document de base est mal contrasté et avec des typos bien empâtées et un papier qui a bien bu l'encre, le texte arrive parfois un peu en bouillie. Et donc qu'il faut se repalucher le truc pour le remettre en état. L'existence d'un fichier au format texte, même foireux, fait qu'une correction de ce genre ne prend pas un temps dingue. Faut juste ouvrir l'oeil. Le côté pratique d'avoir une source en mode texte plutôt qu'un vieux PDF vaut l'effort, même si pendant le processus je peux blasphémer en plusieurs langue, y compris certaines qui sont interdites depuis au moins la submersion de Mû.
Le truc rigolo, c'est que ces fichiers textes libres de droits mais bien daubés sont complètement open bar pour des gars comme moi, mais aussi pour des IA génératives du genre Minet-J'ai-flatulé. Elles moulinent tout un tas de trucs du genre pour alimenter leur modèle. Mais entre les caractères mal interprétés, genre un "d" lu comme "tt" par le système, ce qui fait qu'un personnage se retrouve avec un truc sur la gueule dont on ne sait pas au départ si c'est un mignon chien bâtard ou juste de la boue, et les mots coupés au petit bonheur la chance, voire les colonnes du texte mal reconnues et des bouts de phrases accolés ainsi par accident dans le plus pur style Burroughs (William, pas Edgar Rice) ça pourra générer toutes sortes d'erreurs cocasses.
N'oublions pas que ces IA fonctionnent sur un mode combinatoire et probabilistes, elles choisissent leurs enchaînements de mots non pas pour leur sens logique, mais pour la probabilité qu'ils soient associés ensemble dans l'échantillon ayant servi à les entraîner. Plus on aura de fichiers daubés de ce genre sur le net, plus les absurdités de ce genre deviendront probables.
Comme les IA se nourrissent aussi de plus en plus, mécaniquement, de contenu déjà créé par d'autres IA du même genre et mis en ligne, je prédis l'émergence d'une espèce de masse critique de trucs bancals qui rendra les textes générés de plus en plus surréalistes et illisibles.
Vous vous souvenez, dans Le pendule de Foucault, de cet ordinateur censé gagner du temps sur les opérations de permutation kabbalistique des lettres dans l'espoir de trouver le nom secret de Dieu ? Ben là, on a la même, à une échelle jamais vue, pour fabriquer du langage Fhtagn.
Commentaires