Aller au contenu

Utilisateur:Seudo/Intelligence artificielle

La bibliothèque libre.

On devrait pouvoir se faire aider d’outils d’intelligence artificielle pour gagner du temps sur les tâches de relecture.

Demander à la correction des coquilles d’OCR à un robot conversationnel

[modifier]

L’idée est de fournir à un robot conversationnel, par copier/coller, une page d’un ouvrage générée par OCR (bref, la couche texte déjà présente dans le champ d'édition) et de lui demander de corriger ce qui lui semble devoir l’être.

  • Exemple de prompt pour une requête à ChatGPT ou BingAI :
Voici un texte issu d’un OCR. Essaie de corriger les erreurs d'OCR. Remplace les apostrophes droites (') par des apostrophes courbes  françaises (’) et mets des espaces selon les règles courantes de la typographie française.
<Ici le texte issu de l'OCR>
  • On peut rajouter des instructions spécifiques à certains ouvrages :
Fais cela en utilisant des "s" anciens, c’est-à-dire le caractère ſ
Lorsque tu trouves un mot grec, par exemple « ραστος », insère-le dans le code suivant : {{lang|grc|ραστος}}
Lorsque tu trouves un mot latin, par exemple « rosa », insère-le dans le code suivant : {{lang|la|rosa}}

Par exemple, il parvient parfois à reconnaître tout seul des mots grecs transcrits en caractères latins par l’OCR.

Exemple d’instruction pour un texte ancien

[modifier]
Voici du wikicode de Wikisource fait à partir d’un OCR pas très bon. Essaie de corriger les erreurs d’OCR. C’est un texte du 17e siècle, donc n’essaie pas de moderniser l’orthographe ; en particulier, il faut mettre des « s » longs anciens, c’est à dire le caractère « ſ ». Toutefois, remplace les apostrophes droites (') par des apostrophes courbes françaises (’) et applique les règles habituelles de typographie française pour les espaces autour des ponctuations. Lorsque des mots sont entre placés des doubles accolades, comme ceci {{modèle|valeur}}, ne les modifie pas.

Dresser un robot pour travailler sur des textes de Wikisource

[modifier]

Au-delà de l’utilisation d’un robot conversationnel avec un prompt plus ou moins sophistiqué, ce que n’importe qui peut expérimenter facilement, il me semble qu’on devrait pouvoir, au moyen d’un travail supplémentaire par des personnes maîtrisant les outils :

  • « dresser » une intelligence artificielle pour qu’elle améliore encore l’OCR de la plupart des textes présents sur Wikisource ;
  • la dresser spécifiquement sur certains ouvrages présentant des caractéristiques particulières (ouvrages anciens, scientifiques, avec des images, bilingues, etc.), peut-être en lui faisant regarder ce que les humains ont fait sur certaines pages ;
  • voire l’utiliser pour extraire de manière semi-automatisée des images d’ouvrages illustrés (en les envoyant sur Commons), faire des transclusions pour chaque chapitre, etc.

Dresser un robot pour transcrire une page à partir du fac-similé

[modifier]
  • Sur une page complexe telle que celle-ci, cliquer sur « Image » et enregistrer sur son disque dur l’image de la page.
  • Donner cette image à ChatGPT (version avec abonnement) et lui soumettre un prompt tel que celui-ci :
Transcris en code wiki (pour inclusion dans Wikisource) l'image ci-jointe. Essaie de conserver autant que possible la mise en forme. 

En particulier :
1) Lorsque le texte est centré (et uniquement lorsqu'il est centré), affiche-le le texte avec le modèle {{c}}, en précisant la taille de police par un pourcentage correspondant au rapport entre la taille du texte dans le paragraphe et la taille normale du texte.
Exemple 1 : {{c|Du texte centré de taille normale}}
Exemple 2 : {{c|Du texte centré dont la taille est supérieure de 60 % à la taille normale|fs=160%}}
Exemple 3 : {{c|Du texte centré dont la taille est un peu inférieure à la taille normale|90%}}

2) Lorsque des paragraphes sont séparés par des interlignes, indique-le avec le modèle {{interligne}} en passant en paramètre la taille de l'interligne, comme multiple de "em"
Exemple pour un interligne correspondant à peu près à la hauteur de 1,5 caractère : {{interligne|1.5em}}

3) Lorsqu'une ligne horizontale de séparation apparaît, utilise le modèle {{séparateur}}
Exemple : {{séparateur}}

4) Lorsqu'un apostrophe droite (apostrophe dactylographique) apparaît dans le texte, remplace-la systématiquement par une apostrophe courbe (apostrophe typographique).
Exemple : transcrire « l’enfant » et  non « l'enfant »