Discussion Livre:Acremant - Ces Dames aux chapeaux vert, 1922.djvu

La bibliothèque libre.
Sauter à la navigation Sauter à la recherche

Bonjour.

Cette œuvre n'étant pas encore dans le domaine public, je comprends qu'elle ne soit pas encore entièrement corrigée ni librement mise à la disposition de tous.

Comme je suis en train de relire ce vieux roman de ma jeunesse dans une édition papier, et d'en extraire pour le Wiktionnaire quelques mots et expressions trouvés ici et là, j'apprécie de pouvoir faire du copier-coller sans avoir à retaper moi-même les extraits !

L'OCR a lu fautivement "Ariette" au lieu d'"Arlette" (qui, étant le personnage principal, est citée à presque toutes les pages).

Ne serait-il pas possible de faire une correction automatique sur l'ensemble des pages ? Il y a peu de risque qu'il y soit question d'une "ariette" avec une capitale.

Cordialement.

--Justinetto (d) 11 février 2019 à 08:42 (UTC) (Hector Corrector)

bonjour Justinetto,
j’ai essayé de remédier à ce problème, mais la recherche dans les pages d'un livre ne me donne accès qu'aux pages déjà créées, pas à la couche texte du fichier.
je ne suis pas sûre qu'il soit possible de corriger directement la couche texte... sans refaire l'ocr. Je vais demander aux experts Notification SyB~Anicium, Ernest-Mtl et Vieux têtard : Merci ! merci à eux ! --Hélène (dite ''le bot de service'') (d) 11 février 2019 à 09:05 (UTC)

Refaire l'OCR ne changera sans doute rien, il y a de fortes chances qu'il refasse la même erreur, par contre, il existe peut être un moyen de faire des corrections en masse, au moins sur les pages déjà créées, mais je ne retrouve pas le nom de cet utilitaire (je ne l'ai jamais employé).--Marceau (d) 11 février 2019 à 09:52 (UTC)

Un nouvel OCR peut identifier Arlette correctement (ou pas), d'ailleurs le moteur d'OCR de Wikisource (bouton OCR) corrige la chose. Bien qu'il rajoute des scanilles ailleurs ! Je pense donc qu'il est moins coûteux en effort d'utiliser l'OCR Wikisource ; autre solution aussi simple et éventuellement moins créatrice de scanilles : utiliser le gadget "Regex" en remplaçant juste Ariette par Arlette avant d'entamer la correction (car le texte est sinon de bonne qualité). syb~anicium 11 février 2019 à 12:58 (UTC)
Notification Justinetto : J'ai tout de même refait un nouvel OCR pour faciliter la fin de la correction. --Ernest-Mtl (d) 11 février 2019 à 19:09 (UTC)

Merci à tous ceux et celles qui ont pris la peine de me faciliter la relecture de cet ouvrage ! J’ai terminé ce matin. Au total, plus de 400 mots et expressions - j'ai peine à le croire - en ont été tirés pour le Wiktionnaire. Bravo pour la qualité de l’OCR : il y avait si peu de fautes que j’ai lu le texte très vite, au risque d’oublier quelques scanilles (comme « Il », écrit souvent « 11 »). --Justinetto (d) 13 février 2019 à 15:20 (UTC)

Notification Justinetto :
question intéressée : comment extraies-tu les mots et expressions pour le wiktionnaire ? as-tu un outil ? --Hélène (dite ''le bot de service'') (d) 13 février 2019 à 15:38 (UTC)
Oh, non, rien de très technique, rien que du copier-coller tout bête ! Je prends une pincée du texte en ligne, et je la dépose dans la case d’un tableau Word. --Justinetto (d) 13 février 2019 à 15:50 (UTC)
je voulais dire pour savoir quels mots sont déjà au wiktionnaire et lesquels pas... tu ne les vérifies quand même pas un par un, si ? Mort de rire --Hélène (dite ''le bot de service'') (d) 13 février 2019 à 15:55 (UTC)