Sujet sur Discussion utilisateur:Cunegonde1

Wuyouyuan (discussioncontributions)

Je suis en train de corriger le volume 13 dont vous avez refait l'OCR, très haute qualité. Les volumes 14, 15, 16 ont un OCR calamiteux, plus mauvais que le "full text" d'Internet Archive, résultat probable d'une conversion de PDF en DJVU qui s'est mal passée. Je pourrais faire comme pour le volume 12, match du "full text" mais ce n'est pas optimum. Si vous avez le temps, pouvez-vous faire comme pour le volume 13, vous aurez ma reconnaissance (rien de plus).

Cunegonde1 (discussioncontributions)

@Wuyouyuan. La reconnaissance c’est énorme, merci ! je termine un projet en cours et je m’y mets, reste à voir à partir de quelle source pour qu'elle ne soit pas trop mauvaise au départ (IA/Google/HT) ? je comparerai et prendrai la meilleure. Cela prendra un peu de temps car le traitement nécessaire à un résultat de qualité est assez long. Je suis très attaché à ce projet des 1000 nuits et 1 dont j’avais cherché vainement des fac-similé il y a quelques années, c’est donc avec plaisir que je le ferai. Je vous tiens au courant au fur et à mesure de la mise à disposition des volumes. PS : on peut se tutoyer si cela vous convient.

Wuyouyuan (discussioncontributions)

Si les fac-simile des Mille nuits et une nuit étaient hors d'atteinte jusqu'à l'année dernière, c'est que Joseph Charles Mardrus, l'auteur (le mot "traducteur" s'applique à peu près aussi bien à lui qu'à Pierre Louÿs son contemporain pour les Chants de Bilitis) est mort en 1949, à 82 ans, et n'était pas dans le domaine public.

A part ça, je crois que IA, descendant de la Public Library of India, est tout à fait acceptable, si j'en juge par le "full text". Les exemplaires de Google ne sont accessibles que des USA (avec un VPN pour moi) et apparemment pas mieux. Gallica renvoit à la "Bibliothèque Alexandrine".

Pas d'urgence. Je ne suis pas à la moitié du volume 13. A plus tard.

Cunegonde1 (discussioncontributions)

@Wuyouyuan, j’ai regardé, je vais repartir des images brutes d’IA qui me semblent une bonne base. J’ai mis un petit avertissement sur les tomes 14 à 16, pour éviter que quelqu'un commence la correction. Bonne soirée.

Cunegonde1 (discussioncontributions)

@Wuyouyuan Le volume 14 est prêt pour la correction. J’ai repris les images d’IA, qui en fait ne sont pas si bonnes que prévu (très faible résolution du scan d’origine (170 ppi), beaucoup de pétouilles nuisant fortement à la qualité de reconnaissance). J’ai gommé un maximum de pétouille, fait l’OCR et fait une pré-correction avec ma regex anti-scanilles, mais en préservant les coquilles. Quelques pages ont dû être reprises après coup, et n’ont pas bénéficié du même traitement aussi soigneux. Merci par avance de m'indiquer s’il reste des scanilles récurrentes afin d’améliorer mon outil. Je reste à disposition en cas de problème et passe au volume 15. Bonne correction.

Wuyouyuan (discussioncontributions)

Je viens de faire un sondage sur 9 pages du volume 14.

J'ai repéré des choses que j'avais déjà vues dans le volume 13: "sc" au lieu de "se", ailleurs "scs au lieu de "ses".; et surtout, il y a un problème avec le dernier caractère d'un paragraphe quand il est précédé d'un espace, donc isolé (cas des ponctuations comme ! ? » ) . A l'intérieur d'une page, il est renvoyé à la ligne suivante ; à la fin de la page il disparaît, voir "à" , 135e page.

Autrement, c'est de haute qualité, comme le vol. 13. La seule chose qui demande de l'attention, ce sont les alineas, disparus (mais il s'agit d'une ligne blanche manquante, pas d'un raccord de continuité du texte mal à propos, le retour à la ligne suivante est toujours là). Je n'ai rien vu qui associe le problème à autre chose.

C'est très reposant de mettre au point un texte aussi bien nettoyé.

Cunegonde1 (discussioncontributions)

Pour les sc et scs normalement je les chasse (il reste un sc p. 129, c’est tout.) Les problèmes d’alinea proviennent sans doute du fait que de temps en temps (670 occurences sur le T. 14) il y a une espace avant le saut de paragraphe. Est-ce très gênant ? Je ne sais pas comment l’empêcher automatiquement sinon, je suis obligé de tous les vérifier un par un. Sur une édition txt sur linux, les sauts de paragraphe sont préservés. Je ne sais pas trop comment régler ça. J’ai regardé d’autres livres que j’ai traité, et il n'y a pas ce problème.

Autre problème potentiel : compte tenu de la "saleté" du scan, je suis obligé de faire un traitement assez agressif des pétouilles. Il est possible que des caractères ":" soient effacés ; dans ce cas, cela laisse un large espace blanc, merci de me le signaler pour que je rectifie la page. Dans le cas du "Elle dit :" ou le : est manquant p. 299, il est également manquant sur la page originale ce n’est pas moi !

Wuyouyuan (discussioncontributions)

Il n'y a plus rie dont un correcteur attentif puisse se plaindre. Le piège de la disparition du dernier caractère (isolé) de la page n'en est plus un quand on le connaît. Je ne peux pas en demander plus. Aussi bien, la chute du dernier caractère en composition au plomb est fréquente, et on doit la suspecter quand le dernier caractère d'une ligne est un blanc.

Cunegonde1 (discussioncontributions)

Bonjour, @Wuyouyuan, le tome 15 est prêt à être corrigé. J’ai signalé en PDD 5 coquilles que j’ai repéré. Je vais refaire une passe pour vérifier qu'aucun signe de ponctuation n'est effacé sur les images du T. 14, puis je fais le T. 16. P.S : je n'ai pas trouvé d'endroit avec un caractère isolé disparu, comme indiqué plus haut. Cela m'aiderait à faire un diagnostic si tu pouvais m'indiquer une page où cela se produit. Je ne l'ai pas vu sur la p. 138 du T. 14.

Wuyouyuan (discussioncontributions)

Pour la disparition du dernier caractère d'une page s'il est isolé: Page:Le livre des mille nuits et une nuit, Tome 14, trad Mardrus, 1903.djvu/135 ("a") , Page:Le livre des mille nuits et une nuit, Tome 13, trad Mardrus, 1903.djvu/97 ( ": " ) Page:Le livre des mille nuits et une nuit, Tome 13, trad Mardrus, 1903.djvu/101 ( "!" ) (les pages sont corrigées, il faut aller voir la couche texte avec TL.) C'est systématique, mais le cas n'est pas si fréquent, donc ça ne consomme pas beaucoup d'énergie du correcteur prévenu. Mais c'est intéressant pour affiner le mécanisme.

Cunegonde1 (discussioncontributions)

Bon, j’ai vu, mais cela me laisse perplexe car sur le fichier texte brut que je crée en même temps que le djvu, pour y appliquer mes regex de vérification et de pré-correction, ces caractères sont bien présents. Je me demande si cela ne vient pas du robot de WS qui met en forme les pages lorsqu'elles sont chargées. Il faudrait peut-être poser la question sur le scriptorium. Par sécurité, j’ai revérifié les T. 14 et T. 15 par rapport à des éventuels effacements de caractères sur les FS. Il sont corrects de ce point de vue.

Cunegonde1 (discussioncontributions)

Bonjour, @Wuyouyuan, le Tome 16 est prêt. J'ai réglé le problème des caractères de ponctuation fantômes : le problème n'apparaît pas lorsque l'on fait un export d'un fichier texte depuis Abbyy 15 (c’est pourquoi je ne m'en était pas aperçu), mais est bien présent sur le fichier djvu ainsi que sur le fichier texte extrait du djvu. En revanche, il n'y a pas ce problème sur un export au format pdf. C’est bien étrange et agaçant au regard du prix du logiciel. Bref j’ai circonscrit le problème et le traitement par wikisource n'est absolument pas en cause, j'ai fait un mail à abby pour signaler le bug.

Seuls sont concernés les caractères de ponctuation espacés, mais pas les « » ni les lettres isolées a à, etc. Pour contourner le problème, j'ai supprimé l'espace avant le caractère concerné et cela fonctionne. En plus, sur WS, le caractère apparaît comme normalement espacé exemple page 34. J'ai mis quelques coquilles repérées en PDD du livre. Bonne correction.

Ps : Le 14 n’a pas ce problème et j’ai rectifié le 15 qui est maintenant correct.

Wuyouyuan (discussioncontributions)

Si on y pense, la pratique de Wikisource, une page de texte par page de fac-simile, a permis de faire émerger un bug qui a peu de chances de sortir si on crée un texte pour un volume. Et comme personne n'espère un OCR 100% exact, d'autres n'y auront pas fait attention. Faire des OCR nettoyés aussi finement que vous faites est du grand art. Je vais essayer de ne pas gâcher.

Cunegonde1 (discussioncontributions)

Merci pour vos commentaires sympathiques. Moi-même je n'y ai pas fait attention car j'ai une pratique marginale sur WS qui consiste à préparer intégralement mes textes sur le logiciel Sigil qui permet d'automatiser au maximum les tâches répétitives à l'aide d'expressions régulières (application de modèles, recherche de scanilles, etc.), puis je met en ligne des pages toutes corrigées et mises en page. Je part d'une édition txt qui n'a pas le bug du djvu.

J'ai repéré une scanille sur le 16 p. 105 et 106 : Amin au lieu de Amîn, je l'ai rectifiée une fois sur le 15 et elle n'est présente pas sur le 14.

Répondre à « Mille nuits et une nuit (suite) »