Discussion utilisateur:Cunegonde1/Script S longs

Le contenu de la page n’est pas pris en charge dans d’autres langues.
La bibliothèque libre.

Notification M0tty :, Notification VIGNERON :, Notification FreeCorp :, Notification Hsarrazin : Bonjour, ce petit message car vous avez montré de l’intérêt pour la question de la modification des f en ſ longs. J’ai avancé sur le script ſ longs que j’ai transformé en Perl (pas en perle) et qui fonctionne sur MacOS et Linux.

Le script est un peu plus lourd qu’en sed (création et suppression de 2 fichiers temporaires que j'ai essayé d'éviter sans succès) ; mais il plus puissant car il gère assez correctement les mots coupés par une césure de ligne (sed fonctionne sur une seule ligne). C’est mon premier programme en Perl, donc ça doit être assez nul en terme d'optimisation, mais ça marche. Je pense que si ça vaut le coup, quelqu’un qui connaît le javascript pourrait reprendre l'idée pour l'intégrer à Wikisource.--Cunegonde1 (d) 16 octobre 2019 à 06:11 (UTC)[répondre]

c'est super de travailler cette difficulté en particulier, qui est un vrai problème pour les livres anciens., par contre je ne suis absolument pas codeuse ;
actuellement, je mets à profit le travail de Acer11 (gadget qui ajoute un bouton permettant de corriger certaines erreurs des livres anciens) qui est essentiellement calibré pour le Trévoux, mais permet de corriger pas mal de textes anciens ; par contre, il transforme les ſ en s (car le Trévoux a besoin qu'on puisse chercher un mot, et le ſ n'est pas identifié comme un s par le moteur de recherche ; il faut donc ensuite passer un petit script qui restitue les ſ à leur place ; puis relire pour corriger ce que le script n'a pas correctement transcrit et vérifier qu'il n'y a pas de f qui sont passés au travers...
il utilise data1, data2, data3, data4 et data5 (je crois bien qu'on en est à 5 fichiers de données maintenant...)
j'ignore si son travail est similaire au tien, ou sur d'autres types de transformations... - il m'est actuellement très utile, mais laisse encore pas mal de "f" qui traînent...
j'adorerais tester ton outil pour faciliter le travail, mais n'ai aucune idée de comment le traduire... je vais donc espérer que quelqu'un saura Clin d'œil --Hélène (dite ''le bot de service'') (d) 16 octobre 2019 à 07:34 (UTC)[répondre]
Pardon je suis très absent en ce moment, et jusqu'à la mi-juin. Comme fichier de données mon "mon" gadget, Notification Hsarrazin :, il y a aussi data_last. Maintenant je précise que ce script fait de multiples corrections, la transformation du ſ long en f ou s selon les cas n'était que le point de départ. Le but reste d'automatiser toutes les corrections possibles... J'ai appris avec utilisateur:Phe comment utiliser les expressions régulières en javascript, mais c'est tout ce que je sais faire. Je ne sais ni débuter ni terminer un script, j'ajoute des formules de transformation dans un cadre que Phe a pondu. Mais quand j'ai un peu de temps je suis heureux d'améliorer le truc. Voilà voilà.
En tout cas bravo Cunegonde1, tout ce qui facilite le travail sur les livres anciens est bienvenu. --Acer11 (d) 25 octobre 2019 à 20:35 (UTC)[répondre]

Notification Cunegonde1 : Bonjour, suite à une discussion intitulée « le S long » lancée le 20 juin sur la liste DH, j’ai proposé sur cette page un outil en Javascript de correction des f en s longs. Un des intérêts d'utiliser Javascript est de signaler les cas d'ambigüités (comme « fuit » / « suit », liste plus longue ici) avec une couleur particulière pour inciter à une relecture de ces ambigüités par des humains. Un inconvénient du script est qu'il utilise des dictionnaires assez volumineux dont le chargement n’est pas instantané. Je te tiendrai au courant si j'essaie d'évaluer la qualité des résultats obtenus par l’outil (en la comparant éventuellement avec celle des résultats de ton script) dans les semaines qui viennent, mais l’idéal serait de disposer de corpus issus d'OCR de textes anciens, où les corrections de f en s ont été faites ou relues par des humains, ce dont je ne dispose pas encore. --FreeCorp (d) 18 juillet 2020 à 08:04 (UTC)[répondre]

Bonjour, Notification FreeCorp : je te remercie de l’intérêt que tu portes à cette question des s longs. Pour travailler très régulièrement sur cette question, j’ai pu repérer un certain nombre de constantes sur les OCR de textes anciens, soit avec Abbyy, qui ne reconnaît pas les s longs et les transforme en f, soit avec tesseract qui reconnaît assez correctement les s longs si l’on utilise le dictionnaire Fraktur. Souvent les défauts de reconnaissance se trouvent en amont en particulier pour les ſ doubles (exemple le plus courant : aussi) qui sont souvent reconnus comme fl ou lf ou ffl avec Abbyy, et ſl ou fſl avec Tesseract. Cela implique un prétraitement pour repérer ces scanilles. Pour le corpus de textes, il suffit de repérer sur WS les textes d'avant 1780, sinon sur ma page perso, il y a la liste de ce que j’ai transcrit avec la précision "graphie ancienne", (mais dans un vocabulaire assez limité). Il y a aussi la Relation historique de la Peste à Marseille en 1720, qui ouvre un peu le champ lexical. Actuellement pour corriger les textes avec s longs, j'utilise plutôt Tesseract avec le dictionnaire Fraktur, puis je crée le djvu, j'extraie la couche texte et je la pré-corrige sur le fichier xml, avant de la réinsérer corrigée dans le djvu. Je reste à ta disposition pour tester les outils que tu proposes (en particulier scanilles sur s longs).--Cunegonde1 (d) 18 juillet 2020 à 09:05 (UTC)[répondre]