Aller au contenu

Sujet sur Discussion utilisateur:Hsarrazin

Vieux têtard (discussioncontributions)

En train de transcrire des pages de l'Histoire des deux Indes, j'insère des s longs dans la couche texte à la place des "f" de l'OCR. Est-il possible de faire plus commode ?

Amitiés du jour.

Kaviraf (discussioncontributions)

Permettez mon intrusion : je viens juste de terminer la validation des 2 tomes de Andry - Traité des aliments de carême, 1713, tome I.djvu. Tous les "f" ont été transformés en "s". Amicalement.

Hsarrazin (discussioncontributions)

oui @Kaviraf, parce que @Acélan a fait le choix de les transcrire comme ça... c'est différent sur chaque bouquin... :)

@Vieux têtard : qu'entends-tu par "insérer des s longs dans la couche texte" ? tu veux dire que tu corriges avec des s longs, ou que tu travailles directement la couche texte du djvu en amont ?

pour les s longs, si on a activé le gadget kivabien, on peut facilement les saisir avec ^s qui se convertit automatiquement... c'est d'un truc comme ça que tu parles ? ou tu pensais à autre chose ?

Vieux têtard (discussioncontributions)

Je corrige sur le résultat de l'OCR qui apparaît dans l'espace "Page" avec des "f" à la place des "s longs", sinon il faudrait refaire la couche texte du djvu. En plus, la fonction "Rechercher et remplacer" ne marche pas chez moi, si bien que je recopie d'abord dans Notepad++ où j'ai une fonction "Rechercher et remplacer" qui marche.

Souvent, je refais même l'OCR chez moi si celui d'IA est trop mauvais, mais je ne connais pas d'OCR qui sache lire les "s longs".

Hsarrazin (discussioncontributions)

déjà, j'utilise un petit truc personnellement... 2 scripts différents, l'un pour quand je travaille dans un livre moderne, l'autre quand je suis dans un livre ancien... j'active/désactive en fonction des besoins dans mon common.js

du coup, je peux mettre dans mon Typo perso des corrections différentes pour les 2 types de livres, et prévoir des corrections systématiques en s longs sans parasiter les autres textes... voir User:Hsarrazin/typo.js et User:Hsarrazin/typoClassique.js (pour les livres "classiques")

Hsarrazin (discussioncontributions)

il n'y a pas d'ocr dans le commerce qui lise correctement les s longs... seuls des ocr professionnels comme ceux de la Bnf le peuvent ^^

perso, je les corrige à la main, et ceci d'autant plus qu'il y a des mots qui existent à la fois avec un s et un f (sous/fous ; foie/soie, etc.)...

sinon, avant, j'utilisait un truc tout bête (et rapide) qui consistait à mettre un $ (qu'on a au clavier) sur les s longs, puis à faire un rechercher/remplacer vers le s long... mais le rechercher/remplacer ne fonctionne plus correctement dans l'espace page depuis un bon moment...

l'autre solution, celle choisie par Acélan, consiste à mettre des s, et à ne pas s'embêter... mais on ne saura pas où il y avait des s longs, car ça n'est pas automatique...

je crois aussi me souvenir qu'un de nos chers collègues avait mis au point un petit script pour les convertir automatiquement (ou presque, il fallait un peu de relecture), mais je ne me souviens plus qui. Zyephyrus : te souviendrais-tu de ce script, stp ?

Acélan (discussioncontributions)

Puisqu'on me mentionne, je débarque ;)

Je constate en tout cas que ce choix a l'avantage de simplifier les choses pour le correcteur (avant de les simplifier pour le lecteur). Et il me semble qu'il y a moins de scanilles dues aux confusion f/s long quand on fait le choix de transcrire les "s" avec la graphie moderne. Et d'ailleurs, si nos ancêtres ont abandonné le s long, c'était sans doute pour de bonnes raisons.

Pour abandonner mon dada habituel : le dysfonctionnement de la fonction rechercher / remplacer est un vrai problème. Est-ce qu'il a été signalé ?

Acélan (discussioncontributions)

(et puis si on veut savoir où il y avait des s long, on regarde les originaux, pas des retranscriptions)

Hsarrazin (discussioncontributions)

on en a déjà parlé, hein... tu es à peu près la seule qui travaille sur des textes anciens et qui ne supporte pas les s longs

j'ai d'autant plus admiré tes corrections de fur → ſur il y a quelques jours sur des pages entièrement corrigées avec ces fameux s !!

Hsarrazin (discussioncontributions)

j'en ai parlé plusieurs fois sur le chat, mais je n'ai jamais vraiment eu d'écho...

c'est effectivement très problématique, et seulement dans l'espace page... quand je veux "vraiment" l'utiliser, par ex. pour corriger une TDM après renommage, je copie le contenu de la page dans une sous-page de travail, je fais la conversion, et je recolle le contenu dans la page

Hsarrazin (discussioncontributions)

En fait, je me demande si on ne pourrait pas établir une liste de mots pour lesquels c'est certain que le f doit être converti en s :

genre fon ; fa ; fur ; fi ; felle ;

Il devrait être possible alors de les ajouter dans le typo perso, pour les corriger automatiquement à l'ouverture d'une page - dans le même genre que Utilisateur:Acélan/vector.js, mais avec s long au lieu de s

pensez-vous qu'on pourrait construire collectivement un petit dico de ces mots, qui pourrait être appelé à volonté par le gadget Typo quand on est dans un livre ancien ? - en effet, il y a bien le gadget du Trévoux, qui est super... mais qui passe tout en "s"

-> un truc comme Utilisatrice:Hsarrazin/s_longs (j'ai bêtement ouvert une page à corriger, et copié la liste de tous les mots fautifs à coup fûr

après, il restera toujours les cas ambigus, et ceux où le s long a généré autre chose qu'un f :(

Vieux têtard (discussioncontributions)

Je suis en train d'essayer d'apprendre à mon OCR à lire les "s longs", je ne sais pas encore si ça va marcher, je te tiendrais au courant.

Hsarrazin (discussioncontributions)

en fait, je viens de trouver une astuce qui fonctionne pas mal...

à la création de la page, je passe d'abord le script du Trévoux (il s'appelle maintenant MediaWiki:Gadget-correct_long_s.js : il corrige plein d'erreurs, mais convertit tous les s longs en "s" ; ensuite, je passe Utilisateur:Psychoslave/common.js, qui convertit de manière quasi propre les s en s longs…

Il ne reste plus qu'à relire et vérifier les autres erreurs...

Gain de temps, au moins 5 mn sur une page comme Page:Raynal - Histoire philosophique et politique des établissemens et du commerce des Européens dans les deux Indes, v1.djvu/99 :)

Vieux têtard (discussioncontributions)

Après apprentissage sur 3 pages, mon Ocr détecte environ 50% des s longs du FS, il rate surtout ceux qui commencent un mot.

Comment utilise-t-on les deux scripts dont tu parle (après les avoir ajoutés à mon common.js, je suppose) ?

Hsarrazin (discussioncontributions)

MediaWiki:Gadget-correct_long_s.js est un gadget que tu actives dans tes préférences - il t'affiche un bouton "OCR" en gothique (voir image sur la page des gadgets) - tu cliques dessus...

l'autre, je l'ai intégré dans mon Utilisateur:Hsarrazin/typoClassique.js, que je n'active que quand je travaille sur des livres anciens (voir mon common.js) - du coup, il suffit de lancer le gadget Typo (bouton T) pour qu'il fasse le ménage...

Vieux têtard (discussioncontributions)

Un gros merci , ton astuce est meilleure, je n'ai plus besoin de passer par mon OCR, et j'ai moins de corrections à faire.

Ambre Troizat (discussioncontributions)

Bonjour à tous,

Merci de travailler sur l'Histoire des deux Indes & sur les s longs.

Je suis de ceux qui souhaitent conserver les s longs avec la possibilité de convertir tous les s longs en "s" dans une édition moderne.

Vieux têtard (discussioncontributions)

Reprenant un travail en cours, il m'a semblé normal de respecter les choix de mes prédécesseurs, merci à Hélène de m'avoir fourni le moyen de le faire plus aisément. De toute façon, j'aurais, moi aussi, choisi de conserver les s longs (mais le dictionnaire de modernisation va s'alourdir).

Merci aussi à Sophie Chauveau de m'avoir indiqué cet ouvrage dans son "Diderot", c'est un bonheur de la lire.

Hsarrazin (discussioncontributions)

Pour les s longs, il n'y a normalement pas besoin d'ajouter les mots au dictionnaire de modernisation... ^^

Comme il s'agit visiblement d'un ouvrage qui a été travaillé par pas mal de monde, ça pourrait être bien de mettre un ChoixEd en page de discussion du livre, pour regrouper les choix faits, et éviter de se galérer quand on participe sur quelques pages

Vieux têtard (discussioncontributions)

La m.a.j. du dictionnaire n'est pas liée aux s longs mais à toutes les formes verbales en "ois, oit" et "oient" qui n'y sont pas encore (j'ai commencé sur les pages faites avant moi, regarde mes contributions d'hier).

Pour le ChoixEd, je vais en mettre un dans la PeD de l'EP, ce qui me permettra de le transclure dans chaque PeD "Livre".

Vieux têtard (discussioncontributions)

Bonjour Hélène

Tout marchait bien jusqu'à aujourd'hui mais le bouton appelant le script MediaWiki:Gadget-correct_long_s.js a disparu et je ne sais pas comment le réactiver (il est coché dans mes préférences). As-tu une idée ?

Hsarrazin (discussioncontributions)

pas la moindre... il apparaît bien chez moi ^^

as-tu modifié quelque chose dans tes scripts, récemment ? sinon, tu peux essayer de recharger la page en faisant une prévisualisation... ça me permet généralement de récupérer le "Typo" quand il joue à cache-cache

Vieux têtard (discussioncontributions)

Excuse-moi , je me suis alarmé pour rien, le bouton du vieil OCR est réapparu.

Hsarrazin (discussioncontributions)

si ce genre de problème persiste, envoie un message ou ping Tpt ;)

Répondre à « Pas d'astuce pour les s long ? »