Sujet sur Discussion utilisateur:Acélan/Structured Discussions Archive 1

nouvelle scanille "lapis" > "tapis"

22 commentaires • 6 juin 2021 à 09:38 il y a 3 ans

22

Bonjour Acelan, j'ai vu que tu avais corrigé "lapis" en "tapis" sur un livre que j'ai transcrit et je t'en remercie. Je ne connaissais pas cette scanille de confusion l/t qui est nouvelle pour moi (elle n'est pas dans la liste). A mon avis cela vaut le coup de l'ajouter au script, car il ne doit pas y avoir de faux positifs si l'on exclue dans la regex lapis lorsqu'il est suivi de "-lazuli" ou "lazuli".

Répondre 5 juin 2021 à 08:37 il y a 3 ans

Acélan (discussioncontributions)

Bonjour,

Je viens de tomber dessus, effectivement. Ça peut valoir le coup, mais il y a beaucoup de faux positifs, en fait (pas mal de latin, entre autres, et "lazuli" est souvent omis) : si tu l'inclus, il faut aussi supprimer "bleu lapis", penser qu'on peut trouver "lazulis" au pluriel, et que lazzuli s'écrit parfois avec deux z.

Répondre 5 juin 2021 à 08:49 il y a 3 ans

Cunegonde1 (discussioncontributions)

Il me semble que la regex (?<!bleu\s)lapis(?!(\s|-)lazzulis?|(\s|-)lazulis?) permet d'exclure les faux positifs que tu as cité, sauf quand le "lazuli" est omis.

Répondre 5 juin 2021 à 09:15 il y a 3 ans

Acélan (discussioncontributions)

oui, ça semble bien :) (et les faux positifs ne me dérangent pas trop dans un cas comme ça)

Répondre 5 juin 2021 à 09:16 il y a 3 ans

Cunegonde1 (discussioncontributions)

Je notifie à @ElioPrrl cet échange.

Répondre 5 juin 2021 à 09:45 il y a 3 ans

ElioPrrl (discussioncontributions)

Intégré à ma page, merci :)

Répondre 5 juin 2021 à 09:56 il y a 3 ans

ElioPrrl (discussioncontributions)

Par ailleurs, Cunegonde1, je comprends maintenant pourquoi ta règle de doublons qui marche sur Sigil ne marchait pas sur Wikisource (soit elle ne trouvait pas les doublons, soit elle surlignait des combinaisons « il se servait »), et pourquoi on doit échapper tous les slashs : cela vient de ce que les règles sont rentrées en tant que chaîne de caractères (entre guillemets et non entre slashs), et que de plus ces chaînes de caractères sont passées dans une fonction precompile_regex qui leur ajoute une parenthèse ouvrante au début et une fermante à la fin — de sorte que on ne pouvait utiliser \1, \2, etc., puisque toute la règle était entre parenthèses.

Je viens donc de corriger sur ma page la règle de recherches des doublons, et maintenant elle marche très bien !

Répondre Modifié 5 juin 2021 à 10:13 il y a 3 ans

Cunegonde1 (discussioncontributions)

@ElioPrrl, Bravo pour ta patience et ta compétence.

Répondre 5 juin 2021 à 10:17 il y a 3 ans

Acélan (discussioncontributions)

@Cunegonde1, @ElioPrrl

Bravo à tous les deux. Effectivement, j'avais testé ce qui était proposé sur le scriptorium, mais sans trouver cela probant. Je vais refaire un test, du coup.

Cunegonde1, dans ta regexp, tu as intégré tout ce qu'il y avait dans ma sous-page scanilles.js ? ça a l'air assez complet, mais présenté comme ça, c'est un peu illisible pour moi :/

Répondre 5 juin 2021 à 11:50 il y a 3 ans

Cunegonde1 (discussioncontributions)

Normalement oui je pense que j'avais repris intégralement ta liste, plus quelques autres scanilles dont je ne me souviens plus. Le côté illisible est inhérent aux regex c'est d'ailleurs pour ça que plus elles sont longues plus elles sont difficile à debugger. J'en ai une version de travail avec une ligne pour chaque fragment, la difficulté est ensuite de relier les fragments sans se tromper dans les parenthèses.

Pour avoir un code lisible il faut passer dans un langage propre type script perl comme celui que je me suis fait pour rectifier les ocr de mauvaises qualité avec s longs: $Lig =~ s/abuf/abuſ/g;#abuse, abuser.

Répondre Modifié 5 juin 2021 à 12:13 il y a 3 ans

Acélan (discussioncontributions)

@Cunegonde1 merci pour ta réponse. Si tu avais tout repris, je vais remplacer le contenu de ma sous-page, alors.

Répondre Modifié par Cunegonde1 5 juin 2021 à 12:29 il y a 3 ans

Cunegonde1 (discussioncontributions)

J'ai travaillé sur cette regex en 2017 je suis donc parti de ta liste telle qu'elle était à cette époque :

scanilles

arec → avec
Pavons → l’avons
Fauteur → l’auteur
dévoient → devoient
celai → celui
laveur → faveur
médians → méchans
paisse → puisse
cotte → cette
élude → étude
vêlement → vêtement
tête → tête
inonde → monde
cloute → doute
cloutes → doutes
clouter → douter
saris → sans
laite → faite
laites → faites
lemme → femme
lemmes → femmes
Gela → Cela
Tune → l’une
déplus → de plus
Gomme → Comme
soldais → soldats
laits → faits
rouie → route, roule, l’ouïe
Rouie → Rome
tonte(s) → toute(s) (très peu de faux positifs au pluriel)
raille → mille
malin
à rencontre → à l’encontre
à rentrée → à l’entrée
étalent → étaient
quanta → quant à
déplus → de plus
lésa → les a
rivai → rival
relirait → retirait
en roule → en route
roules → routes
rengagement → l’engagement
fiançais → français
profilé → profité
profiler -"se profiler" → profiter
profila, profilèrent,
Fart → l’art
plus lard → plus tard
trop lard → trop tard
bêles → bêtes
fout → font, faut, tout
dupasse → du passé
pondant → pendant
par exempte
an coin, an moins, an lieu, an milieu, an fond, an nombre, an soleil, an sud, an nord, an milieu, an dessus, an dessous, an midi, an centre, an bout, an point, an pays, an sol, an feu
clames → dames
"lactique" -acide -fermentation
une lois, cette lois, première lois, la lois
on ce moment,
celle fois
lâcheuse, lâcheuses
sou père, son frère, sou chemin, sou fils
moyeu -roues -roue
taudis que, taudis qu
tout à lait
tomme
dans sou, avec sou, de sou
eu proie, eu France, eu Italie, eu Allemagne, eu Angleterre, eu Russie, eu effet, eu hiver, eu automne, eu terre, eu général, eu route, eu marche
eu faisant, eu parlant, eu est
fondions → fonctions
parce temps, parce moyen
atout prix, atout prendre, prêt atout
parue, parues
aorte → sorte (ou porte)
moulons → moutons
au cour, son cour, mon cour, ton cour, un cour, le cour
se mil → se mit
rembarras → l’embarras
prèle → prête
sons la → sous la, sons le,
cardans → car dans
avals → avais
générai → général
je yeux, tu yeux, ne yeux
fouie → foule
retendue → l’étendue
incuite → inculte
raillions → millions
Us sont, Us étaient, Us ont, Us se, Us ne
niasse → masse
bâta, bâte, bâtes, bâtent
rétablissement → l’établissement
cotte → cette
eu lien → eu lieu
on avant → en avant
on arrière → en arrière
épouvantait → épouvantail
les veux (surtout "sous les veux", "dans les veux")
il fui → il fut (ou il lui)
gainée(s) → guinée(s)

Répondre 5 juin 2021 à 12:29 il y a 3 ans

ElioPrrl (discussioncontributions)

Bonjour Acélan !

Je viens de modifier la règle de recherche de doublons, qui produisait encore trop de faux positifs, parce que \b (word-boundary) détectait non seulement les débuts et fins de mots, mais aussi les caractères diacrités. Il faut donc remplacer, entre les guillemets, la règle de doublons par :

?!nous|vous|faire|en|s\\ss’)(?<=^|\\s)(['’a-zÀ-ÿâàéèêëîïôùûüœæſ]+)\\s\\1(\\s|\\.|\\…|,

Désolé pour ce rodage un peu difficile de la recherche de doublons

Répondre Modifié 6 juin 2021 à 08:58 il y a 3 ans

Acélan (discussioncontributions)

Merci ! quand je vois les difficultés que j'ai avec les regex, je ne peux qu'admirer le travail en question, malgré le temps de rodage. J'ai mis ta page en liste de suivi, de toute façon, donc j'ai vu que tu étais en cours de modification.

Répondre 6 juin 2021 à 08:56 il y a 3 ans

ElioPrrl (discussioncontributions)

Ah, je suis surveillé ! Je fais aussi la liste des modifications principales apportées à la règle de Cunégonde dans la page de discussion de mon scanilles.js, ce qui permet de signaler la portion de regex modifier, et de donner ce par quoi je la remplace (je compte même faire un tableau pour que ce soit plus clair). Au plaisir

Répondre 6 juin 2021 à 09:01 il y a 3 ans

Cunegonde1 (discussioncontributions)

Bonjour à tous deux, cela marche pour l'échappement des diacritiques, je coinçais sur ce point alors que c'était évident, il suffit pour poursuivre après un diacritique de définir la fin de chaîne avec une espace ou une ponctuation. Du coup, plutôt que de mettre ['’a-zÀ-ÿâàéèêëîïôùûüœæſ] tu dois pouvoir mettre ['’]\p{L} qui comprends toutes les lettres unicode qui fonctionne chez moi et qui est plus élégant. J'ai découvert récemment cette solution source.

Acelan, je suis sensible à ta remarque sur le caractère abscons des regex et j'envisage d'en faire une décomposition fragment par fragment avec pour chacun une phrase permettant de tester chaque fragment.

Répondre 6 juin 2021 à 09:21 il y a 3 ans

Acélan (discussioncontributions)

Merci Cunegonde1 !

Répondre 6 juin 2021 à 09:23 il y a 3 ans

ElioPrrl (discussioncontributions)

Je teste et je reviens !

Pour la regex, il est vrai que sur Wikisource il est assez peu utile que tout soit tenu en un seul bloc ; mais pour Sigil ou autres éditeurs, je conçois bien quel avantage on en retire : une seule passe sur le texte, plutôt que des dizaines, pour repérer toutes les scanilles répertoriées.

Répondre 6 juin 2021 à 09:23 il y a 3 ans

ElioPrrl (discussioncontributions)

Aïe, non ça ne marche pas, dommage...

Répondre 6 juin 2021 à 09:29 il y a 3 ans

Cunegonde1 (discussioncontributions)

Effectivement Elioprrl, tu as raison pour la vérification en une seule passe. A propos des faux positifs j'en ai vu avec "de de" ie : « la lettre de de Sade ». Assez vicieux car cela demande un vrai examen à d'autres endroits du livre pour déterminer si c'est fautif ou non.

Répondre 6 juin 2021 à 09:30 il y a 3 ans

ElioPrrl (discussioncontributions)

Excepter de de de la recherche de doublons, mais le faire surligner plus loin sauf si une majuscule vient après ? Ou on laisse en état ?

Répondre 6 juin 2021 à 09:37 il y a 3 ans

Acélan (discussioncontributions)

Je pense qu'on peut laisser en l'état ; il y a de toute façon des faux positifs pour à peu près tous les cas.

Répondre 6 juin 2021 à 09:38 il y a 3 ans

Répondre à « nouvelle scanille "lapis" > "tapis" »