Sujet sur Discussion utilisateur:Acélan/Structured Discussions Archive 1

Cunegonde1 (discussioncontributions)

Bonjour Acélan, j'ai vu que tu as fait un passage AWB pour corriger les "là" fautifs. Pourrais-tu m'indiquer, si cela ne t'ennuie pas, la regex que tu utilises. Je voudrais à l'intégrer dans ma regex globale de recherche de scanilles avant import sur les livres que je corrige. J'en ai fait une : (?<!-)\blà(?!-), mais elle trouve pas mal de faux positifs.

Acélan (discussioncontributions)

Bonjour,

ça ne m'ennuie pas, mais ça n'est pas vraiment faisable : j'ai pêché çà et là des mots féminins précédés de là, en faisant plusieurs listes. On peut plus facilement prendre en compte ce qui précède : on est loin d'éliminer tous les cas, mais on a peu de faux positifs. Ça donne quelque chose comme ça, que je dois encore vérifier et compléter (je te dirai quand j'aurai fini) :

(?<=\b([Aa]vec|[Dd]ans|[Pp]our|[Ss]ur)\s+)là\b(?!,|-|\.)

Cunegonde1 (discussioncontributions)

Merci, j'ai effectivement repéré ces motifs qui ne peuvent pratiquement pas générer de faux positifs, mais c'est vrai que sinon les faux positifs sont assez divers, donc difficiles à circonscrire.

Hsarrazin (discussioncontributions)

bonjour :)

en sens inverse, par contre, tout "la" suivi d'une ponctuation devrait être un "là", non ?

Acélan (discussioncontributions)

Oui, en recopiant la regex, je me suis justement dit qu'il fallait creuser de ce côté-là.

Cunegonde1 (discussioncontributions)

Peut-être mais problème si précédé par un "-" ex. utilisez-la comme il convient.

Cunegonde1 (discussioncontributions)

En plus dans ce cas, on cherche les "la" qui devrait être des "là" et pas les "là" qui devrait être des "la", l'accent fautif provient en général de mini-pétouilles.

Acélan (discussioncontributions)

Oui, mais comme indiqué plus haut, impossible de trouver une regex qui repère tous les "là" qui devraient être des "la".

Acélan (discussioncontributions)

Ce qui fonctionne le mieux en effet, c'est (?<!-)\bla(?=,|-|\.| ;| :| \?)

Reste le problème des notes de musique et des textes anciens, mais le nombre de faux positifs est assez limité, je suis en train de tester.

Cunegonde1 (discussioncontributions)

Sauf erreur de ma part, contrairement à "là", "la" ne peut pas être suivi de : ponctuation, articles y compris élidés, pronoms possessifs, pronoms personnels, conjonctions de subordination, prépositions, verbe conjugué, tout(e)(s), tous, pour, dès, jusqu(’)(e).

Cunegonde1 (discussioncontributions)

Avec ta dernière regex, j'ai trouvé un faux positif sur "la" suivi d'un "-" à-la-fois

Acélan (discussioncontributions)

Impossible de supprimer tous les faux positifs, surtout sur les graphies non modernes (actuellement, on ne met plus de tiret dans "à la fois"). Le principal est d'avoir un bon ratio de détection.

Cunegonde1 (discussioncontributions)

C'est excellent pour les ponctuations fautives derrière "la". J'en ai trouvé pas mal sur les 10 tomes de Histoire de Justine de Sade. Là encore ce sont des pétouilles qui créent la virgule fautive. Et j'ai trouvé un "la-dessus". Bravo.

Acélan (discussioncontributions)

Oui, "la-", en particulier est à peu près toujours problématique : pétouilles, coquilles ou scanilles. Ce qui fait que ce n'est malheureusement pas facile à traiter avec AWB.

Répondre à « Regex pour correction : là fautif => la »