Discussion MediaWiki:Gadget-Erreurs-communes.js

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Ajouter un sujet
La bibliothèque libre.
Dernier commentaire : il y a 2 ans par ElioPrrl dans le sujet Clans — Dans

Optimisation[modifier]

J'ai essayé d'optimiser cette fonction avec ce diff ou en mot plus clair plutôt que d'exécuter N regexp sur les nœuds textes, j'ai exécuter une seule regexp, le join('|') des N regexps, déjà les résultats sont différents [1] montre 43 erreurs avec l'ancienne version, 42 avec la nouvelle, de plus les résultats sont très mitigés.

FF = firefox 3.6, Chrome = 5.0

ancienne version nouvelle version
Chrome Firefox Chrome Firefox
Page 1 [1] 7.922 1.227 6.969 0.924
Page 2 [2] 1.443 2.02 1.242 3.185[3]

Conclusion le code html complexe pose plus de problème que des pages lourdes avec du html simple. L'astuce du '|'.join() qui fonctionne très bien en python, marche très mal avec javascript, sur une page lourde FF est même plus lent avec cette méthode.

Il va donc falloir probablement limiter le nombre de nœud texte maximum où l'on recherche la typographie et la taille maximale de texte vérifier.

Phe 18 septembre 2011 à 16:57 (UTC)Répondre


  1. Page pas très grosse mais contenant un grand nombre de nœud texte (~6000 sous la forme de <a>...</a>)
  2. Page contenant peu de nœud texte mais très grosse (800 ko de wikicode, très peu de wikification).
  3. Résultat incohérent ? peut être un problème avec la définition des regexp javascript elle même, à tester avec IE.

Quelques remarques[modifier]

J’utilise ce gadget de temps en temps, j’en profite donc quelques retours sur l’expérience que j’en ai eu. D’abord, j’annonce que je n’ai que des compétences limités en code (et quasi-nulle en js). Le point positif est que je n’ai eu que très peu de faux-positifs (y compris sur des textes en anciens français). Le seul détail qui me gêne c’est que les erreurs sont calibrés pour la typographie du XXe siècle alors que je préfère respecter la typographie de l’époque (du coup, j’ai souvent les erreurs « A » ou d’espace avant deux points), mais rien de grave. Peut-être faudrait-il juste séparer les erreurs possibles d’erreurs seulement probables.

Je travaille aussi souvent sur des textes comprenant le mot « celte », il n’y aurait pas moyen de corriger cela ? (au minimum de retirer « celtes » et le mot « celte[s] » suivi d’un point final).

Inversement, le script ne semble pas bon pour repérer la scanille I/l/1 (etc.), notamment tout les « II y » en lieu et place de « Il y » (là, il y peut y avoir de nombreux faux positifs à cause des noms de dynastes : « Nicolas II y était » ; à mettre dans « erreurs probables » ?). Par contre, la quasi-totalité des « ll » sont des erreurs (et ne sont pas toujours repérés).

Sinon, comme déjà repéré, il a quelques bugs au niveau de saut de lignes.

Cdlt, VIGNERON * discut. 1 décembre 2011 à 14:48 (UTC)Répondre

Fait. — Phe 6 septembre 2012 à 13:29 (UTC)Répondre

À ajouter ?[modifier]

  • c’est-a-dire
  • année débutant par un i, ex. i899
  • ù et éventuellement toutes les autres lettres isolées qu'on ne retrouve habituellement pas en français

Pyb (d · c · b)

    • Pour les dates (groupe de quatre caractères étant normalement uniquement des chiffres 0-9), je précise même : tout les i/l/I et les O que l’on retrouve au milieu de chiffres (je tombe souvent sur les 15OO pour 1500 ou des 15ll pour 1511…).
    • Pour les lettres isolés, je peux me tromper mais il me semble que le « a » isolé (verbe avoir) est moins courant que le « à » (préposition) Cdlt, VIGNERON * discut. 25 février 2012 à 18:20 (UTC)Répondre

« Tun » et « Tune » (« l’un » et « l’une ») non précédés d’un point. Marc (d) 6 septembre 2012 à 12:37 (UTC)Répondre

est-a-dire, Tun, Tune et ù fait, quelles autres lettres isolés ? Pour les dates, j’ai ajouté tous chiffres suivis par une lettre et toute lettres suivis par un chiffre, est-ce correct ? — Phe 6 septembre 2012 à 14:05 (UTC)Répondre
Merci. Les « II » se trouvent surlignés, comme dans Journal d’un écrivain. Marc (d) 6 septembre 2012 à 15:13 (UTC)Répondre
je dirais les "j" tout seul entre deux mots... généralement, ça correspond à un point virgule mal identifié... --Hélène (d) 6 septembre 2012 à 17:40 (UTC)Répondre

I, l et 1[modifier]

Bonjour,

Le repérage des II est bien pratique par contre, cela entraîne parfois des faux-positifs (comme sur Journal d’un écrivain comme le signale Marc). Est-ce que l’on pourrait retirer les numérotations « II. » (hors chapitrage, si un « II » se retrouve en fin de phrase, donc suivi d’un point, c’est très probablement un monarque ou équivalent, « La mort du roi Jacques II. »).

Cdlt, VIGNERON * discut. 23 octobre 2012 à 06:59 (UTC)Répondre

II doit être précédé par un . ou être en début de ligne pour matché, ça devrait aller mieux. — Phe 1 février 2013 à 11:37 (UTC)Répondre

à/a[modifier]

L’accent est souvent oublié sur le « a ». Actuellement, on repère le A capitale mais pas ceux en minuscules. Je reviens donc sur mon idée de distinguer les erreurs possibles des erreurs probables (on pourrait ainsi ajouter tout un tas de cas en zone grise comme les lettre isolés qui ne sont pas forcément des erreurs mais qui peuvent l’être), serait-ce possible ?

Cdlt, VIGNERON * discut. 5 novembre 2012 à 11:02 (UTC)Répondre

"Souvent", je dirais que ça dépend fortement de la qualité de l’OCR. J’avais pensé à proposer ce signalement, mais je ne vois pas comment tu vas distinguer un a d’un à par un script. La solution que je voyais était de signaler tous les a, mais je pense qu’avec l’habitude de les voir surlignés, on ne les remarquera par plus que si on ne les surligne pas. Aristoi (d) 5 novembre 2012 à 23:41 (UTC)Répondre
J'ai quand même ajouté un cas très courant c’est-a-dire, mais on ne peut pas trop se permettre de multiplier les regex pour des cas particuliers, ce script à déjà tendance à faire ramer ma machine dès que les pages sont un peu volumineuses... — Phe 1 février 2013 à 11:33 (UTC)Répondre

Pour les a on pourrait repérer des expressions dont on est certain, mais cela alourdira peut-être le code si on veut les mettre toutes... expemple : tout à coup, tout à fait, tout à l'heure (si on se limite à "tout à", on aura sans doute plus de faux positifs) Sapcal22 (d) 1 février 2013 à 12:40 (UTC)Répondre

Voir la section ci-dessous. — Phe 7 février 2013 à 01:23 (UTC)Répondre

ou/où[modifier]

J'ai eu de bons résultats avec cas ou, au point ou -> où mais je ne sais plus les faux positifs s'ils étaient nombreux. Sapcal22 (d) 1 février 2013 à 12:39 (UTC)Répondre

Le problème est que ce gadget ralentit beaucoup le browser sur les grosses pages, il faut que je trouve le temps de résoudre ça, j'ai plusieurs pistes, 1) dans l'espace de nom Page: être généreux sur les regexp appliqués, mais dans main: ne chercher que les dix ou vingt cas les plus fréquent ; 2) limiter le nombre d'erreur, plus de X erreurs (500 ?) stopper le script ; 3) limiter la taille totale du texte scanné en stoppant le script dès que X Ko ont été scanné (X = 200Ko ?). Il faut que je trouve le temps de faire ça, et pour l'instant je ne suis pas sur du choix à faire, probablement 1) et 2) et ajouter un lien sur chaque page dans la boîte à outils pour forcer le script à ne pas tenir compte des limitations imposées (histoire de pouvoir l'appliquer sur des /Texte entier). — Phe 7 février 2013 à 01:22 (UTC)Répondre

espaces[modifier]

  • Les espaces avant et après un tiret - à repérer
  • Par contre il y a des espaces avant et après —, repérer l'absence
  • Il n'y a pas d'espace en français avant et après l'apostrophe... ’ (sauf peut être cas rare où l'on éluderait un mot ?).

Qu'en penses tu ? Sapcal22 (d) 1 février 2013 à 11:16 (UTC)Répondre

Je viens des les ajouter, vu que les erreurs les plus fréquentes concerne la présence ou l'absence d'une espace, je ne gère que le cas de l'espace manquant ou en trop (1’2 par exemple n'est pas géré comme incorrecte) — Phe 1 février 2013 à 11:31 (UTC)Répondre
Merci, et on pourrait gérer les espaces insécables aussi ? j'ai l'impression qu'ils sont passés au travers. Sapcal22 (d) 1 février 2013 à 21:11 (UTC)Répondre
Hmm, je crois que je les ai ajoutées, mais pour —, il faut les gérer aussi dans quel cas ? — Phe 7 février 2013 à 01:28 (UTC)Répondre

modèle {{s}}[modifier]

Il faudrait prendre en compte ce modèle quand on oublie de ne pas ajouter "siècle" (exemple : {{s|XIX}} siècle qui fait XIXe siècle siècle) --Acélan (d) 25 février 2013 à 17:19 (UTC)Répondre

tilde[modifier]

Dans certains scans, on voit un ~ à la place d'un tiret ; dans tous les cas, le tilde seul est généralement une scanille. --Acélan (d) 30 mars 2013 à 19:50 (UTC)Répondre

Fait , celui là peut être ajouté dans une classe de caractère déjà existante. — Phe 30 mars 2013 à 20:08 (UTC)Répondre

ligure, lés, dés, Us, inonde[modifier]

  • On voit souvent "ligure" et "ligures" à la place de "figure" et "figures".
  • "lés" et "dés" à la place de "les" et "des" sont fréquents aussi ; même si cela peut occasionner quelques faux positifs (mais "môme" est dans le même cas), il pourrait être utile de les ajouter ?
  • "Us" à la place de "Ils"
  • inonde (pour monde) est très courant ; inonde est rare (et "le inonde", "du inonde", normalement, ça n'existe pas du tout).

--Acélan (d) 9 octobre 2013 à 15:04 (UTC)Répondre

  • arec pour avec : sur plus de 300 résultats obtenus avec AWB, moins de 10 faux positifs

--Acélan (d) 6 janvier 2014 à 16:50 (UTC)Répondre

Succession de lettres impossibles[modifier]

Bonjour,

Cet outil est très utile mais propose parfois des faux-positifs (une apostrophe précédée ou suivie d’une espace n’est pas courant mais pas si rare non plus, idem pour les abréviations qui contiennent des points sans être suivi d’une capitale). C’est un peu dommage mais je préfère avoir quelques faux-positifs que de passé à côté d’une coquille.

Par contre, il y a le cas des successions de lettres clairement impossibles qui ne sont pas repérés actuellement par l’outil. Parmi ces successions, je pensais notamment à « cbe » (le « b » étant une scanille courante pour le « h », la succession « cbe » n’existant en français que pour des emprunts et les quelques mots de la familles de Locberrienois, hors le nom de la commune de Locmaria-Berrien n’existe que depuis 1955) et aux successions de 43 caractères identiques (à part les onomatopées, je ne vois pas même dans les langues ; 2 c’est assez courant, 3 cela arrive encore parfois, notamment en anglais et en allemand, donc dans des emprunts en français très rarement mais 4 je ne vois pas). Serait-il possible d’ajouter ces cas ? (ou bien cela serait-il trop coûteux ?).

Cdlt, VIGNERON * discut. 29 mars 2014 à 14:13 (UTC)Répondre

Ligatures esthétiques[modifier]

Bonjour,

Encore une suggestion : les ligatures esthétiques ff, fi, fl, ffi, ffl, ſt, et st ne devraient jamais être utilisées. Quelqu'un pourrait-il les ajouter au gadget ? Notification Phe :

Cdlt, VIGNERON * discut. 13 juillet 2015 à 15:45 (UTC)Répondre

Il y en avait déjà quelques unes, j'ai ajouté les autres. — Phe 13 juillet 2015 à 15:49 (UTC)Répondre

Éviter les maths[modifier]

Notification Tpt : il faudrait ajouter ce qui suit à la ligne 270 : .not($(".mwe-math-element *")). Il y a beaucoup trop d'erreur sur les pages contenant des formules mathématiques. 519 sur cette page, 9 avec le filtre. Merci par avance. R [CQ, ici W9GFO] 18 mai 2017 à 15:55 (UTC)Répondre

Fait . Tpt (d) 18 mai 2017 à 16:23 (UTC)Répondre

Clans — Dans[modifier]

@Phe et @R D’habitude, je rajoute plutôt des scanilles sur une sous-page de ma page utilisateur, mais là je voudrais enlever un certain nombre de scanilles, et je pense que je ne peux pas le faire sans modifier cette page. Serait-il possible de ne plus surligner les expressions « les clans, des clans, ces clans », fréquentes dans les textes d’anthropologie ou de sociologie, sachant qu’on ne risque pas de rencontrer « *les dans, *des dans, *ces dans » (sauf cas du genre « Mettez-les dans l’eau ») ? Je propose pour ça une expression (on peut remplacer les espaces par \\s, normalement, mais le gadget utilise plutôt une variable bw) :

(?<!(Les| les|Des| des|Ces| ces)) clans

Sinon, pourquoi y voyez-vous une opposition ? Merci Merci ! d’avance ! — ElioPrrl (d) 1 juin 2021 à 21:50 (UTC)Répondre

Je renouvelle ma demande, et ajoute la suivante : pourrait-on excepter également A priori et A fortiori, où le A non accentué n’est pas fautif ? Merci ! — ElioPrrl (d) 11 juin 2021 à 22:43 (UTC)Répondre