Utilisateur:Acélan/Brouillon2
Apparence
\b(est|a|avoit|étoit|seroit|ont|été|avoient|auroit|auroient|ayant|est pas|a pas|avoit pas|étoit pas|seroit pas|ont pas|avoient pas|auroit pas|auroient pas|ayant pas|pas été) (compos|donn|mang|gagn|achet|possed|démontr|désir|desir|pass|fond|tent|désarm|desarm|march|ét|cit|apport|assur|observ|développ|échapp|appell|habitu|élev)e\b \1 \2é \b(est|étoit|seroit|été|est pas|étoit pas|seroit pas|pas été) (charg)e\b \1 \2é \b(hospitalit|dignit|hostilit|atrocit|inégalit|inegalit|régulatit|duret|obscurit|fidélit)e\b \1é éé\b ée éés\b ées ortho varié latin leucogœi angle ([0-9]+){{e\|d}}[ ]*([0-9]+)[’'′]*[ ]*([0-9]*)[ ]([″"«» ])* {{angle|\1|\2|\3|d}} ([0-9]+){{e\|d}}[ ]*([0-9]+)[’'′]*[ ]*([0-9]*)[ ]*([″" «» ])* {{angle|\1|\2|\3|d}} ([0-9]+)’([0-9]+)" {{angle||\1|\2}} d}}([a-zéè]) d}} \1 modèle angle ???? \bAE Æ ---- utile ? ''([^'\n]*) ([;:])'' → ''\1'' \2 ''([^']*)\. Voyez'' → ''\1''. ''Voyez'' ''([^']*)\. V\.'' → ''\1''. ''V.''
à voir pour plus tard
- mot existant à la fois sous forme de mot composé et autre. (grandvisir --> grand-visir)
repérer les [@#%$~><] (on en trouve parfois à la place de certains caractères accentués)point manquant en fin de paragraphe.impossible à faire, trop de faute de ponctuation dans l'Encyclo.- repérer les <center> (200 occurrences, est-ce la peine ?)
Vérifier les sauts de lignes avant/après le modèle DeuxColonnes [1] pour éviter d'avoir 3 ou plus sauts de lignes consécutifs lors de la transclusionfaire tourner le script de suppression des sauts de lignes à l'intérieur des italiques de temps en temps, il détecte assez bien les italiques mal balancé comme {{lang|la|''aaa'}}'Page:ENC_ (lien vers les anciennes pages, il en reste quelques-uns)blockquoteXREF (il en reste quelques-uns)- height=
line-height=í ;ó ;þ ;&eagrave ;ø ;å ;Repérer les <font size=-1> qui sont des refs.la séquence page n=" marquait les limites de page, on la trouve encore parfois, dans ce genre de cas la page suivante peut ne pas contenir les vedettes correctes.la séquence <noinclude></poem></noinclude> et <noinclude><poem></noinclude> --> </poem> et <poem>la séquence -\s*<noinclude> --> modèle tiret manquantrepérer les liens de type {{EncL|mot}} au lieu de {{EncL|Mot|MOT|M|10}}- EncL d'un article vers lui-même.
- repérer les chaînes de caractère indiquant qu'un renvoi est omis (et créer un modèle temporaire "lien encyclo manquant", ou lister simplement les pages)
- listé les tags poem qui contiennent des appels à des modèles sur plusieurs lignes (cas en particulier du modèle lang assez fréquent)
- listé tous les {{lang|xx| avec xx != la
- listé tous les ae/oe/æ/œ dans dans les lang|la ?
- listé tous occurrences uniques d'un terme ?
- listé tous les [[ ?
- listé tous les
{{corr}}
et le nombres d'occurrences de chacun d'eux, listé à part les corr d'un mot qui existe ailleurs sans corr - ''[Ll]e [Cc]hevalier '' ou plus généralement <espace>'' qui peut indiquer un mot manquant.
-''- en fin de ligneA-t-on besoin de cohérence dans les noms d'articles ? (Hurons les vs. Huron, les ; cas du ou ; cas des X, Y, Z, vs X, Y, et Z) A mon avis, la cohérence risque d'être difficile à établir, et est-ce vraiment utile ? (Acélan)- des tas de poem n'ont pas la classe verse et devrait l'avoir, ajouter automatiquement la class verse à tous les poem ne contenant que des vers de moins de X caractères, ignorer les poem contenant des vers de plus Y caractères, listé les cas tangents ou toutes les lignes font entre X et Y caractères (X, Y à choisir Y > X, 20 et 40 ou 25 et 35 ?)
chercher les <(br|BR)[ ]*[/]*>
Voyez'' ou ''Voyez'' ou ''voyez'' ou voyez'' ou V''. ou ''V.'' ou voy''. ou Voy''. non suivis d'un mot : Voyez'' ou ''Voyez'' ou ''voyez'' ou voyez'' ou V''. ou ''V.'' ou voy''. ou Voy''. suivi d'un {{sc| Voyez''. Voyez'' . Voyez'', Voyez'' , Voyez'' (double saut de ligne) ''Voyez'', (double saut de ligne) Voyez'' , (double saut de ligne) ''Voyez'' , (double saut de ligne) , , , . et sans doute d'autre variantes de , non suivie d'un mot <espace>, <espace>. "''&'' *[.]" "& *[.]" deux espace consécutifs. articles qui ne se terminent pas par un point.
- {{EncL[2]?|...}} suivi d'une , '' est souvent l'indication d'un lien plus précis qu'un lien vers le début d'article. Voir aussi les patterns du type Voyez'' au ''mot'' {{EncL|Loi|LOI|L|9}} l’''article'' {{sc|Loi des Visigoths}} ; & au ''mot'' {{EncL|Code|CODE|C|3}}, l’''article'' {{sc|Code des Lois antiques, Code d’Alaric, Code d’Anian, Code d’Evarix}}
cb|ck|cn/ch,- Énumérer les
\bsort/\bfort, \bsait/\bfait, \bferoi/\bseroi, \bfut/\bsut, \bsont/\bfont, \bsond/\bfond, \bdés\b, \blés\b, \bfens, \bfelle/\bselle (felle = terme de verrerie), cois/coit/coient, \bli\b/\bti\b (si), qn, \bln (In) ou plus généralement \bl[consonnes], \blang --> sang, \bis\b (il), \biss\b (ils), \bsr\b|\bfi\b, \b(ii|Ii|iis|Iis)\b -->il(s), ’l[consonne] ’I[consonne] --> si, recut/reçut, \bsoie/\bfoie, \bsuit/\bfuit, \bsuite/\bfuite, \bsausse/\bfausse (sausse = sauce), \bchausse/\bchauffe et dérivés, avec assez de contexte pour capturer les erreurs. - idem pour participes passés sans accents (à repérer comment ?) : donne, essaye, éloigne... (trop de faux positifs directement, il faut une liste des mots précédents qui diminue le nombre de faux positifs, exemple a|avoit|est|étoit|avoient|ont, à compléter)
&#... <pre> (utiliser comme marqueur de table html manquante)
- <small>'''[omission : ... ; to see, consult fac-similé version]'''</small> deux occurrences
<i> sans </i>
Séquence ''-'' (exemple ''mi''-''doüaire'')* qui devrait être dans un nowiki {{sc|* Faucet}} --> <nowiki>*</nowiki><espace>{{sc|Faucet}} ou ''* Faucet'' --> <nowiki>*</nowiki><espace>''Faucet'', <nowiki>*</nowiki> → <nowiki>*</nowiki>mot se terminant par eés ou eé (haveleés --> {{corr|corr|havelées}})mot se terminant par éé ou éés (saléé --> {{corr|corr|salée}})nom d'article se terminant pas EE ou EES- lettres triplées.
time python search_fr.py "-regex:([^0-9}iI':.xX-])\1\1" -lang:fr -family:wikisource -namespace:Page "-filename:Diderot - Encyclopedie 1ere edition tome " -split -show_match | less
- ç majuscule dans des mots en minuscules
- Création de redirect vers des sous-partie d'article, trois (?) cas, début de paragraphe suivi d'italique, de small-cap ou d'un <nowiki>*</nowiki><espace> suivi d'un des deux cas précédent.
- Pb du signe − avant un chiffre ou dans une formule et utilisant - en place de −, peut être le même pb dans le latex ?
- Vérifier Catégorie:Caractère inconnu, Catégorie:Texte hébreu à corriger
- couple et triplet de lettre les moins utilisés, avec du contexte ?
- lister tous les mots contenant des æ/œ et ou changer le æ en œ/œ en æ retrouve un mot dans la liste.
- espace en début de ligne
time python search_fr.py "-regex:\n [^ ]" -lang:fr -family:wikisource -namespace:Page "-filename:Diderot - Encyclopedie 1ere edition tome "
- repérer mots terminés par ü ou üs (généralement à la place de ii et iis) dans le modèle lang|la (si c'est possible ?)
- la page Page:Diderot - Encyclopedie 1ere edition tome 16.djvu/953 est marqué Renvoi de la page 872 mais ça ne devrait pas être un problème, les articles sont bien séparés.
- double haut de casse consécutif dans un mot contenant des bas de casse (IIerefort --> Herefort)
- long tems --> long-tems
- lettres isolées en italique ou le contraire. hotel royal des Gobelins --> hotel royal des Gobelins
- téte(s) --> tête(s) ? fête <--> tête
- trouver une liste des verbes du premier groupe + une liste des mots se terminant par é (voir les regexps en haut)
- vider la Catégorie:Page à problème après les remplacements de scan.
- {{lang|grc|{{polytonique|''λεύκωμα''}}, faut-il virer les modèles polytoniques ?
check_splitted.py
find file/frwikisource/Page/ -name "Diderot_-_Encyclopedie_1ere_edition_tome_*" -print0 | xargs -0 grep '[@#%$~><]'