Utilisateur:Acélan/Brouillon2


\b(est|a|avoit|étoit|seroit|ont|été|avoient|auroit|auroient|ayant|est pas|a pas|avoit pas|étoit pas|seroit pas|ont pas|avoient pas|auroit pas|auroient pas|ayant pas|pas été) (compos|donn|mang|gagn|achet|possed|démontr|désir|desir|pass|fond|tent|désarm|desarm|march|ét|cit|apport|assur|observ|développ|échapp|appell|habitu|élev)e\b
\1 \2é
\b(est|étoit|seroit|été|est pas|étoit pas|seroit pas|pas été) (charg)e\b
\1 \2é
\b(hospitalit|dignit|hostilit|atrocit|inégalit|inegalit|régulatit|duret|obscurit|fidélit)e\b
\1é
éé\b
ée
éés\b
ées

ortho varié

latin

leucogœi

angle

([0-9]+){{e\|d}}[ ]*([0-9]+)[’'′]*[ ]*([0-9]*)[ ]([″"«» ])*
{{angle|\1|\2|\3|d}} 
([0-9]+){{e\|d}}[ ]*([0-9]+)[’'′]*[ ]*([0-9]*)[ ]*([″" «» ])*
{{angle|\1|\2|\3|d}}
([0-9]+)’([0-9]+)"
{{angle||\1|\2}}
d}}([a-zéè])
d}} \1

modèle angle

????
\bAE
Æ

----
utile ?

''([^'\n]*) ([;:])''  → ''\1'' \2
''([^']*)\. Voyez'' → ''\1''. ''Voyez''
''([^']*)\. V\.'' → ''\1''. ''V.''

à voir pour plus tard

mot existant à la fois sous forme de mot composé et autre. (grandvisir --> grand-visir)
~~repérer les [@#%$~><] (on en trouve parfois à la place de certains caractères accentués)~~
~~point manquant en fin de paragraphe.~~ impossible à faire, trop de faute de ponctuation dans l'Encyclo.
repérer les <center> (200 occurrences, est-ce la peine ?)
~~Vérifier les sauts de lignes avant/après le modèle DeuxColonnes [1] pour éviter d'avoir 3 ou plus sauts de lignes consécutifs lors de la transclusion~~
~~faire tourner le script de suppression des sauts de lignes à l'intérieur des italiques de temps en temps, il détecte assez bien les italiques mal balancé comme {{lang|la|''aaa'}}'~~
~~Page:ENC_ (lien vers les anciennes pages, il en reste quelques-uns)~~
~~blockquote~~
~~XREF (il en reste quelques-uns)~~
height=
~~line-height=~~
~~&iacute ;~~
~~&oacute ;~~
~~&thorn ;~~
~~&eagrave ;~~
~~&oslash ;~~
~~&aring ;~~
~~Repérer les <font size=-1> qui sont des refs.~~
~~la séquence page n=" marquait les limites de page, on la trouve encore parfois, dans ce genre de cas la page suivante peut ne pas contenir les vedettes correctes.~~
~~la séquence <noinclude></poem></noinclude> et <noinclude><poem></noinclude> --> </poem> et <poem>~~
~~la séquence -\s*<noinclude> --> modèle tiret manquant~~
~~repérer les liens de type {{EncL|mot}} au lieu de {{EncL|Mot|MOT|M|10}}~~
EncL d'un article vers lui-même.
repérer les chaînes de caractère indiquant qu'un renvoi est omis (et créer un modèle temporaire "lien encyclo manquant", ou lister simplement les pages)
listé les tags poem qui contiennent des appels à des modèles sur plusieurs lignes (cas en particulier du modèle lang assez fréquent)
listé tous les {{lang|xx| avec xx != la
listé tous les ae/oe/æ/œ dans dans les lang|la ?
listé tous occurrences uniques d'un terme ?
listé tous les [[ ?
listé tous les {{corr}} et le nombres d'occurrences de chacun d'eux, listé à part les corr d'un mot qui existe ailleurs sans corr
''[Ll]e [Cc]hevalier '' ou plus généralement <espace>'' qui peut indiquer un mot manquant.
~~-''~~
~~- en fin de ligne~~
A-t-on besoin de cohérence dans les noms d'articles ? (Hurons les vs. Huron, les ; cas du ou ; cas des X, Y, Z, vs X, Y, et Z) A mon avis, la cohérence risque d'être difficile à établir, et est-ce vraiment utile ? (Acélan)
des tas de poem n'ont pas la classe verse et devrait l'avoir, ajouter automatiquement la class verse à tous les poem ne contenant que des vers de moins de X caractères, ignorer les poem contenant des vers de plus Y caractères, listé les cas tangents ou toutes les lignes font entre X et Y caractères (X, Y à choisir Y > X, 20 et 40 ou 25 et 35 ?)
~~chercher les <(br|BR)[ ]*[/]*>~~

Voyez'' ou ''Voyez'' ou ''voyez'' ou voyez'' ou V''. ou ''V.'' ou voy''. ou Voy''. non suivis d'un mot :
Voyez''  ou ''Voyez'' ou ''voyez'' ou voyez'' ou V''. ou ''V.'' ou voy''. ou Voy''. suivi d'un {{sc|
Voyez''.
Voyez'' .
Voyez'',
Voyez'' ,
Voyez'' (double saut de ligne)
''Voyez'', (double saut de ligne)
Voyez'' , (double saut de ligne)
''Voyez'' , (double saut de ligne)
, ,
, . et sans doute d'autre variantes de , non suivie d'un mot
<espace>,
<espace>.
"''&'' *[.]"
"& *[.]"
deux espace consécutifs.
articles qui ne se terminent pas par un point.

{{EncL[2]?|...}} suivi d'une , '' est souvent l'indication d'un lien plus précis qu'un lien vers le début d'article. Voir aussi les patterns du type Voyez'' au ''mot'' {{EncL|Loi|LOI|L|9}} l’''article'' {{sc|Loi des Visigoths}} ; & au ''mot'' {{EncL|Code|CODE|C|3}}, l’''article'' {{sc|Code des Lois antiques, Code d’Alaric, Code d’Anian, Code d’Evarix}}
~~cb|ck|cn/ch,~~
Énumérer les ~~\bsort/\bfort~~, \bsait/\bfait, \bferoi/\bseroi, \bfut/\bsut, \bsont/\bfont, \bsond/\bfond, \bdés\b, \blés\b, \bfens, \bfelle/\bselle (felle = terme de verrerie), cois/coit/coient, \bli\b/\bti\b (si), qn, \bln (In) ou plus généralement \bl[consonnes], \blang --> sang, \bis\b (il), \biss\b (ils), \bsr\b|\bfi\b, \b(ii|Ii|iis|Iis)\b -->il(s), ’l[consonne] ’I[consonne] --> si, recut/reçut, \bsoie/\bfoie, \bsuit/\bfuit, \bsuite/\bfuite, \bsausse/\bfausse (sausse = sauce), \bchausse/\bchauffe et dérivés, avec assez de contexte pour capturer les erreurs.
idem pour participes passés sans accents (à repérer comment ?) : donne, essaye, éloigne... (trop de faux positifs directement, il faut une liste des mots précédents qui diminue le nombre de faux positifs, exemple a|avoit|est|étoit|avoient|ont, à compléter)

&#...
<pre> (utiliser comme marqueur de table html manquante)

<small>'''[omission : ... ; to see, consult fac-similé version]'''</small> deux occurrences

<i> sans </i>

~~Séquence ''-'' (exemple ''mi''-''doüaire'')~~
* qui devrait être dans un nowiki {{sc|* Faucet}} --> <nowiki>*</nowiki><espace>{{sc|Faucet}} ou ''* Faucet'' --> <nowiki>*</nowiki><espace>''Faucet'', <nowiki>*</nowiki>  → <nowiki>*</nowiki>
~~mot se terminant par eés ou eé (haveleés --> {{corr|corr|havelées}})~~
~~mot se terminant par éé ou éés (saléé --> {{corr|corr|salée}})~~
~~nom d'article se terminant pas EE ou EES~~
lettres triplées. time python search_fr.py "-regex:([^0-9}iI':.xX-])\1\1" -lang:fr -family:wikisource -namespace:Page "-filename:Diderot - Encyclopedie 1ere edition tome " -split -show_match | less
ç majuscule dans des mots en minuscules
Création de redirect vers des sous-partie d'article, trois (?) cas, début de paragraphe suivi d'italique, de small-cap ou d'un <nowiki>*</nowiki><espace> suivi d'un des deux cas précédent.
Pb du signe − avant un chiffre ou dans une formule et utilisant - en place de −, peut être le même pb dans le latex ?
Vérifier Catégorie:Caractère inconnu, Catégorie:Texte hébreu à corriger
couple et triplet de lettre les moins utilisés, avec du contexte ?
lister tous les mots contenant des æ/œ et ou changer le æ en œ/œ en æ retrouve un mot dans la liste.
espace en début de ligne time python search_fr.py "-regex:\n [^ ]" -lang:fr -family:wikisource -namespace:Page "-filename:Diderot - Encyclopedie 1ere edition tome "
repérer mots terminés par ü ou üs (généralement à la place de ii et iis) dans le modèle lang|la (si c'est possible ?)
la page Page:Diderot - Encyclopedie 1ere edition tome 16.djvu/953 est marqué Renvoi de la page 872 mais ça ne devrait pas être un problème, les articles sont bien séparés.
double haut de casse consécutif dans un mot contenant des bas de casse (IIerefort --> Herefort)
long tems --> long-tems
lettres isolées en italique ou le contraire. hotel royal des Gobelins --> hotel royal des Gobelins
téte(s) --> tête(s) ? fête <--> tête
trouver une liste des verbes du premier groupe + une liste des mots se terminant par é (voir les regexps en haut)
vider la Catégorie:Page à problème après les remplacements de scan.
{{lang|grc|{{polytonique|''λεύκωμα''}}, faut-il virer les modèles polytoniques ?

check_splitted.py

find file/frwikisource/Page/ -name "Diderot_-_Encyclopedie_1ere_edition_tome_*" -print0 | xargs -0 grep '[@#%$~><]'