Utilisateur:Acélan/Brouillon2

La bibliothèque libre.
Sauter à la navigation Sauter à la recherche

\b(est|a|avoit|étoit|seroit|ont|été|avoient|auroit|auroient|ayant|est pas|a pas|avoit pas|étoit pas|seroit pas|ont pas|avoient pas|auroit pas|auroient pas|ayant pas|pas été) (compos|donn|mang|gagn|achet|possed|démontr|désir|desir|pass|fond|tent|désarm|desarm|march|ét|cit|apport|assur|observ|développ|échapp|appell|habitu|élev)e\b
\1 \2é
\b(est|étoit|seroit|été|est pas|étoit pas|seroit pas|pas été) (charg)e\b
\1 \2é
\b(hospitalit|dignit|hostilit|atrocit|inégalit|inegalit|régulatit|duret|obscurit|fidélit)e\b
\1é
éé\b
ée
éés\b
ées

ortho varié

latin

leucogœi

angle

([0-9]+){{e\|d}}[ ]*([0-9]+)[’'′]*[ ]*([0-9]*)[ ]([″"«» ])*
{{angle|\1|\2|\3|d}} 
([0-9]+){{e\|d}}[ ]*([0-9]+)[’'′]*[ ]*([0-9]*)[ ]*([″" «» ])*
{{angle|\1|\2|\3|d}}
([0-9]+)’([0-9]+)"
{{angle||\1|\2}}
d}}([a-zéè])
d}} \1

modèle angle

????
\bAE
Æ

----
utile ?

''([^'\n]*) ([;:])''  → ''\1'' \2
''([^']*)\. Voyez'' → ''\1''. ''Voyez''
''([^']*)\. V\.'' → ''\1''. ''V.''

à voir pour plus tard

  • mot existant à la fois sous forme de mot composé et autre. (grandvisir --> grand-visir)
  • repérer les [@#%$~><] (on en trouve parfois à la place de certains caractères accentués)
  • point manquant en fin de paragraphe. impossible à faire, trop de faute de ponctuation dans l'Encyclo.
  • repérer les <center> (200 occurrences, est-ce la peine ?)
  • Vérifier les sauts de lignes avant/après le modèle DeuxColonnes [1] pour éviter d'avoir 3 ou plus sauts de lignes consécutifs lors de la transclusion
  • faire tourner le script de suppression des sauts de lignes à l'intérieur des italiques de temps en temps, il détecte assez bien les italiques mal balancé comme {{lang|la|''aaa'}}'
  • Page:ENC_ (lien vers les anciennes pages, il en reste quelques-uns)
  • blockquote
  • XREF (il en reste quelques-uns)
  • height=
  • line-height=
  • &iacute ;
  • &oacute ;
  • &thorn ;
  • &eagrave ;
  • &oslash ;
  • &aring ;
  • Repérer les <font size=-1> qui sont des refs.
  • la séquence page n=" marquait les limites de page, on la trouve encore parfois, dans ce genre de cas la page suivante peut ne pas contenir les vedettes correctes.
  • la séquence <noinclude></poem></noinclude> et <noinclude><poem></noinclude> --> </poem> et <poem>
  • la séquence -\s*<noinclude> --> modèle tiret manquant
  • repérer les liens de type {{EncL|mot}} au lieu de {{EncL|Mot|MOT|M|10}}
  • EncL d'un article vers lui-même.
  • repérer les chaînes de caractère indiquant qu'un renvoi est omis (et créer un modèle temporaire "lien encyclo manquant", ou lister simplement les pages)
  • listé les tags poem qui contiennent des appels à des modèles sur plusieurs lignes (cas en particulier du modèle lang assez fréquent)
  • listé tous les {{lang|xx| avec xx != la
  • listé tous les ae/oe/æ/œ dans dans les lang|la ?
  • listé tous occurrences uniques d'un terme ?
  • listé tous les [[ ?
  • listé tous les {{corr}} et le nombres d'occurrences de chacun d'eux, listé à part les corr d'un mot qui existe ailleurs sans corr
  • ''[Ll]e [Cc]hevalier '' ou plus généralement <espace>'' qui peut indiquer un mot manquant.
  • -''
  • - en fin de ligne
  • A-t-on besoin de cohérence dans les noms d'articles ? (Hurons les vs. Huron, les ; cas du ou ; cas des X, Y, Z, vs X, Y, et Z) A mon avis, la cohérence risque d'être difficile à établir, et est-ce vraiment utile ? (Acélan)
  • des tas de poem n'ont pas la classe verse et devrait l'avoir, ajouter automatiquement la class verse à tous les poem ne contenant que des vers de moins de X caractères, ignorer les poem contenant des vers de plus Y caractères, listé les cas tangents ou toutes les lignes font entre X et Y caractères (X, Y à choisir Y > X, 20 et 40 ou 25 et 35 ?)
  • chercher les <(br|BR)[ ]*[/]*>
Voyez'' ou ''Voyez'' ou ''voyez'' ou voyez'' ou V''. ou ''V.'' ou voy''. ou Voy''. non suivis d'un mot :
Voyez''  ou ''Voyez'' ou ''voyez'' ou voyez'' ou V''. ou ''V.'' ou voy''. ou Voy''. suivi d'un {{sc|
Voyez''.
Voyez'' .
Voyez'',
Voyez'' ,
Voyez'' (double saut de ligne)
''Voyez'', (double saut de ligne)
Voyez'' , (double saut de ligne)
''Voyez'' , (double saut de ligne)
, ,
, . et sans doute d'autre variantes de , non suivie d'un mot
<espace>,
<espace>.
"''&'' *[.]"
"& *[.]"
deux espace consécutifs.
articles qui ne se terminent pas par un point.
  • {{EncL[2]?|...}} suivi d'une , '' est souvent l'indication d'un lien plus précis qu'un lien vers le début d'article. Voir aussi les patterns du type Voyez'' au ''mot'' {{EncL|Loi|LOI|L|9}} l’''article'' {{sc|Loi des Visigoths}} ; & au ''mot'' {{EncL|Code|CODE|C|3}}, l’''article'' {{sc|Code des Lois antiques, Code d’Alaric, Code d’Anian, Code d’Evarix}}
  • cb|ck|cn/ch,
  • Énumérer les \bsort/\bfort, \bsait/\bfait, \bferoi/\bseroi, \bfut/\bsut, \bsont/\bfont, \bsond/\bfond, \bdés\b, \blés\b, \bfens, \bfelle/\bselle (felle = terme de verrerie), cois/coit/coient, \bli\b/\bti\b (si), qn, \bln (In) ou plus généralement \bl[consonnes], \blang --> sang, \bis\b (il), \biss\b (ils), \bsr\b|\bfi\b, \b(ii|Ii|iis|Iis)\b -->il(s), ’l[consonne] ’I[consonne] --> si, recut/reçut, \bsoie/\bfoie, \bsuit/\bfuit, \bsuite/\bfuite, \bsausse/\bfausse (sausse = sauce), \bchausse/\bchauffe et dérivés, avec assez de contexte pour capturer les erreurs.
  • idem pour participes passés sans accents (à repérer comment ?) : donne, essaye, éloigne... (trop de faux positifs directement, il faut une liste des mots précédents qui diminue le nombre de faux positifs, exemple a|avoit|est|étoit|avoient|ont, à compléter)
&#...
<pre> (utiliser comme marqueur de table html manquante)
  • <small>'''[omission : ... ; to see, consult fac-similé version]'''</small> deux occurrences
<i> sans </i>
  • Séquence ''-'' (exemple ''mi''-''doüaire'')
  • * qui devrait être dans un nowiki {{sc|* Faucet}} --> <nowiki>*</nowiki><espace>{{sc|Faucet}} ou ''* Faucet'' --> <nowiki>*</nowiki><espace>''Faucet'', <nowiki>*</nowiki>&nbsp; → <nowiki>*</nowiki>
  • mot se terminant par eés ou eé (haveleés --> {{corr|corr|havelées}})
  • mot se terminant par éé ou éés (saléé --> {{corr|corr|salée}})
  • nom d'article se terminant pas EE ou EES
  • lettres triplées. time python search_fr.py "-regex:([^0-9}iI':.xX-])\1\1" -lang:fr -family:wikisource -namespace:Page "-filename:Diderot - Encyclopedie 1ere edition tome " -split -show_match | less
  • ç majuscule dans des mots en minuscules
  • Création de redirect vers des sous-partie d'article, trois (?) cas, début de paragraphe suivi d'italique, de small-cap ou d'un <nowiki>*</nowiki><espace> suivi d'un des deux cas précédent.
  • Pb du signe − avant un chiffre ou dans une formule et utilisant - en place de −, peut être le même pb dans le latex ?
  • Vérifier Catégorie:Caractère inconnu, Catégorie:Texte hébreu à corriger
  • couple et triplet de lettre les moins utilisés, avec du contexte ?
  • lister tous les mots contenant des æ/œ et ou changer le æ en œ/œ en æ retrouve un mot dans la liste.
  • espace en début de ligne time python search_fr.py "-regex:\n [^ ]" -lang:fr -family:wikisource -namespace:Page "-filename:Diderot - Encyclopedie 1ere edition tome "
  • repérer mots terminés par ü ou üs (généralement à la place de ii et iis) dans le modèle lang|la (si c'est possible ?)
  • la page Page:Diderot - Encyclopedie 1ere edition tome 16.djvu/953 est marqué Renvoi de la page 872 mais ça ne devrait pas être un problème, les articles sont bien séparés.
  • double haut de casse consécutif dans un mot contenant des bas de casse (IIerefort --> Herefort)
  • long tems --> long-tems
  • lettres isolées en italique ou le contraire. hotel royal des Gobelins --> hotel royal des Gobelins
  • téte(s) --> tête(s) ? fête <--> tête
  • trouver une liste des verbes du premier groupe + une liste des mots se terminant par é (voir les regexps en haut)
  • vider la Catégorie:Page à problème après les remplacements de scan.
  • {{lang|grc|{{polytonique|''λεύκωμα''}}, faut-il virer les modèles polytoniques ?

check_splitted.py


find file/frwikisource/Page/ -name "Diderot_-_Encyclopedie_1ere_edition_tome_*" -print0 | xargs -0 grep '[@#%$~><]'