Utilisateur:Cunegonde1/Outils
Présentation | Contributions | Brouillons | Bandeaux | Outils | Discussion |
Archives parlementaires[modifier]
[archives parlementaires sur WS]
Modernisation[modifier]
Ajouts dictionnaire de modernisation
Scripts[modifier]
accès Typo.js avec correction scanilles sur "ſ long"
accès Bandeaux, vignettes et lettrines
Gallica.py script de Seudo pour récupérer les images de pages de Gallica
En cours de développement un outil script ſ longs qui facilite la modification des f en ſ (s long) sur les textes en sortie d'OCR. L'outil s'appuie sur "sed" et un minidictionnaire. La syntaxe à utiliser dans un terminal est : sed 's/mot_initial/mot_changé/g; s/mot_initial2/mot_changé2/g;' mon_texte.txt > mon_texte_modifie.txt
. sed 's/ (pour substitute)…/…/g (pour global, qui change le mot dans tout le texte sélectionné). Cela fonctionne sur mac (sans regex) et sur linux (avec regex) avec un minidictionnaire d'environ 500 motifs (reufe, rieufe, ieufe…) ou mots. L'utilité de l'expression régulière est de limiter le changement sur un mot complet (fi, fa, fon…) et ne pas en opérer sur un motif comme dans famille, fontaine… Attention la commande sed est très puissante (et donc potentiellement dangereuse).
Liste de scanilles (Regex de recherche de scanille)[modifier]
Expression régulière permettant de détecter les scanilles les plus courantes.
(?!nous|vous|faire)\b(\w[a-z\xc0-\xd6\xd8-\xf6\xf8-\xff]+)\b \b$1\b
Recherche de doublons, à tester :
(?!nous|vous|faire|s\ss’)\b([-'’a-zÀ-ÿâàéèêëîïôùûüœæſ]+)\b\s\b\1\b
avec phrase de test il avaét avaét le beau il avait avait le beau il avait le biais de deſſus et de derriere il aide ma maîtresse
(?<![Ii]l|[Ee]lle|[Oo]n|y en|en|y|lui|[mtl]’|[nv]ous)\sa\s(?=l[a’]|[A-Ù]|côté|droite|gauche|ce[lt][lt]e|celui|ne|[mts]o[n]|moi|lui|[nv]os|tête|queue|leurs?|part|contre|faire)|(?>!(à|[a-Ù]é))|\bTan\b|(?:(>|\s)(VÉ|\(?<!dét|\/\/|ime|1[aelu]|I['’0-9]|afli|\b(\w[a-zà-ùA-Z]+)\b \b\1\b|aide|[àa]la|(l’a|a)igent|antre|arec|aorte|atout|aue|avals|plait|déplait|clot|git|aveo|ayec|bâte[rs]?|bâta|bâtent|bêles?|boites?|bottes?|c[’']a|ca|cardan|carie|celai|[Cc]elte|cl|[Cc]lames?|clans|clic|cloutes?|clouter|co|cola|cote|coté|cotte|da|daines?|dés?|déplus|de[39]|dévoient|dî(t|tes)|do|dont\sou|dupassé|ea|Eli|[Ee]lé?|[Éé]liez|échiné|enl|en\sroule|entant|eu|esi|épouvantait|estce|étalent|é[lt]alt?|étes|évoque|Fart|fartes?|Fauteur|fat?|faîte|fdle?|fiançais|fït|Fo|foire|fondions|foret|fouie|fols|fur|[Gg]ela|gène|gu[ei]|Hais|heu|honnète|[ïî]|[Ii]i|.it il|.it elleilua|im|inoi|ini|inonde|incuite|[[Jj]\s|l['’]aire|l['’]eut|lâcheuses?|lactique|[rl]ai[ts]?|laites?|lard|laveur|lavu|lemmes?|l[éè]s?|lésa|le[39]|tien|ligures?|litres?|ll|lous|luf|maia|ma[ït]s|maitr(e|esse)s?|maitris[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?|malin|maniéré|médian|[mM]ème|mémo|mil|mimes|mo[lru]|môme|môle|motie|moulon|moulons|moyeu|ni[ae]|niais|niasse|npu|onl|oti|ôtes-vous|ôtes|O/O|[PFT]onde|Pair|[Pp]ais|par\sexempte|paries?|[PTR]avons?|perle|peul|Po|pue|pins|Qh|[Qq]uanta|qni|quelquil|quelle|Quelle|raffaire|relirai|à\srencontre|rembarras|rétendue|rétablissement|rintérêt|renti|rho|rie|rivai|rl|rosés?|roules?|[rR]ouie|saris|silène|soldais?|sombré|sons\sl[ae]|[Ss]ou|sdr|se\smil|tais-loi|taudis\sque|tète|tilles?|tf|tn|tins?|Ton|[Tt]onte|tout\sà\slait|toules?|Tordre|[Ttd]une|trav|U[st]|u<lie|v|vêlement|[Vv]oila|[Vv]voua|yie|((?<![Uu]n\s)anx?)|au(dessus|dessous|del[aà])|((?<!tr[èé]s|trop|bien|si)\s[Cc]onnue)|11(?!\s(janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre))|(dé|en|)chain(ée|er?|ement)s?|([Cc]elle)(?!\sà|\sdu|\sd’|\sde|\sdont|\spour|\sdans|\soù|\squ[’ei]|-ci|-l[aà])|([Cc]ette)(sdu|\sd’|\sde|\sdont|\soù|\squ[’ei]|-ci|-l[aà])|((?<!tr[èé]s\s|trop\s|bien\s|peu\s)connue)|(?<![Aa]u\s|[Aa]u-)del[aà]|(?<!du\s|[cl]e\s|leur\s|[TSmts]on\s)dos(?!\sà)|([Ee]h(?!\sbien|donc|quoi|non|oui|que))|((?>[DLMSdlms]es\s|[Nn]os\s|[Uu]ne\s|[MSTmst]on\s|[Cc]ette\s|[Qq]elques\s|[Ll]eurs\s)éludes?)|((?>j['’]|tu\s|il\s|elle\s|on\s)études?)|(?<!statu\s)quo|(?>[Ii]ls?\s|[Ee]lles?\s|[NVnv]ous\s|l’)écoul(ait|e|aient)|[Ee]u\s(?=proie|effet|hiver|automne|terre|général|route|marche|lien|est|[a-zÀ-Ù]+ant|[A-ZÉÈ])|((?<!le\s|ce\s|un\s)fil)|fout\s([a-zÀ-Ù]+er|[a-zÀ-Ù]+re|[a-zÀ-Ù]+ir)|(([Ii]l\s|[Ee]lle\s|[Oo]n)\sf[uû]i(?![ts]))|[Gg]omm(e|ent)|([Uu]n|[Ll]e|[Cc]e|[ad]u)\sinonde|(?:(?<!en\s|ce\s|ces)lien(?!s\sde|\sde))|(?:([Uu]ne|[Ss]ans|[Ll]a|[Ll]es)\slins?)|(?:([Uu]ne|[Cc]ette|première|dernière|la)\slois)|(?>l['’]e[uû]t\s|\s)lachés?|laché(s\sde|\sde)|(?<!ém|cor|sér|[bd]ét|berc|port|trav|vitr|chand)ail|(?<!la\s|de\s|une\s|pleine\s)lune|(?:((?<![Jj]e\s|[Tt]u\s|[Ii]l\s|[Oo]n\s)|lui|(?>[Uu]n\s|[Ll]['’]|[LDCcld]es\s|cet\s|bel\s|beaux\s|jeunes?\s|premiers?\s|vieil\s|ses\s))nommes?)|((?<![Ii]l\s|[Ee]lle\s)noua)|on(?>\savant|\sarrière|\sces?)|\bparle\b(?!\sainsi|\sau|\savec|\scomme|\sd’|\sdans|\sd[eu]|\sdonc|\sici|\sjamais|\stoujours|\spendant|\sl[àa]|\slui|\spas|\sni|\splus|\spour|\sque)|parces?(\sbiais?|\stemps|\smoyens?)|(pari[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?)|(profil[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?)|((?>[Qq]uand|dont|ils)\ssout?)|(?>([TSmts]on|[NVnv]otre|[Ll]eur|[Uu]n|[Ll]e|[ADad]ux?)\sternies?)|([Tt]on(s|tes?))|((?>très|trop|assez|bien)\svile)|(?>à|de)\srentrée|((?>je|tu|ne|il|elle|le)\syeu[tx]))( |\s|\.|,|\s\?|\s:|<)|([„■•~"“#\^\|]\[\]]|\s(parait|apparait|disparait|réapparait|reparait|comparait|qu |méconnait|\b1\b|\b11\b|\bAli\b|\bno\b|scs|reconnait|nait|renait|croit|accroit|décroit|crut))|\s[cdjlmnrstuùCDJLNRSTU]\s)
Aide mémoire[modifier]
Tâche Phabricator :
- demande d'ajout de couche OCR : Aide:Demander une OCR
- demande d'import de scan :Aide:Demander l’importation d’un livre
- Liste des livres de la catégorie Livres sans couche texte
- Liste des livres de la catégorie Livres à réparer
- Liste de caractères spéciaux
- Mode d’emploi AWB pour Wikisource
- Chasse aux coquilles : Wikisource:Chasse aux coquilles
- Aide Guide typographique
- Aide Match et Split : Aide Match et Split
- téléversement direct depuis Internet Archive : IA Upload IaUpload
- En cas d'échec de téléversement sur Commons, vider le cache dans [[1]]
- Pour téléverser des gros fichiers soit passer par IA soit ajouter : « importScript('User:Rillke/bigChunkedUpload.js'); » dans le common.js et appliquer ce qui est indiqué ici : https://commons.wikimedia.org/wiki/Help:Chunked_upload#Creating_a_new_file
Aide mémoire de modèles[modifier]
- Poème centré :
{{Pom}}
et{{Mpom}}
(avec retrait sur plusieurs lignes). - Page titre :
{{PageTitre2}}
- Pour les illustrations habillant le texte voir Page:Lemaître - ABC, 1921.djvu/25 un exemple d'image tronçonnée et assemblée.