Utilisateur:Cunegonde1/Outils

La bibliothèque libre.
Aller à la navigation Aller à la recherche
PrésentationContributionsBrouillonsBandeauxOutilsDiscussion

Archives parlementaires[modifier]

[archives parlementaires sur WS]

Modernisation[modifier]

Ajouts dictionnaire de modernisation

Scripts[modifier]

accès vector.js

accès Typo.js avec correction scanilles sur "ſ long"

accès Brouillons

accès Bandeaux, vignettes et lettrines

Gallica.py script de Seudo pour récupérer les images de pages de Gallica

En cours de développement un outil script ſ longs qui facilite la modification des f en ſ (s long) sur les textes en sortie d'OCR. L'outil s'appuie sur "sed" et un minidictionnaire. La syntaxe à utiliser dans un terminal est : sed 's/mot_initial/mot_changé/g; s/mot_initial2/mot_changé2/g;' mon_texte.txt > mon_texte_modifie.txt. sed 's/ (pour substitute)…/…/g (pour global, qui change le mot dans tout le texte sélectionné). Cela fonctionne sur mac (sans regex) et sur linux (avec regex) avec un minidictionnaire d'environ 500 motifs (reufe, rieufe, ieufe…) ou mots. L'utilité de l'expression régulière est de limiter le changement sur un mot complet (fi, fa, fon…) et ne pas en opérer sur un motif comme dans famille, fontaine… Attention la commande sed est très puissante (et donc potentiellement dangereuse).

Liste de scanilles (Regex de recherche de scanille)[modifier]

Expression régulière permettant de détecter les scanilles les plus courantes.

(?!nous|vous|faire)\b(\w[a-z\xc0-\xd6\xd8-\xf6\xf8-\xff]+)\b \b$1\b

Recherche de doublons, à tester :

(?!nous|vous|faire|s\ss’)\b([-'’a-zÀ-ÿâàéèêëîïôùûüœæſ]+)\b\s\b\1\b

avec phrase de test il avaét avaét le beau il avait avait le beau il avait le biais de deſſus et de derriere il aide ma maîtresse

Aide mémoire[modifier]

Tâche Phabricator :



Aide mémoire de modèles[modifier]