« Aide:AutoWikiBrowser » : différence entre les versions

La bibliothèque libre.
Contenu supprimé Contenu ajouté
Ligne 83 : Ligne 83 :
*les signes <code>(?!</code> indiquent que le mot recherché '''ne doit pas être suivi''' de la chaîne de caractère entre parenthèse qui suit. On remarque que l’on place les caractères de ponctuation "." et "," avant le "\s" qui indique ''espace'' et les caractères de ponctuation nécessitant une espace en fin de requête. Les mots ou fragments de mots sont séparés par "|" qui signifie "OU" et les caractères entre crochets permettent de regrouper des occurrences "[nv]otre" va chercher "notre" ET "votre". Je rentre cette expression régulière dans le champ "Find" après l’avoir testée.
*les signes <code>(?!</code> indiquent que le mot recherché '''ne doit pas être suivi''' de la chaîne de caractère entre parenthèse qui suit. On remarque que l’on place les caractères de ponctuation "." et "," avant le "\s" qui indique ''espace'' et les caractères de ponctuation nécessitant une espace en fin de requête. Les mots ou fragments de mots sont séparés par "|" qui signifie "OU" et les caractères entre crochets permettent de regrouper des occurrences "[nv]otre" va chercher "notre" ET "votre". Je rentre cette expression régulière dans le champ "Find" après l’avoir testée.


On peut également modifier les '''modèles''' erronés en entrant dans le champ de recherche par exemple : <code>\{\{lang\|ar\|(*.?)\}\}</code> remplacé par <code><nowiki>{{lang|1=ar|dir=rtl|texte=$1}}</nowiki></code> ou "\" est un caractère d'échappement indispensable pour d'inscrire dans une regex un caractère modificateur comme "{" ou "|" ; "(.*?)" veut dire que l'on met en mémoire tout ce qui se trouve à l'intérieur de cette parenthèse.<br/>Dans le champ de remplacement on retire les "\" qui n'ont plus lieu d'être, et on remplace le contenu de la parenthèse par $1 pour coller le texte mis en mémoire par les parenthèses. On peut aussi ne rechercher/remplacer que le début du modèle : <code>\{\{lang\|ar\|</code> par <code>{{lang|1=ar|dir=rtl|texte=</code>.<br/>'''Et surtout''' il faut décocher la case "ignore templates, refs, link targets, and headings" qui se trouve en haut à gauche de la fenêtre "Find & replace".<br/>Puis cliquer sur OK.
On peut également modifier les '''modèles''' (ajouter un paramètre, ou rectifier l’utilisation erronée d’un modèle par ex. : lang|gr au lieu de lang|grc, lang|latin au lieu de lang|la, etc.) en entrant dans le champ de recherche par exemple : <code>\{\{lang\|ar\|(*.?)\}\}</code> remplacé par <code><nowiki>{{lang|1=ar|dir=rtl|texte=$1}}</nowiki></code> ou "\" est un caractère d’échappement indispensable pour inscrire dans une regex un caractère modificateur comme "{" ou "|" ; "(.*?)" veut dire que l’on met en mémoire tout ce qui se trouve à l’intérieur de cette parenthèse.<br/>Dans le champ de remplacement on retire les "\" qui n’ont plus lieu d’être, et on remplace le contenu de la parenthèse par $1 pour coller le texte mis en mémoire par les parenthèses. On peut aussi ne rechercher/remplacer que le début du modèle : <code>\{\{lang\|ar\|</code> par <code>{{lang|1=ar|dir=rtl|texte=</code>.<br/>'''Et surtout''' il faut décocher la case "ignore templates, refs, link targets, and headings" qui se trouve en haut à gauche de la fenêtre "Find & replace".<br/>Puis cliquer sur OK.
<div style="clear:both" />
<div style="clear:both" />



Version du 7 mai 2021 à 07:43

Chasse aux scanilles avec AWB

Page d’aide en cours d’élaboration
Autres astuces et précisions bienvenues !

Bien commencer

Téléchargement et installation

AWB peut être téléchargé sur SourceForge (http://sourceforge.net/projects/autowikibrowser/). Le fichier téléchargé est un fichier zip, qu’il faut décompresser dans un même dossier (clic droit → Extraire les fichiers…). À l’intérieur du dossier nouvellement créé, double-cliquer sur AutoWikiBrowser.exe pour lancer le logiciel.

Choix du projet

Pour sélectionner le projet à éditer, aller dans l’onglet OptionsPreferences… → onglet Site : dans la liste déroulante project, choisir wikisource ; dans la liste déroulante language, choisir fr. Pour conserver ce choix de paramètre à l’avenir, aller dans FileSave settings as default et sélectionner Oui.

Recherche d’une scanille dans l’ensemble des pages corrigées

Équation de recherche

La première choses à faire est de constituer une équation de recherche dans l’espace « Page » qui se déclinera en :

  • équation_de_recherche incategory:"page validée"
  • équation_de_recherche incategory:"page corrigée"

Utiliser d’abord l’équation dans le moteur de recherche afin de la tester et de l’affiner.

Exemple : « différons » mis à la place de « différens » dans des textes utilisant une orthographe ancienne.

"différons" -"nous différons" -"ne différons" -"différons nous" incategory:"page corrigée"

Le signe moins devant un mot ou une expression (mise entre guillemets droits) indique au moteur d'AWB d’ignorer ces passages.

Recherche dans AWB

Formulaire « make list »
  • Dans la colonne de gauche (« make list »), liste déroulante « Source » : Choisir « Wikisearch (text) (all NS) »
  • Entrer une des deux équations
  • Cliquer sur « make list » : on obtient la liste des pages potentiellement à corriger.
  • Répéter l’opération pour l’équation suivante (sauf si on ne s’occupe que des pages validées)
  • Dans le menu du haut, « lists », on peut choisir « keep alphabetized », pour regrouper les pages des mêmes ouvrages.

Entrer les corrections à effectuer

Onglet « Options »

Dans la colonne centrale, onglet « Options », cocher « Find and replace », et cliquer sur « Normal settings » pour entrer les remplacements à effectuer.

Pour une coquille de ce type, on entrera par exemple les deux lignes suivantes dans le formulaire :

Find Replace with Case Sensitive Regex Multi line Single Line Minor After fixes Enabled Comment
\bdifférons\b différens      
\bDifférons\b Différens      

La colonne de gauche contient une expression régulière. Les caractères \b autour de « différons » indiquent qu’on recherche uniquement un mot entier et pas une partie de mot. (Dans le cas cité, il n’est pas absolument nécessaire d’utiliser une expression régulière, mais cela peut être indispensable pour des mots plus courts. Dans tous les cas, on a intérêt à cocher « case sensitive ».)

Un exemple d’expression régulière pour rechercher le mot "parle" qui devrait être "par le". Cette recherche provoque de très nombreux faux positifs. On peut en limiter le nombre ainsi : (?<!([Jj]e|[Ii]l|[Ee]lle|vous|en|nous|me|ne|te|se|lui|leur|[Oo]n|dont|y|qui)\s)\bparle\b(?!([.,]|\s(à|et|au|la|le|de|du|sur|avec|ainsi|donc|que|plus|souvent|ici|moi|lui|[nv]otre|[;:?!])))[1] en français cela dit : je cherche "parle" à condition que ce mot ne soit pas précédé des mots je, Je, il, Il.../etc "espace" "parle" et qui soit pas suivi par un signe de ponctuation "[,.]" OU "espace" OU les mots "à|et|au.../... OU "espace" puis les signes de ponctuation "[;:?!]".

  • les signes (?<! indiquent que le mot recherché ne doit pas être précédé de la chaîne de caractère entre parenthèse qui suit. On voit une première parenthèse fermante après "qui" puis "\s" qui veut dire espace et puis le mot recherché : \bparle\b
  • les signes (?! indiquent que le mot recherché ne doit pas être suivi de la chaîne de caractère entre parenthèse qui suit. On remarque que l’on place les caractères de ponctuation "." et "," avant le "\s" qui indique espace et les caractères de ponctuation nécessitant une espace en fin de requête. Les mots ou fragments de mots sont séparés par "|" qui signifie "OU" et les caractères entre crochets permettent de regrouper des occurrences "[nv]otre" va chercher "notre" ET "votre". Je rentre cette expression régulière dans le champ "Find" après l’avoir testée.

On peut également modifier les modèles (ajouter un paramètre, ou rectifier l’utilisation erronée d’un modèle par ex. : lang|gr au lieu de lang|grc, lang|latin au lieu de lang|la, etc.) en entrant dans le champ de recherche par exemple : \{\{lang\|ar\|(*.?)\}\} remplacé par {{lang|1=ar|dir=rtl|texte=$1}} ou "\" est un caractère d’échappement indispensable pour inscrire dans une regex un caractère modificateur comme "{" ou "|" ; "(.*?)" veut dire que l’on met en mémoire tout ce qui se trouve à l’intérieur de cette parenthèse.
Dans le champ de remplacement on retire les "\" qui n’ont plus lieu d’être, et on remplace le contenu de la parenthèse par $1 pour coller le texte mis en mémoire par les parenthèses. On peut aussi ne rechercher/remplacer que le début du modèle : \{\{lang\|ar\| par {{lang|1=ar|dir=rtl|texte=.
Et surtout il faut décocher la case "ignore templates, refs, link targets, and headings" qui se trouve en haut à gauche de la fenêtre "Find & replace".
Puis cliquer sur OK.

Lancer les corrections

Onglet « Start »

Passer ensuite dans l’onglet « Start ».

  • Vérifier le contenu du champ « Default Summary », qui sera inclus dans le résumé de modification (avec une description de la correction générée automatiquement[2]). Le résumé par défaut est « clean up », mais on peut souhaiter mettre un texte plus approprié tel que « nettoyage » ou « scanilles ».
  • Cliquer sur « Start ».
  • On voit s’afficher le texte de la page dans la partie supérieure de l’interface, avec en surbrillance la modification prévue par AWB.
  • Si cela correspond à ce que l’on souhaite, on clique sur « Save » (ou Ctrl-S) ; dans la fenêtre en bas à droite, on peut également effectuer d’autres modifications directement dans le code wiki, si l’on repère d'autres erreurs.
  • Si on a un doute, clic droit dans la liste à gauche pour ouvrir la page dans le navigateur, pour afficher le fac-similé.
  • S’il s’agit d’un faux positif, on clique sur « Skip » pour ne pas modifier la page.

Recherche de scanilles dans un ouvrage

Le mode d’emploi est le même ; ce qui diffère :

  • L’interrogation : Dans la colonne en base à gauche, source : « Transclusions on page » ; on entre le nom de l’ouvrage (exemple : Livre:Revue des Deux Mondes - 1915 - tome 28.djvu) puis sur « make list ». On clique sur « filter » pour ne conserver que les pages et non les textes transclus)
  • La liste des modifications sera généralement plus importante, mais on peut ajouter autant de lignes que l’on veut, semble-t-il. En sélectionnant une ligne, on peut la déplacer ou la supprimer. On peut aussi la conserver et la désactiver temporairement en décochant « enabled ».
  • Quand on a plusieurs modifications impliquant des expressions régulières, on a intérêt à les sauvegarder : « Menu files > Save settings ». On peut les enregistrer sous différents noms, pour différents types de modifications. Les fichiers « settings » conservent la liste des modifications, ainsi que la dernière équation de recherche et la liste des pages non traitées.
  • Pour éviter d’avoir à cliquer sur « skip » pour les pages ne comportant pas de corrections à effectuer, cocher « skip if no replacement » dans l'onglet « Options ».

Précautions à prendre

  • Tester d’abord l’interrogation dans le moteur de recherche
  • Consulter le texte affiché, page par page : il y a toujours des faux positifs
  • En cas de doute, même très léger, consulter le fac-similé de la page
  • Attention en particulier aux textes anciens et aux retranscriptions de textes manuscrits, qui peuvent conserver une orthographe considérée comme fautive (exemple : sur cette page, « il y à » est une particularité orthographique du manuscrit qui a été conservée, alors que presque partout ailleurs, ce serait une scanille)
  • Tester les expressions régulières dans l’outil dédié d’AWB : Menu « Tools → Regex tester »

Notes

  1. Attention à bien compter les parenthèses ouvrantes et fermantes, leur nombre doit être identique.
  2. Il est possible d’éviter l’affichage automatique des corrections dans le résumé, par exemple lorsque ces corrections sont très complexes et peu lisibles : il faut décocher la case « Add replacements to edit summary » dans le formulaire « Find and Replace » présenté plus haut.