Discussion aide:AutoWikiBrowser

La bibliothèque libre.
Aller à la navigation Aller à la recherche

Bonjour, je cherche à passer en revue les pages récemment arrivées dans la Catégorie:Page corrigée avec AWB, pour les faire passer à la moulinette des filtres de détection des scanilles et erreurs fréquentes que j'y ai préparé. Je ne comprends pas comment parvenir à récupérer cette liste. Il existe bien une option Special page dans AWB, mais ça ne donne pas grand chose. Une idée Notification VIGNERON, Acélan, Cunegonde1, ElioPrrl et Seudo : ? Merci pour votre aide ! M0tty (d) 13 mai 2021 à 11:30 (UTC)Répondre[répondre]

Bonjour,
La réponse m'intéresserait également, mais je ne l'ai toujours pas trouvée... --Acélan (d) 13 mai 2021 à 12:17 (UTC)Répondre[répondre]
Itou !--Cunegonde1 (d) 13 mai 2021 à 13:30 (UTC)Répondre[répondre]
Notification M0tty : c'est typiquement le genre de chose à faire avec le Database Scanner (w:Aide:AutoWikiBrowser/Database Scanner), qui est plus complexe (il faut d'abord télécharger un dump) mais aussi plus puissant que l'outil de base de création de la liste des pages à modifier. Il faudrait vraiment que l'on se fasse une réunion en ligne pour échanger sur nos pratiques et astuces. Que préférez-vous un soir en semaine ou un week-end ?(pas le 22-23, il y a déjà le mw:Wikimedia Hackathon 2021). Cdlt, VIGNERON (d) 13 mai 2021 à 13:32 (UTC)Répondre[répondre]
Notification VIGNERON : à part le week-end que tu mentionnes, je suis globalement disponible jusque début juillet, en soirée ou le week-end. Après, je me déconnecte pour un ou deux mois. --Acélan (d) 13 mai 2021 à 13:58 (UTC)Répondre[répondre]
Je suis également disponible en soirée ou en weekend jusque qu'en juillet. Une réunion serait une excellente idée. M0tty (d) 13 mai 2021 à 20:22 (UTC)Répondre[répondre]
Intéressé et disponible aussi en soirée et en week-end. --Jahl de Vautban (d) 19 mai 2021 à 19:08 (UTC)Répondre[répondre]
Notification VIGNERON : peut-être es-tu trop pris en ce moment pour une réunion en ligne ?
(je te relance au cas où tu aurais juste oublié, mais ça peut aussi attendre la rentrée) --Acélan (d) 16 juin 2021 à 14:55 (UTC)Répondre[répondre]
Notification Acélan : tu fais bien de me relancer, j'avais un peu oublié (et je serais aussi sans doute déconnecté cet été).
Notification M0tty, Cunegonde1, ElioPrrl, Seudo et Jahl de Vautban : seriez-vous dispo ce samedi (19) ou le suivant (26) à 16 h pour un premier rendez-vous ? Pour le lieu, je viens de créer une salle Wikisource sur le serveur BBB de WMFR : https://bbb.wikimedia.fr/b/nic-4dv-g66 (il suffit de cliquer pour se connecter, rien à installer et vous pouvez même tester dès maintenant Clin d'œil).
Cdlt, VIGNERON (d) 16 juin 2021 à 18:07 (UTC)Répondre[répondre]
J'ai déjà quelque chose le 19 mais je suis disponible le 26 ! --Jahl de Vautban (d) 16 juin 2021 à 18:18 (UTC)Répondre[répondre]
À cette heure-là, je suis disponible les deux jours indiqués. --Acélan (d) 16 juin 2021 à 19:35 (UTC)Répondre[répondre]
Merci pour l’invitation, mais je n’ai quasiment pas regardé comment marche AWB depuis Tout rouge, je me suis concentré sur d’autres compétences (amélioration du gadget Erreurs communes, préparation de DjVu). Je ne pense donc pas que cette réunion me sera bien utile, ni que je serai bien utile à cette réunion Clin d'œil. — ElioPrrl (d) 17 juin 2021 à 09:35 (UTC)Répondre[répondre]
Bonjour, pas le 19 pour moi. Le 26 peut-être, ça dépendra de mon travail. Cordialement. M0tty (d) 17 juin 2021 à 11:48 (UTC)Répondre[répondre]
Notification Acélan, M0tty, Cunegonde1, ElioPrrl, Seudo et Jahl de Vautban : le 26 convient au plus grand nombre, la date est donc fixée. Pour le contenu, je propose que l'on commence par des discussions informelles et que chacun échange sur son niveau avec AWB et éventuellement les utilisations qui en sont faites. Ensuite, on pourrait passer sur une partie plus technique en parlant de diverses spécificités (par exemple, je peux parler du Database Scanner). Est-ce que cela convient à tout le monde ? Cdlt, VIGNERON (d) 18 juin 2021 à 16:32 (UTC)Répondre[répondre]
Parfait, Merci VIGNERON !Merci ! --Acélan (d) 18 juin 2021 à 16:34 (UTC)Répondre[répondre]
Bonjour, je ne me joindrai pas à vous par manque de disponibilité, mais bons échanges à vous ! Seudo (d) 18 juin 2021 à 19:05 (UTC)Répondre[répondre]

Settings[modifier]

En attendant un moyen plus fonctionnel de procéder (et une version plus propre), un lien vers les settings d'AWB que j'ai enregistrés. --Acélan (d) 26 juin 2021 à 15:19 (UTC)Répondre[répondre]

Voici les miennes pour ceux que ça intéresse, ce sont surtout différents cas de figure où le remplacement par {{roi}} ou {{reine}} est possible. La regex (?<!S\.\s|\w)(?:\{\{)?(Dr|M[M]?\.|[Mm]me|[Mm]lle[s]?|Mgr)(?:\}\})?(?:\s|\{\{lié\}\})((?:[DdLl]?[aeu]?[\s’])*(?:[A-ZÉÈÆŒa-zâàéêèëïôöçæœ]+-)*[A-ZÉÈÆŒa-zâàéêèëïôöç朒]+), à remplacer par {{$1|$2}}, pourra être aussi utile à ceux qui travaillent avec les modèles d'abréviations. --Jahl de Vautban (d) 29 juin 2021 à 07:42 (UTC)Répondre[répondre]
Bonsoir,
Impossible de coller le moindre bout de XML dans mon propre fichier de paramètre. Il me renvoie un message d'erreur systématique. Je ne comprends pas ce qui ne va pas. :-s M0tty (d) 5 juillet 2021 à 20:20 (UTC)Répondre[répondre]
Bonsoir @M0tty j'ai fait quelques tests et n'ai pas rencontré de problème particulier ; un Automated message mentionnant AWBUpdater apparaît depuis quelques temps mais je ne crois pas qu'il soit lié au fichier de paramètre, ou en tout cas je peux passer outre sans problème. --Jahl de Vautban (d) 5 juillet 2021 à 20:27 (UTC)Répondre[répondre]
Notification M0tty et Jahl de Vautban : je rencontre le même problème que M0tty. Quant au message mentionnant AWBUpdater, je l'ai fait disparaître en téléchargeant manuellement une nouvelle version d'AWB, mais ça n'a pas résolu mon problème, effectivement. Je réessaierai plus tard (sans doute après les vacances). En attendant, la regex proposée va me permettre de supprimer plusieurs lignes dans mes settings Clin d'œil. --Acélan (d) 6 juillet 2021 à 06:25 (UTC)Répondre[répondre]

Amélioration des rechercher/remplacer[modifier]

Bonjour Notification Acélan, Jahl de Vautban, VIGNERON et Seudo :,

Je cherche à améliorer mes regex pour AWB, parce que je suis en train de repasser sur toutes les pages de l'espace Page: et j'ai souvent des faux-positifs qui sont liés notamment à la détection d'une erreur dans un modèle:Corr. Comment puis-je améliorer les regex pour qu'elles ignorent certains modèles ?

Merci pour votre aide. M0tty (d) 3 août 2021 à 16:11 (UTC)Répondre[répondre]

Bonjour M0tty Bonjour
Si tu indiques quelque chose comme (?<!orr\|)chaîneàrechercher, je pense que ça devrait faire l'affaire (à vérifier, je manque un peu d'outils où je suis). --Acélan (d) 3 août 2021 à 16:20 (UTC)Répondre[répondre]
La difficulté, c'est que je cherche des chaînes de caractères à l'intérieur de mots. Par exemple, la répétition de 3 lettres identiques, ce qui n'est pas censé arriver en français. Et donc j'ai besoin de détecter que le mot entier est dans le modèle corr, mais ma regex a repéré uniquement la répétition des 3 lettres. Je ne sais pas si je suis clair Clin d'œil M0tty (d) 3 août 2021 à 16:48 (UTC)Répondre[répondre]
Est-ce qu'il y aurait un moyen de détecter le caractère "|" jusqu'à 15 lettres avant ce que la regex cherche par exemple et d'ignorer le résultat si il y a effectivement ce caractère qui précède ? M0tty (d) 3 août 2021 à 16:50 (UTC)Répondre[répondre]
Bonjour @M0tty, peut-être quelque chose comme (?<!\|[\w|\s]{1,15})sss ? En principe ça détecte toutes les occurrences de | suivies d'une lettre ou d'un espace, jusqu'à 15 fois. Pour le site regex101 ce n'est pas valide, mais j'ai fait quelques tests ça a l'air de fonctionner sur AWB. --Jahl de Vautban (d) 3 août 2021 à 17:19 (UTC)Répondre[répondre]
Merci beaucoup, cela m'aide franchement. Et si tu passes le site regex101 en java, ça fonctionne parfaitement Clin d'œil.
Une autre question sur laquelle je bute : Je voudrais créer une regex qui détecte les o à la place des 0 dans les nombres. Mais je ne sais pas comment faire pour remplacer les lettres par les chiffres le bon nombre de fois (si je trouve 1oo je veux remplacer 2 fois, si je trouve 1ooooo je veux remplacer 5 fois). Je ne sais pas si c'est faisable. M0tty (d) 3 août 2021 à 21:58 (UTC)Répondre[répondre]
A ma connaissance ce n'est pas possible, mais on peut contourner le problème. La chaîne (?<=([0-9]|\s|o))o(?=([0-9]|\s|o)), avec simplement 0 dans le champ à remplacer, devrait fonctionner. Elle identifiera tout o précédé et suivi d'un chiffre, d'un espace ou d'un autre o, et s'il y a en a deux qui se suivent elle se déclenchera plusieurs fois. --Jahl de Vautban (d) 4 août 2021 à 06:51 (UTC)Répondre[répondre]
Formidable, merci beaucoup ! M0tty (d) 4 août 2021 à 11:46 (UTC)Répondre[répondre]

Ralentissements d'AWB[modifier]

Bonjour ! J'observe un ralentissement progressif d'AWB lorsque je le laisse tourner longtemps. Il démarre avec une très bonne vitesse d'analyse des pages, autour de 180/min et puis il décroit lentement pour finir au bout de quelques temps à plafonner à 35-40/min (je n'ai pas réussi à être plus précis. Peut-être au bout d'une heure ?) Vu que je passe en revue tout Wikisource, j'ai plusieurs centaines de milliers de pages à traiter, et ce ralentissement est assez handicapant. Si je ferme AWB et que je le relance, ça repart rapidement. Avez-vous ça chez vous également ? M0tty (d) 5 août 2021 à 17:15 (UTC)Répondre[répondre]

Bonjour @M0tty, rien remarqué de mon côté, mais je fais rarement plus de 500 pages dans la même session (j'ai peu de faux positifs parmi les candidats pour ajouter {{roi}}). Je m'avance mais ça ressemble à un problème de fuite de mémoire, si c'est systématique ça peut valoir le coup de le signaler sur la Wikipédia anglaise. --Jahl de Vautban (d) 5 août 2021 à 20:57 (UTC)Répondre[répondre]
J'ai déposé un ticket sur phabricator. Merci pour le retour. M0tty (d) 5 août 2021 à 21:04 (UTC)Répondre[répondre]

Changement de casse avec AWB[modifier]

Bonjour,
Quand je traite un texte avec un éditeur de texte, j'arrive à changer la casse de certains caractères, avec \L, \l, etc. Mais cela ne fonctionne pas avec AWB. Cette possibilité existe-t-elle ? si oui, quelle syntaxe utiliser ? --Acélan (d) 22 octobre 2021 à 13:52 (UTC)Répondre[répondre]

Notification Jahl de Vautban, VIGNERON, Seudo et Cunegonde1 : j'ajoute la notification. --Acélan (d) 23 octobre 2021 à 09:06 (UTC)Répondre[répondre]
Notification Acélan : je ne suis pas certain de bien te comprendre : tu veux transformer pomme en POMME ? Pour ça je passe par le mot magique {{subst:}} dans le champ Replace with. Par exemple {{subst:uc:pomme}} donne POMME, tandis que {{subst:lc:POMME}} donne pomme. Attention toutefois ça ne fonctionne pas si le mot à remplacer est dans les balises ref. --Jahl de Vautban (d) 23 octobre 2021 à 09:13 (UTC)Répondre[répondre]
Merci Jahl de Vautban !Merci !. Je me rappelais avoir vu cette discussion, mais je n'arrivais pas à la retrouver. Ce que je voulais, c'était faire des modifications ce type sans avoir à entrer le nom de tous les personnages. C'est-à-dire à transformer POMME en Pomme. Je vais donc étudier le mot magique, qui semble correspondre à ce que je veux. --Acélan (d) 23 octobre 2021 à 09:34 (UTC)Répondre[répondre]
Notification Acélan : je pense que dans ce cas il faut passer par une double substitution, du type {{subst:ucfirst:{{subst:lc:POMME}}}} (c.-à-d. d'abord tout passer en minuscule, puis mettre une majuscule au début de la chaîne) pour arriver à Pomme. --Jahl de Vautban (d) 23 octobre 2021 à 09:50 (UTC)Répondre[répondre]
Notification Jahl de Vautban : Merci pour l'astuce. Apparemment, il faut que je procède en deux lignes : ma tentative d'ajouter subst + un modèle provoque des effets indésirables, du type {{Personnage|L<span style="text-transform: lowercase;">A</span> M<span style="text-transform: lowercase;">ARQUISE</span>.}}. Sans compter que je ne veux pas La pomme, mais La Pomme, et que comme il n'y a pas la fonction ucwords, ça ajoute une étape. Le temps passé à essayer d'en gagner est énorme Clin d'œil, mais c'est des casse-têtes plutôt amusants. --Acélan (d) 23 octobre 2021 à 10:21 (UTC)Répondre[répondre]
Etonnant en effet l'expression classique pour traquer une majuscule isolée au milieu d'un mot > find : ([a-z]+[A-Z][a-z]+) replace : \L$1 ne fonctionne pas avec le testeur de regex d'AWB. Cunegonde1 (d) 23 octobre 2021 à 10:55 (UTC)Répondre[répondre]
Notification Acélan : les grands esprits se rencontrent ! J’avais posé une question très similaire il y a deux ans sur w:en:Wikipedia talk:AutoWikiBrowser/Find and replace et j’avais eu une réponse similaire à celle de Jahl de Vautban (d · c · b), Notification Cunegonde1 : effectivement \L existe pour certaines version de regex mais pas toutes. Cdlt, VIGNERON (d) 25 octobre 2021 à 19:11 (UTC)Répondre[répondre]