Wikisource:Bots/Requêtes

La bibliothèque libre.
Aller à la navigation Aller à la recherche
Raccourci [+]
WS:BR
Page annuelle des requêtes aux robots de 2021
En résumé En résumé :
Cette page a pour but de lister les requêtes adressées aux bots.
Pour faire une demande, créez une nouvelle section en y renseignant vos besoins. Un des dresseurs ou dresseuses disponibles prendra en charge votre demande. Les demandes peuvent être discutées sur la présente page, dans la section de la demande.
WikiBot en pleine transcription !
État des requêtes
Requête en cours de traitement En traitement
Traitée
Requête refusée Refusée
Requête en attente de renseignements complémentaires Attente d’infos
Requête démarrée puis mise en instance En pause
Requête classée sans suite Sans suite

Recherche d'homonymes[modifier]

Bonjour,

À mesure que le nombre d'œuvres grandit sur Wikisource, on se retrouve avec de plus en plus d'homonymies, mais vu que la manière dont nous nommons les œuvres a également évolué (les œuvres sont souvent placées dans des sous-pages en fonction de l'édition, ou lorsqu'il s'agit de poèmes, dans une sous-page du recueil, etc), les homonymies sont plus difficiles à détecter et à lister dans une page d'homonymie.

Aussi, serait-il possible de lister par ordre alphabétique les pages de l'espace principal qui possèdent un titre court (20 caractères par exemple, sans tenir compte du titre de la page principale lorsque c'est une sous-page, ni de tous les caractères placés entre parenthèses) ? De cette manière, nous pourrions repérer toutes les pages homonymes et nous assurer qu'elles sont bien listées dans une page d'homonymie.

Merci pour votre aide. M0tty (d) 3 février 2021 à 16:46 (UTC)Répondre[répondre]

M0tty, Lorsque vous écrivez « les pages de l'espace principal », voulez-vous dire celles listées sur cette page ? — Cantons-de-l'Est discuter 21 juillet 2021 à 09:45 (UTC)Répondre[répondre]
Bonjour Cantons-de-l'Est (d · c · b), oui, exactement. Mais dans cette liste il est difficile de retrouver les homonymes parce qu'ils peuvent être cachés dans des sous-pages, ils ne se retrouvent donc pas listés à la suite les uns des autres. Cordialement. M0tty (d) 21 juillet 2021 à 11:49 (UTC)Répondre[répondre]
M0tty, Cette liste comprend 496 479 pages. Êtes-vous prêt à analyser une liste avec autant d'éléments ? Par exemple, à raison de 5 secondes par titre, il vous faudra près de 625 heures pour la parcourir au complet.
Par ailleurs, j'ai fait quelques tests qui me laissent penser que la taille de cette liste dépassera 20 Mio, ce qui excède largement la taille autorisée pour une seule page dans Wikisource (elle est de 2 Mio). Je devrai donc créer au moins 11 pages. Chacune sera lourde à charger.
Cantons-de-l'Est discuter 23 juillet 2021 à 21:18 (UTC)Répondre[répondre]
Est-ce qu'il serait possible d'une manière ou d'une autre d'exporter cette liste sur un tableur, avec une colonne à chaque fois qu'on descend d'un niveau de sous-page et de manière à aligner à droite les titres (cf. plus bas, ce sera sans doute plus clair avec un exemple), et de faire dans ce document une recherche par doublon ? --Jahl de Vautban (d) 24 juillet 2021 à 10:15 (UTC)Répondre[répondre]
A B C
Blablabla
Blebleble/ Blablabla
Bliblibli/ Blebleble/ Blablabla
Bonjour,
Je suis surpris de la taille de la liste après réduction à un certain nombre de caractères. Peut-être faut-il revoir ce chiffre à la baisse ? Combien y a-t-il de pages de l'espace principal de 15 caractères maximum (en décomptant les parenthèses et ce qui se trouve avant le / pour les sous-pages ?
Et pour faire une autre proposition d'affichage qui soit plus clair, serait-il possible de faire en sorte que les liens affichés soient justement listés par ordre alphabétique en supprimant ce qui précède le / ? Merci pour votre aide. M0tty (d) 24 juillet 2021 à 11:07 (UTC)Répondre[répondre]
M0tty, J'avais oublié pour la restriction de 15 caractères sur le terme après la dernière barre oblique. En l'appliquant, j'ai déterminé qu'il y a 263 655 pages à analyser. Plus bas, on voit un extrait de tableau que je prévois créer. Les colonnes 2 à 6 sont les sur-pages de la colonne 7. Les rangées seront triées en fonction du terme dans la dernière colonne, qui est aussi un wikilien. Les redirections ne seront pas élaguées (j'ignore comment faire et j'ai d'autres obligations). Quant à la proposition de créer un tableur, ce n'est pas dans mes cordes. Toujours intéressé malgré la longueur du tableau ?
Cantons-de-l'Est discuter 25 juillet 2021 à 14:24 (UTC)Répondre[répondre]
No A B C D E F
1 "Daniel Darc"
2 "Mme de Stolz"
3 Œuvres complètes Préface
4 (Verlaine)
5 *
6 ... le Cœur populai Conseils
7 ... le Cœur populai Idylle
8 ... le Cœur populai La Frousse
20 Bordeaux
21 0° cocktail (Recuei 0° cocktail
22 0° cocktail (Recuei Boobs
26 10
27 1453
31 1909
32 1914-1916
33 1914-1916 Commémoration
52 1914-1916 Quand même !
59 1914-1916 À la Belgique
60 1 Sonnet
61 1er janvier
62 2
63 31 octobre
64 350 recettes de cui Avant-propos
65 350 recettes de cui Bagatelle
138 352e DI Allemande - 6 44
139 391 (revue)
140 391 (revue) Articles
141 391 (revue) Auteurs
142 391 (revue) Ressources
143 4
144 813
145 813 01
146 813 02
147 813 03

Recherche d'erreurs possibles[modifier]

Bonjour,

Malgré tout les efforts que déploient les personnes qui relisent les textes, il reste toujours des erreurs. Certaines seront toujours difficiles à trouver mais pour d'autres, ce devrait être possible de les repérer.

Voici quelques idées (sans doute en se limitant aux pages validées/vertes) :

  • quels sont les mots les plus rares ?
  • quels sont les mots les plus rares/courants sans entrée sur les Wiktionnaires/les lexèmes ? (pour reprendre la vieille idée de l'outil Dicompte malheureusement pas mis à jour depuis longtemps)
  • au sein d'un mot, quel est la fréquence de chaque séquence de caractères (n-gramme, paire, triplet, etc.) ? (les plus rares étant probablement des erreurs)
    • quels sont les mélanges d'alphabets au sein d'un mot (comme "Αlphabet" avec un alpha au lieu d'un A initial, devrait apparaître comme anomalie dans le point ci-dessus mais mériterait d'être signalé à part)
  • reprendre les regex de MediaWiki:Gadget-Erreurs-communes.js (mais en faire un rapport plutôt que de n'afficher l'erreur que lorsque l'on se trouve sur la page)
  • <insérer autres idées qui pourraient servir le même objectif>

Ce n’est pas exactement un travail de bot (pas dans le sens "compte d'édition automatique" en tout cas) mais cela demande des compétences techniques que je n'ai pas vraiment (et cela peut prendre diverses formes, une page de rapport directement sur Wikisource, un outil externe, etc.).

En bonus, pourrait-on imaginer de laisser un message sur la page de l’utilisateur qui commet une erreur ? (à valider par la communauté et sans doute à limiter aux cas qui auront été repérés comme étant réellement des erreurs). Super-bonus si on peut avoir un filtre filtre anti-abus

Cdlt, VIGNERON (d) 27 février 2023 à 10:54 (UTC)Répondre[répondre]

@VIGNERON Merci pour ta requête, même si ça ne rentre pas tout à fait dans le périmètre de cette page. Peut-être qu’il faudrait établir une boite à idées ? En tout cas, c’est un projet intéressant. À+, Lepticed7 (Viens tcharer ! :D) 1 mars 2023 à 14:50 (UTC)Répondre[répondre]

Retrait des coupures de mots dans le Dictionnaire de théologie catholique[modifier]

Je retire régulièrement le tiret qui coupe un mots pour aller à la ligne sur le dictionnaire de théologie catholique.

Par exemple Page:Alfred Vacant - Dictionnaire de théologie catholique, 1908, Tome 12.2.djvu/462

adhse- rere.

devient

adhserere.

J'aimerai retirer "le tiret, l'espace et le saut de ligne" sur les pages du DTC ? Cela vous semble possible. ?

Merci.

Notification Sicarov :, oui, c'est les boutons "OCR" et "T(ypo)" que je te mentionnais dans ta page de discussion (Petits conseils... d'un novice en OCR !). Non seulement ils opèrent une correction partielle d’erreur dans des textes, mais aussi ils retirent "le tiret, l'espace et le saut de ligne". Bien à toi ! --Éτienne ♄ (d) 25 mars 2023 à 09:11 (UTC)Répondre[répondre]