Wikisource:Bots/Requêtes
![]() |
En résumé : Cette page a pour but de lister les requêtes adressées aux bots. Pour faire une demande, créez une nouvelle section en y renseignant vos besoins. Un des dresseurs ou dresseuses disponibles prendra en charge votre demande. Les demandes peuvent être discutées sur la présente page, dans la section de la demande. |
![]() |
État des requêtes |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Recherche d'homonymes[modifier]
Bonjour,
À mesure que le nombre d'œuvres grandit sur Wikisource, on se retrouve avec de plus en plus d'homonymies, mais vu que la manière dont nous nommons les œuvres a également évolué (les œuvres sont souvent placées dans des sous-pages en fonction de l'édition, ou lorsqu'il s'agit de poèmes, dans une sous-page du recueil, etc), les homonymies sont plus difficiles à détecter et à lister dans une page d'homonymie.
Aussi, serait-il possible de lister par ordre alphabétique les pages de l'espace principal qui possèdent un titre court (20 caractères par exemple, sans tenir compte du titre de la page principale lorsque c'est une sous-page, ni de tous les caractères placés entre parenthèses) ? De cette manière, nous pourrions repérer toutes les pages homonymes et nous assurer qu'elles sont bien listées dans une page d'homonymie.
Merci pour votre aide. M0tty (d) 3 février 2021 à 16:46 (UTC)
- M0tty, Lorsque vous écrivez « les pages de l'espace principal », voulez-vous dire celles listées sur cette page ? — Cantons-de-l'Est discuter 21 juillet 2021 à 09:45 (UTC)
- Bonjour Cantons-de-l'Est (d · c · b), oui, exactement. Mais dans cette liste il est difficile de retrouver les homonymes parce qu'ils peuvent être cachés dans des sous-pages, ils ne se retrouvent donc pas listés à la suite les uns des autres. Cordialement. M0tty (d) 21 juillet 2021 à 11:49 (UTC)
- M0tty, Cette liste comprend 496 479 pages. Êtes-vous prêt à analyser une liste avec autant d'éléments ? Par exemple, à raison de 5 secondes par titre, il vous faudra près de 625 heures pour la parcourir au complet.
- Par ailleurs, j'ai fait quelques tests qui me laissent penser que la taille de cette liste dépassera 20 Mio, ce qui excède largement la taille autorisée pour une seule page dans Wikisource (elle est de 2 Mio). Je devrai donc créer au moins 11 pages. Chacune sera lourde à charger.
- — Cantons-de-l'Est discuter 23 juillet 2021 à 21:18 (UTC)
- Est-ce qu'il serait possible d'une manière ou d'une autre d'exporter cette liste sur un tableur, avec une colonne à chaque fois qu'on descend d'un niveau de sous-page et de manière à aligner à droite les titres (cf. plus bas, ce sera sans doute plus clair avec un exemple), et de faire dans ce document une recherche par doublon ? --Jahl de Vautban (d) 24 juillet 2021 à 10:15 (UTC)
- Bonjour Cantons-de-l'Est (d · c · b), oui, exactement. Mais dans cette liste il est difficile de retrouver les homonymes parce qu'ils peuvent être cachés dans des sous-pages, ils ne se retrouvent donc pas listés à la suite les uns des autres. Cordialement. M0tty (d) 21 juillet 2021 à 11:49 (UTC)
A B C Blablabla Blebleble/ Blablabla Bliblibli/ Blebleble/ Blablabla
- Bonjour,
- Je suis surpris de la taille de la liste après réduction à un certain nombre de caractères. Peut-être faut-il revoir ce chiffre à la baisse ? Combien y a-t-il de pages de l'espace principal de 15 caractères maximum (en décomptant les parenthèses et ce qui se trouve avant le / pour les sous-pages ?
- Et pour faire une autre proposition d'affichage qui soit plus clair, serait-il possible de faire en sorte que les liens affichés soient justement listés par ordre alphabétique en supprimant ce qui précède le / ? Merci pour votre aide. M0tty (d) 24 juillet 2021 à 11:07 (UTC)
- M0tty, J'avais oublié pour la restriction de 15 caractères sur le terme après la dernière barre oblique. En l'appliquant, j'ai déterminé qu'il y a 263 655 pages à analyser. Plus bas, on voit un extrait de tableau que je prévois créer. Les colonnes 2 à 6 sont les sur-pages de la colonne 7. Les rangées seront triées en fonction du terme dans la dernière colonne, qui est aussi un wikilien. Les redirections ne seront pas élaguées (j'ignore comment faire et j'ai d'autres obligations). Quant à la proposition de créer un tableur, ce n'est pas dans mes cordes. Toujours intéressé malgré la longueur du tableau ?
- — Cantons-de-l'Est discuter 25 juillet 2021 à 14:24 (UTC)
No | A | B | C | D | E | F |
1 | "Daniel Darc" | |||||
2 | "Mme de Stolz" | |||||
3 | Œuvres complètes | Préface | ||||
4 | (Verlaine) | |||||
5 | * | |||||
6 | ... le Cœur populai | Conseils | ||||
7 | ... le Cœur populai | Idylle | ||||
8 | ... le Cœur populai | La Frousse | ||||
20 | Bordeaux | |||||
21 | 0° cocktail (Recuei | 0° cocktail | ||||
22 | 0° cocktail (Recuei | Boobs | ||||
26 | 10 | |||||
27 | 1453 | |||||
31 | 1909 | |||||
32 | 1914-1916 | |||||
33 | 1914-1916 | Commémoration | ||||
52 | 1914-1916 | Quand même ! | ||||
59 | 1914-1916 | À la Belgique | ||||
60 | 1 Sonnet | |||||
61 | 1er janvier | |||||
62 | 2 | |||||
63 | 31 octobre | |||||
64 | 350 recettes de cui | Avant-propos | ||||
65 | 350 recettes de cui | Bagatelle | ||||
138 | 352e DI Allemande - | 6 | 44 | |||
139 | 391 (revue) | |||||
140 | 391 (revue) | Articles | ||||
141 | 391 (revue) | Auteurs | ||||
142 | 391 (revue) | Ressources | ||||
143 | 4 | |||||
144 | 813 | |||||
145 | 813 | 01 | ||||
146 | 813 | 02 | ||||
147 | 813 | 03 |
Recherche d'erreurs possibles[modifier]
Bonjour,
Malgré tout les efforts que déploient les personnes qui relisent les textes, il reste toujours des erreurs. Certaines seront toujours difficiles à trouver mais pour d'autres, ce devrait être possible de les repérer.
Voici quelques idées (sans doute en se limitant aux pages validées/vertes) :
- quels sont les mots les plus rares ?
- quels sont les mots les plus rares/courants sans entrée sur les Wiktionnaires/les lexèmes ? (pour reprendre la vieille idée de l'outil Dicompte malheureusement pas mis à jour depuis longtemps)
- au sein d'un mot, quel est la fréquence de chaque séquence de caractères (n-gramme, paire, triplet, etc.) ? (les plus rares étant probablement des erreurs)
- quels sont les mélanges d'alphabets au sein d'un mot (comme "Αlphabet" avec un alpha au lieu d'un A initial, devrait apparaître comme anomalie dans le point ci-dessus mais mériterait d'être signalé à part)
- reprendre les regex de MediaWiki:Gadget-Erreurs-communes.js (mais en faire un rapport plutôt que de n'afficher l'erreur que lorsque l'on se trouve sur la page)
- <insérer autres idées qui pourraient servir le même objectif>
Ce n’est pas exactement un travail de bot (pas dans le sens "compte d'édition automatique" en tout cas) mais cela demande des compétences techniques que je n'ai pas vraiment (et cela peut prendre diverses formes, une page de rapport directement sur Wikisource, un outil externe, etc.).
En bonus, pourrait-on imaginer de laisser un message sur la page de l’utilisateur qui commet une erreur ? (à valider par la communauté et sans doute à limiter aux cas qui auront été repérés comme étant réellement des erreurs). Super-bonus si on peut avoir un filtre filtre anti-abus
Cdlt, VIGNERON (d) 27 février 2023 à 10:54 (UTC)
- @VIGNERON Merci pour ta requête, même si ça ne rentre pas tout à fait dans le périmètre de cette page. Peut-être qu’il faudrait établir une boite à idées ? En tout cas, c’est un projet intéressant. À+, Lepticed7 (Viens tcharer ! :D) 1 mars 2023 à 14:50 (UTC)
Retrait des coupures de mots dans le Dictionnaire de théologie catholique[modifier]
Je retire régulièrement le tiret qui coupe un mots pour aller à la ligne sur le dictionnaire de théologie catholique.
Par exemple Page:Alfred Vacant - Dictionnaire de théologie catholique, 1908, Tome 12.2.djvu/462
adhse- rere.
devient
adhserere.
J'aimerai retirer "le tiret, l'espace et le saut de ligne" sur les pages du DTC ? Cela vous semble possible. ?
Merci.
Sicarov :, oui, c'est les boutons "OCR" et "T(ypo)" que je te mentionnais dans ta page de discussion (Petits conseils... d'un novice en OCR !). Non seulement ils opèrent une correction partielle d’erreur dans des textes, mais aussi ils retirent "le tiret, l'espace et le saut de ligne". Bien à toi ! --Éτienne ♄ (d) 25 mars 2023 à 09:11 (UTC)