Wikisource:Wikisource Recherche

La bibliothèque libre.
Sauter à la navigation Sauter à la recherche
Idées et projets

Vous êtes ici : accueil >Projets >Wikisource Recherche

    Légende des icônes : état d’avancement des projets et des portails
   00%.svg   En projet     25%.png   Commencé     50%.png   En cours     75%.png   Avancé     Relu et corrigé   Terminé  







Projet n° 17 -- Recherche dans Wikisource

Définir les outils de recherche dont nous avons besoinÀ évaluer



2014[modifier]

Transclusion

Source : Wikisource:Questions techniques


Archives[modifier]

2006[modifier]

Résumé en cours d'élaboration :[modifier]

Voici un bref cahier des charges de l'outil, comme je pense qu'il devrait être :
  1. Être capable de trouver un mot ou une expression dans toutes les sous-pages d'une page donnée (donc soit à partir de la page Auteur, soit à partir de la page sommaire d'une oeuvre, etc.)
  2. Être capable de trouver un mot ou une expression dans toutes les pages et sous-pages d'une catégorie - et des sous-catégories -.
Avec ces deux objectifs, on peut faire des recherches sur tous les niveaux de Wikisource, depuis la page Accueil jusqu'à une page sommaire d'une œuvre.

Sous-page : Faciliter les recherches par un système de nommage cohérent.

Ajout d'un moteur de recherche externe[modifier]

Bonjour,

serait-il possible d'insérer un moteur de recherche externe (notamment Google), à la page Special:Search, comme sur Wikipédia ?

Une courte explication sur la façon de procéder est disponible sur la FAC de http://meta.wikimedia.org. --Öî 18 décembre 2006 à 18:10 (UTC)

C'était le projet 17. J'ai essayé de suivre les excellents conseils qu'Öî/Ærèbe donnait sur le scriptorium en décembre, mais je reste au milieu du gué ! J'ai bien créé une page dans l'espace Mediawiki comme l'indiquait le mode d'emploi, mais je ne sais plus du tout comment continuer. Qui le sait ? --Zephyrus 24 janvier 2007 à 19:58 (UTC)

En fait, il faut avoir accès à un fichier de MediaWiki, ce que nous ne pouvons pas faire. Je crois que c'est avec les développeurs qu'il faut voir. Marc 24 janvier 2007 à 21:10 (UTC)

Concordances des textes[modifier]

Ne trouvez-vous pas que c'est un peu dommage de numériser des textes sans profiter de l'avantage que procure la numérisation pour la recherche de mots clefs à l'intérieur d'une œuvre ?

  • Si je veux chercher les occurrences d'un mot dans l'œuvre de Molière, je peux utiliser la concordance de Molière du site www.site-moliere.com. Exemple : occurences du mot « grammaire » dans Molière : ht tp://search.freefind.com/find.html?id=6797121&pid=r&mode=ALL&query=grammaire&t=s

(copier et coller le lien sans espace entre ht et tp dans la barre d'adresse de votre navigateur)

  • cet outil permet de chercher des concordances dans l'œuvre de Maupassant, dans les Trois Mousquetaires, ou dans un roman de Zola.

Ne faudrait-il pas être capable de faire la même chose sur Wikisource, et donc demander aux développeurs de développer un outil informatique dans ce but ?

En français un logiciel d'aide à l'établissement d'une concordance s'appelle un concordancier, dit l'article de Wikipédia.

Teofilo 19 décembre 2006 à 18:04 (UTC)

Je ne pense pas que ce soit très difficile à faire. En effet, certaines requêtes des robots (DELETE, REPLACE, REGEXP) font sûrement appel d'abord à une recherche de chaîne de caractère ou expression régulière, avant de supprimer ou remplacer la chaîne... Par ailleurs, COLLECT est capable de naviguer dans les pages liées à une page donnée. Donc on devrait pouvoir faire un bot qui part de la page de l'auteur et cherche le mot-clé dans toutes les pages liées en suivant une arborescence, puis émet la sortie quelque-part (dans une page dédiée "concordances" ???). Je ne parle pas le Python (langage de programmation préféré pour les bots Wiki) mais il parait que c'est facile, donc en regardant le code des requêtes existantes, je pourrais peut-être concocter un code pour ce que tu demandes. Bigon 19 décembre 2006 à 21:01 (UTC)
Je trouve en tout cas qu'il s'agit d'une très bonne idée. Bon courage à celui qui le développera. François 19 décembre 2006 à 21:56 (UTC)
C'est très sympa de proposer un système par robot, mais en fait pour faire une concordance au cas par cas, je viens de découvrir qu'on pouvait utiliser l'outil en ligne à cette adresse où il suffit de copier-coller le texte et de cliquer sur le bouton. Mais ce que j'aimerais c'est que Wikisource ait un outil intégré comme ce qui se passe sur le site perseus (site spécialisé dans les textes de l'antiquité gréco-romaine ) : http://www.perseus.tufts.edu/cgi-bin/vor?lang=la : on sélectionne le texte en cliquant sur "select", on tape le mot qu'on cherche et on clique sur "search" (outil de recherche de mots latins). Je pense que dans un premier temps, il faudrait développer un outil expérimental sur le serveur d'outils de Wikimedia Allemagne : http://tools.wikimedia.de/startsite/ . Teofilo 20 décembre 2006 à 00:56 (UTC)
Je n'ai pas bien compris ce qu'est la "concordance". Le but est-il de chercher les occurences d'un mot en particulier (comme dans www.site-moliere.com ou www.perseus.tufts.edu) ou d'effectuer une statistique des mots apparaissant dans une œuvre (comme dans l'outil en ligne) ? L'inconvénient avec l'outil en ligne est qu'on ne peut travailler que page par page, et pas faire une recherche sur un livre entier ou un auteur. Je n'ai rien contre l'utilisation du serveur d'outils, mais je ne vois pas comment faire. Au vu de cette page qui permet d'accéder à quelques codes sources, chacun utilise un peu le langage qu'il souhaite... Bigon 20 décembre 2006 à 15:36 (UTC)
L'inconvénient avec l'outil en ligne est qu'on ne peut travailler que page par page--> on doit pouvoir se débrouiller pour coller plusieurs pages ensemble en utilisant la syntaxe "{{subst:page1}}{{subst:page2}}...{{subst:pagex}}" qu'on place dans un brouillon personnel.
Le but est-il de chercher les occurences d'un mot en particulier (comme dans www.site-moliere.com ou www.perseus.tufts.edu) ou d'effectuer une statistique des mots apparaissant dans une œuvre (comme dans l'outil en ligne)--> À mon avis, ce qui est le plus intéressant pour le lecteur c'est la recherche d'un seul mot.
Je n'ai rien contre l'utilisation du serveur d'outils, mais je ne vois pas comment faire. --> Moi non plus. Tout ce que je sais c'est qu'il est possible d'accéder à un double de la base de données de Wikipédia (et de Wikisource aussi, je présume ?) qui accepte des requêtes complexes dites "requêtes SQL". Par exemple Escaladix a créé récemment un nouvel outil qu'on retrouve désormais en lien en haut de l'historique de chaque page de Wikipédia, et qui permet de retrouver la liste de tous les auteurs d'une page, classés par ordre alphabétique : exemple. Teofilo 20 décembre 2006 à 16:26 (UTC)
Ca y est je comprend mieux comment on peut s'en servir. 1 Il faut créer un compte là-bas, ce qui donne accès à un espace disque et à des compilateurs et autres serveurs d'interprétation sur http://tools.wikimedia.de/. 2 Ensuite il faut programmer un script, par exemple celui d'excaladix est en tcl, mais d'après les codes source, perl, php, python seraient possibles aussi. Ces langages permettent effectivement de faire des requête SQL sur une base de données. 3 Pour finir, on peut appeller le script par un lien depuis une page de WS, comme dans l'exemple que tu donnes. 4 Pour appliquer cela à la concordance, il faudrait, dans les pages d'auteur ou de titre principale d'oeuvre, rajouter une case à remplir (pour mettre le mot) + un bouton ou un lien (ce rajout peut se faire via un modèle). Bigon 20 décembre 2006 à 18:29 (UTC)
Je pense pour donner un maximum de confort d'utilisation, il faudrait générer une page de sélection avec des cases à cocher, comme celle de Perseus, permettant à l'utilisateur de se fabriquer un corpus à la carte. Pour ce faire, il serait utile de placer toutes les oeuvres d'un même auteur dans une catégorie du type [[catégorie:nom de l'auteur]], et de placer en haut de chaque page de catégorie un lien vers le nouvel outil qui serait intitulé « faire une recherche dans les textes de cette catégorie ». Pour générer cette page de sélection de corpus, il faudra probablement réutiliser l'outil Catscan (lien direct (mais c'est en panne au moment où j'écris)), ou son programme source. Avant un tel raffinement de fonctionnalités, ce serait déjà bien de créer à la main une page de sélection pour un seul auteur (Molière, par exemple), et de voir si on peut créer un petit logiciel qui permet de chercher un mot dans les oeuvres de cet auteur. Encore avant, à titre expérimental, un logiciel permettant de chercher un mot dans les oeuvres de Molière numérisées sur Wikisource, sans sélection possible (donc le strict équivalent de "concordance Molière" du site "site-molière.com"). Teofilo 21 décembre 2006 à 13:06 (UTC)

Cela me semble être une bonne idée de créer une page plus complète à part (sur tools.wikimedia.de) plutôt que de mettre des champs à remplir directement dans nos pages de WS.

Appel à voter : Des membres de WS autres que Teofilo, François et moi soutiennent-ils l'ajout d'un outil de concordance ? Suite possible : Si des réponses positives arrivent, je peux créer un compte sur le serveur allemand et me pencher sur la programmation à partir des outils existants.

Pourquoi mettre en place des [[catégorie:nom de l'auteur]] alors qu'on a déjà des pages pour les auteurs, vers lesquelles pointent les oeuvres (commme par exemple ceci au hasard)? La création et la maintenance de telles catégories impliquant un traitement beaucoup plus lourd, il faudrait qu'un certain nombre de membres de WS soutiennent cette idée particulière pour qu'elle soit mise en place. Bigon 21 décembre 2006 à 13:45 (UTC)

1) Je pense que ce sera plus facile pour le logiciel de récupérer les adresses des textes dans une catégorie que dans une page où elles sont mélangées à toutes sortes de textes, ponctuations, images. D'autre part, la mise en place d'un outil travaillant par rapport aux catégories permettrait de faire des recherches du type "trouver tel mot dans les textes du XVIIe siècle" ou "trouver tel mot dans tous les textes publiés entre 1650 et 1680". 2) Tu pourrais aussi poser la question sur les wikisources en d'autres langues. Teofilo 21 décembre 2006 à 14:55 (UTC)
Je suis personnellement du même avis que Bigon, à savoir que l'outil doit s'adapter à l'architecture actuelle de Wikisource, plutôt que ce soit l'inverse. Et pour l'instant, le travail réalisé par Zephyrus et autres pour structurer les catégories serait remis en cause par une multiplication des catégories ; ce qui serait fort dommage à mon avis, car l'intérêt de Wikisource est justement de ne pas surmultiplier celles-ci comme sur Wikipedia.
Voici un bref cahier des charges de l'outil, comme je pense qu'il devrait être :
  1. Etre capable de trouver un mot ou une expression dans toutes les sous-pages d'une page donnée (donc soit à partir de la page Auteur, soit à partir de la page sommaire d'une oeuvre, etc.)
  2. Etre capable de trouver un mot ou une expression dans toutes les pages et sous-pages d'une catégorie - et des sous-catégories -.
Avec ces deux objectifs, on peut faire des recherches sur tous les niveaux de Wikisource, depuis la page Accueil jusqu'à une page sommaire d'une œuvre.
D'un point de vue programmatique, cela devrait être assez simple à faire avec un langage récursif, puisque le 2) peut appeler lui-même ou le 1), et le 1) appelle lui-même. Malheureusement, je ne connais pas les langages "internet" et je ne sais pas s'ils en sont capables. François 27 décembre 2006 à 09:14 (UTC)

Poètes : liste détaillée de leurs œuvres ?[modifier]

(Extrait d'une discussion en cours recopié sur les pages utilisateurs concernées)
Le lecteur a aussi besoin d'une liste détaillée où trouver un poème précis et ne peut savoir dans quel recueil il figure. Nous nous étions posé cette question même pour les Portails, à plus forte raison pour les pages d'auteurs. --Zephyrus 26 décembre 2006 à 23:17 (UTC)

Quelques solutions :
  1. En dessous des recueils, on pourrait mettre une petite section "Poèmes célèbres" ou quelque chose comme ça ; mais ce serait un peu incontrôlable.
  2. On pourrait créer une page spéciale "Poèmes par ordre alphabétique"... Il y a des listes de ce genre dans l'édition de Chénier et de Lamartine dans la Pléiade, et c'est vraiment bien pratique (puisque je suis dessus en ce moment, en plus).
  3. Ou alors, il faut retravailler à fond la page de Catégorie:PoèteXXX pour faire apparaître absolument tout. Enmerkar 27 décembre 2006 à 01:09 (UTC)
Ton idée n°2 avait donné de bons résultats avec les Fables de La Fontaine (sauf que je m'aperçois au passage que j'avais oublié de lier la page en question à la page principale, je répare vite cette erreur !). --Zephyrus 27 décembre 2006 à 07:58 (UTC)
Il ne faut pas multiplier les entrées (c'est-à-dire les listes triées différemment), car c'est une source d'erreur importante (une maintenue et pas l'autre, etc). Ce genre de recherche devrait se faire avec des outils travaillant sur la base de données, l'outil "catégorie" n'étant pas suffisamment fiable pour moi (puisqu'il comporte une forte phase "manuelle").
Je trouve que les outils de recherche sont nettement insuffisants sur Wikisource, et il serait utile d'en créer un. Voir à ce sujet Concordances des textes qu'il serait bien de soutenir, car il correspond exactement à ce qui est ici cherché. François 27 décembre 2006 à 09:22 (UTC)

17.1 Proposer une marche à suivre et des étapes À évaluer
17.2 Donner son avis sur des propositions Texte complet non-formaté
17.3 Recenser les pratiques sur d'autres wikisources, d'autres wikis, d'autres sites, des livres, d'autres documents Texte incomplet
17.4 Boîte à idées sur le projet 17 Texte complet non-formaté
17.5 Réalisations projet 17 Texte complet non-formaté