Wikisource:Partenariats/Bibliothèque nationale de France/Discussions

La bibliothèque libre.
Sauter à la navigation Sauter à la recherche

1. Proposer une marche à suivre et des étapes[modifier]

Nous avons demandé une sélection d'environ 1500 ouvrages - avec des thèmes et des qualités d'océrisation divers - afin de tester la viabilité du projet.

2. Donner son avis sur des propositions[modifier]

Pour obtenir, au lieu des « qualités d'océrisation diverses », une qualité égale à celle de Microsoft ou d'Internet Archive (exemple), que faut-il faire ?- --Zyephyrus 15 septembre 2008 à 21:37 (UTC)

3. Recenser les pratiques[modifier]

2009[modifier]

Quelle différence avec ce dont je me plaignais en 2008 ! Aujourd'hui, pour vérifier une modification par une IP, j'ai mis aussi peu de temps à retrouver un mot dans ce poème de Théophile Gautier en fac-similé sur la BnF, grâce à la recherche avancée, que pour procéder à des vérifications en mode texte : un très grand merci à tous ceux qui ont produit une telle avancée. --Zyephyrus 31 mai 2009 à 11:35 (UTC)

De plus en plus rapide : j'ai pu vérifier cette modification aussi rapidement et même plus, à partir du lien fourni en page de discussion que si j'avais feuilleté un livre en papier.--Zyephyrus 8 juin 2009 à 18:49 (UTC)

2008[modifier]

Transclusion

Source : Wikisource:Scriptorium/Septembre 2008

Jusqu'à présent nous devons effectuer les étapes suivantes : 1. récupérer le document au format PDF, 2. le transformer au format DJVU, 3. effectuer l'OCR. Je pense qu'il serait intéressant que la BNF utilise le format DJVU, un standard dans ce domaine, utilisé notamment par Internet Archive, une autre source importante de documents numérisés (http://www.archive.org/details/texts). De fait, il est plus facile de réutiliser les documents de IA, également à cause de la présentation des documents. Yann 13 septembre 2008 à 09:46 (UTC)


Pourquoi devons-nous transformer les pdf en djvu ? Pour faire comprendre le problème, rien de tel qu'un bon exemple, en voici un. Combien de temps mettra-t-on à confronter à l'édition originale mise en ligne par Gallica cette correction d'une IP bien intentionnée ? Retrouver un mot dans un texte est ici extrêment long (plus d'une heure), alors que sur Google books ou Internet Archive, même en mode image c'est rapide. Ce qui est en jeu est la qualité de l'OCR, d'une part, et la lenteur d'affichage des pdf, d'autre part.

En effet, dans un premier temps, la recherche de « Find PDF » ne trouve dans le document ni « je le prends » (j minuscule), ni « Je le prends » (j majuscule), et ce, même en recourant à l'outil maximal, la « Full Reader's Search » (Shift + Control+F). J'imagine que c'est dû à la très mauvaise qualité de l'OCR sur laquelle repose cette recherche, est-ce que je me trompe ?

Dans un deuxième temps, feuilleter l'œuvre page par page pour retrouver le passage, faites-le et chronométrez, En 2008, je trouve que ce n'est pas acceptable, et donc que la première dépense à faire est l'investissement dans une OCR correcte pour que la recherche en mode texte puisse donner des résultats autres qu'inutilisables, et la deuxième dépense à faire (je n'ai pas dit à prévoir) : investir dans le passage du format pdf au format djvu, où chaque page d'un livre s'affiche à une vitesse comparable à celle du tournage des livres papier, rendant la lecture numérique vraiment possible. Tandis que ces dépenses ne sont pas faites en France, c'est par dizaines de millions que les lecteurs accèdent aux livres mis en ligne par le Wikisource anglais, et n'accèdent pas aux livres qui ne peuvent pas être mis en ligne par le Wikisource français.

Comparez aussi l'OCR d'Aristote ici et ici. Peut-on croire que les contributeurs français travailleront avec le même entrain que les contributeurs anglais ? La même efficacité ? Qu'ils sont armés pour gagner la course ? Veut-on qu'ils la perdent, cette course ? Et pourquoi le veut-on ? Parce qu'on n'en a pas compris les enjeux ? Hum, je crois que j'exagère un peu :)

L'investissement demandé me paraît très faible. Est-ce que je me trompe aussi sur ce point ? - --Zyephyrus 12 octobre 2008 à 10:25 (UTC)



4. Boîte à idées sur le projet[modifier]

Choix des 1500 livres. Pour que le projet fonctionne, il faut attirer des contributeurs. Je pense que le choix des 1500 livres n'est donc pas neutre. Le choix peut être laissé à la BNF mais il serait bon d'établir des critères ?

  • Qu'il ne fassent pas partie des 449 déjà disponibles en mode page.
  • Qu'il soit de préférence avec une orthographe / graphie contemporaine.
    • Pourquoi ? Je trouverais ça bien d'avoir aussi quelques livres vieux/rares en vieux françois, notamment les livres à intérêt historique (lettres de Henry IV, Mémoires de Marguerite de Valois, w:Séquence de sainte Eulalie, ...). --Kipmaster 16 septembre 2008 à 14:17 (UTC)
  • Qu'il puisse donner un rendu OCR de bonne qualité. Avec un peu d'expérience, on sais très vite si l'image va nécessiter 4 corrections par pages ou de tout retaper. Pour corriger 1500 livres, notre communauté n'est pas assez nombreuse, il faut pouvoir proposer des corrections de pages faciles et qui donne une satisfaction immédiate au correcteur. ?
  • Une variété de sujets : romans, littérature pour enfants, poésie, histoire, classiques, curiosités... là je ne sais pas n'étant pas confronté à des demandes de lecteurs ou de correcteurs - côté lecteurs chez elg la littérature populaire à l'air d'être la plus prisée chez elg, une mesure chez Gutenberg.[1]
Ce qui serait vraiment utile, c'est que l'on puisse demander à la BNF des documents qui nous font cruellement défaut (voir par exemple notre liste de Textes demandés). Je viens de voir que nous n'avons pas la 2e page du J’accuse de Zola. La 1ère page est disponible sur Commons (Image:J accuse.jpg). La source n'est pas indiquée, mais des recherches me font penser que ce document vient très certainement de la BNF. (la 2e page en petite résolution est par exemple disponible ici, mais c'est illisible [1]). Yann 13 septembre 2008 à 12:40 (UTC)

5. Discussion avec des contacts chez Gallica sur le Scriptorium[modifier]

(discussion originale sur le scriptorium)

Bonjour,

Je sais pas si on a encore un lien et des contacts actifs avec Gallica, mais je profite d'avoir une amie (d'une amie) qui travaille à la BNF pour lancer un échange avec eux. J’vais essayer de me renseigner sur les liens qu'on a avec eux et essayer de développer un peu tout ça, j’vous fais le compte-rendu dans la semaine. Assassas77 (d) 6 août 2018 à 18:38 (UTC)


Compte-rendu de la discussion téléphonique qui a eu lieu le mardi 7 août à 16h avec Isabelle Degrange.[modifier]

1400 ouvrages ont été livrés à Wikisource en 2010
Objectif : les transformer en epub (corrigés et validés)
Contact : Jean Philippe Moreux
Le choix du format epub est lié à la chaîne d'entrée dans Gallica qui peut être complexe. Wikisource a un format particulier de texte brut :il ne conserve pas les retours à la ligne notamment.


Gallica Studio = réutilisation par les Gallicaunautes (développeurs, mais aussi cuisiniers, etc..., / dans des projets)
Contact : Cécile Quach


Médiation numérique, valorisation, publication de billets de blog, aspect littérature.
Contact : Isabelle Degrange


Actus : 150 EPUB Gallica sélectionnés par le ministère de l’Éducation nationale https://gallica.bnf.fr/blog/18012018/150-epub-gallica-selectionnes-par-le-ministere-de-leducation-nationale


Objectifs :

Échéance : mise en œuvre cette année / l'intégration des epub risque de prendre un peu plus de temps

Prochaine RDV : réunion de discussion à la rentrée (19 septembre à 18h ?)


  1. Du coup, si il y a des personnes qui sont intéressées pour participer à cette réunion express de discussion à Paris... A priori, ce sera le 19 septembre 2018 à 18h.
  2. De plus, si vous savez qui contacter chez Wikimédia France pour leur parler de ce projet ?
  3. J’ai une petite question : pourquoi la Catégorie:Ouvrages issus du partenariat avec la BnF a-t-elle été retirée pour certains des ouvrages : voir [2] ou [3]
    Je ne connais pas bien le travail de bookworm-bot.

Assassas77 (d) 9 août 2018 à 18:02 (UTC)

Du coup Notification FreeCorp :, j'te confirme que la réunion a bien lieu le 19 septembre à 18h (le point de rendez-vous est par l'entrée public, on se retrouve aux globes de Louis XIV à 18h à la BnF) Tu peux me contacter par email pour échanger des contacts téléphoniques pour qu'on puisse se retrouver. Assassas77 (d) 27 août 2018 à 07:25 (UTC)

2018-09-19 pré-réunion[modifier]

Travail à faire :

  • préparer des statistiques pour identifier :
    • avancement
      • ce qui a été fait => catégorie:bon pour export
      • ce qui reste à relire
    • type
      • ouvrages issus du partenariat avec Gallica
      • facsimilés issus de Gallica (ce qui est au-delà du partenariat)
    • cf ce document
  • utiliser un bot pour repasser les catégories
  • convertir en masse les epub terminés
  • avoir des pages d’aides prêtes sur lesquelles s’appuyer en cas d’afflux de contributeurs
  • améliorer la centralisation des pages de discussion
  • préparer des infographies pour compléter les pages d’aides
  • améliorer la documentation des modèles : proposer un aperçu en contexte, et le modèle utilisé dans la page (modèles difficiles : titre, théâtre, taille du texte)
  • voir ce qui a été proposé dans Correct comme formation des utilisateurs

Liens :

  • phetools/stats
  • XML TEI

Difficultés rencontrées et questions

  • catégorie sur l’espace principal & catégorie dans l’espace Livre (index:)
  • certains ouvrages issus du partenariat ont été décatégorisés
  • identifier les critères de sélection et le processus qui ont conduit à choisir les ouvrages du partenariat (cf. ce qui a été fait pour le parcours matrimoine ⇔ centre d’intérêts des lecteurs ⇔ motivation des lecteurs)
  • quel est le devenir du projet Correct

Résultat attendu :

  • livrer des epub terminés
  • avoir un lien entre Gallica et Wikisource

Proposition à long terme :

  • inclure de nouveaux ouvrages
  • proposer des ateliers à destination des gallicanautes
  • préparer un MOOC Wikisource
  • consolider les données de Wikidata et de la BnF
  • déterrer le correcteur automatique de Wikisource pour le documenter

Dates à venir :

  • 5-7 octobre 2018 - wikiconvention
  • 24-25 novembre 2018 - hackathon

Pour la réunion avec Gallica :

  • préparer des stats
  • identifier les éléments du parcours d’un nouveau contributeur

2018-09-20 - réunion BnF-Wikisource dans les locaux de la BnF[modifier]

Objectif dans un premier temps : se limiter au minimum de développement informatique

Informations :

  • Il existe 3500 à 4500 ouvrages (littérature, essais, …) au format epub (2, 3) dans Gallica, réalisés par un prestataire privé. Toutefois, la production interne d’epub a cessé pour des contraintes budgétaires. De plus, l’epub ne correspond pas aux outils d’accessibilité.
  • La plateforme Correct était un projet ANR. Il n’a pas été possible d’intégrer la brique logicielle à cause de droits de propriété intellectuelle. Un important travail avait été fait sur l’ergonomie et sur l’accessibilité.
  • https://tools.wmflabs.org/mix-n-match/#/ pour l’appariement des données
    Utilisation de CSV pour créer des entités
    OpenRefine tabulaire >> wikidata ?
  • Philippe a présenté des informations statistiques concernant les documents de Gallica présents dans Wikisource.

Projets :

  • Wikisource peut être lié depuis le site de Gallica par des liens ou une page projet dédiée (début 2019 ?).
  • Wikidata-BnF : bibliographie et notices d’autorité
    entité = une édition (gallica-edi ⇔ nom ark pour 336/3000 facsimilés issus de Gallica)
    permet de connaître l’état de correction des batchs de travail
  • Présentation d’une maquette de bouton Wikisource, fonctionnant avec Wikidata, et permettant un lien direct d’un ouvrage sur Gallica vers la version Wikisource.
  • Réflexion sur un outil de citation pour Wikipédia ; permettant de reprendre les métadonnées renseignées sur Gallica.
  • Les utilisateurs de Gallica (comme ceux de Wikisource) sont parfois demandeurs de documents à numériser. On pourrait envisager qu’ils soient ensuite OCRisés, voire envoyés sur Wikisource.

Tâches :

  • Fourniture de la liste des id:gallica croisés avec la catégorie:Bon pour export
  • Améliorer le guidage des utilisateurs dans Wikisource ; consolider les pratiques.
  • Compte-rendu à transmettre à l’équipe BnF sur le contenu de la Wikiconvention qui concerne les GLAM et Wikisource.
  • Au travers des RDV Gallica sur le blog, communiquer le calendrier et le lieu des ateliers. Des experts BnF pourraient mettre en valeur et présenter la liste des oeuvres de la liste de travail.

6. Partenariat formel BNF-Wikimédia France[modifier]

Pour information, j'avais rencontré Isabelle Degrange à l'occasion des Journées Wikimedia Culture et numérique en mai dernier pour lesquelles je l'avais invitée à faire un retour sur les projets et actions passées. Une réunion en juillet s'en était suivie pour faire le point. Il en ressort une convention de partenariat en cours de rédaction qui inclura les futures actions sur Wikisource, une formation le 21 novembre prochain à Wikipédia et Wikimedia commons aux agents en interne dont une partie souhaite acquérir des compétences pour notamment accueillir et encadrer de futures journées contributives en 2020. --Xavier Cailleau WMFr (d) 16 octobre 2019 à 17:46 (UTC)


  1. Intervention non signée