Wikisource:Dialogue BnF
La bibliothèque libre.
| Légende des icônes : état d'avancement des projets et des portails |
||||
| |
|
|
|
|
Projet n° 33 – Dialogue avec la BnF
Créer un système qui permette de répartir de la façon la plus efficace possible, entre la BnF et les wikisourciens, le travail de correction d'OCR de fac-similés de documents de la BnF.
[modifier] Liens
Présentations - Annonce - Les 1 500 ouvrages fournis par la BnF - Les choix des Wikisourciens dans les 1 500 ouvrages proposés
Sommaire |
[modifier] 1. Proposer une marche à suivre et des étapes
Nous avons demandé une sélection d'environ 1500 ouvrages - avec des thèmes et des qualités d'océrisation divers - afin de tester la viabilité du projet.
[modifier] 2. Donner son avis sur des propositions
- Pour obtenir, au lieu des « qualités d'océrisation diverses », une qualité égale à celle de Microsoft ou d'Internet Archive (exemple), que faut-il faire ?- --Zyephyrus 15 septembre 2008 à 21:37 (UTC)
[modifier] 3. Recenser les pratiques
[modifier] 2009
Quelle différence avec ce dont je me plaignais en 2008 ! Aujourd'hui, pour vérifier une modification par une IP, j'ai mis aussi peu de temps à retrouver un mot dans ce poème de Théophile Gautier en fac-similé sur la BnF, grâce à la recherche avancée, que pour procéder à des vérifications en mode texte : un très grand merci à tous ceux qui ont produit une telle avancée. --Zyephyrus 31 mai 2009 à 11:35 (UTC)
- De plus en plus rapide : j'ai pu vérifier cette modification aussi rapidement et même plus, à partir du lien fourni en page de discussion que si j'avais feuilleté un livre en papier.--Zyephyrus 8 juin 2009 à 18:49 (UTC)
[modifier] 2008
|
Source : Wikisource:Scriptorium/Septembre 2008 Jusqu'à présent nous devons effectuer les étapes suivantes : 1. récupérer le document au format PDF, 2. le transformer au format DJVU, 3. effectuer l'OCR. Je pense qu'il serait intéressant que la BNF utilise le format DJVU, un standard dans ce domaine, utilisé notamment par Internet Archive, une autre source importante de documents numérisés (http://www.archive.org/details/texts). De fait, il est plus facile de réutiliser les documents de IA, également à cause de la présentation des documents. Yann 13 septembre 2008 à 09:46 (UTC) |
Pourquoi devons-nous transformer les pdf en djvu ? Pour faire comprendre le problème, rien de tel qu'un bon exemple, en voici un. Combien de temps mettra-t-on à confronter à l'édition originale mise en ligne par Gallica cette correction d'une IP bien intentionnée ? Retrouver un mot dans un texte est ici extrêment long (plus d'une heure), alors que sur Google books ou Internet Archive, même en mode image c'est rapide. Ce qui est en jeu est la qualité de l'OCR, d'une part, et la lenteur d'affichage des pdf, d'autre part.
En effet, dans un premier temps, la recherche de « Find PDF » ne trouve dans le document ni « je le prends » (j minuscule), ni « Je le prends » (j majuscule), et ce, même en recourant à l'outil maximal, la « Full Reader's Search » (Shift + Control+F). J'imagine que c'est dû à la très mauvaise qualité de l'OCR sur laquelle repose cette recherche, est-ce que je me trompe ?
Dans un deuxième temps, feuilleter l'œuvre page par page pour retrouver le passage, faites-le et chronométrez, En 2008, je trouve que ce n'est pas acceptable, et donc que la première dépense à faire est l'investissement dans une OCR correcte pour que la recherche en mode texte puisse donner des résultats autres qu'inutilisables, et la deuxième dépense à faire (je n'ai pas dit à prévoir) : investir dans le passage du format pdf au format djvu, où chaque page d'un livre s'affiche à une vitesse comparable à celle du tournage des livres papier, rendant la lecture numérique vraiment possible. Tandis que ces dépenses ne sont pas faites en France, c'est par dizaines de millions que les lecteurs accèdent aux livres mis en ligne par le Wikisource anglais, et n'accèdent pas aux livres qui ne peuvent pas être mis en ligne par le Wikisource français.
Comparez aussi l'OCR d'Aristote ici et ici. Peut-on croire que les contributeurs français travailleront avec le même entrain que les contributeurs anglais ? La même efficacité ? Qu'ils sont armés pour gagner la course ? Veut-on qu'ils la perdent, cette course ? Et pourquoi le veut-on ? Parce qu'on n'en a pas compris les enjeux ? Hum, je crois que j'exagère un peu :)
L'investissement demandé me paraît très faible. Est-ce que je me trompe aussi sur ce point ? - --Zyephyrus 12 octobre 2008 à 10:25 (UTC)
[modifier] 4. Boîte à idées sur le projet
Choix des 1500 livres. Pour que le projet fonctionne, il faut attirer des contributeurs. Je pense que le choix des 1500 livres n'est donc pas neutre. Le choix peut être laissé à la BNF mais il serait bon d'établir des critères ?
- Qu'il ne fassent pas partie des 449 déjà disponibles en mode page.
- Qu'il soit de préférence avec une orthographe / graphie contemporaine.
- Pourquoi ? Je trouverais ça bien d'avoir aussi quelques livres vieux/rares en vieux françois, notamment les livres à intérêt historique (lettres de Henry IV, Mémoires de Marguerite de Valois, w:Séquence de sainte Eulalie, ...). --Kipmaster 16 septembre 2008 à 14:17 (UTC)
- Qu'il puisse donner un rendu OCR de bonne qualité. Avec un peu d'expérience, on sais très vite si l'image va nécessiter 4 corrections par pages ou de tout retaper. Pour corriger 1500 livres, notre communauté n'est pas assez nombreuse, il faut pouvoir proposer des corrections de pages faciles et qui donne une satisfaction immédiate au correcteur. ?
- Une variété de sujets : romans, littérature pour enfants, poésie, histoire, classiques, curiosités... là je ne sais pas n'étant pas confronté à des demandes de lecteurs ou de correcteurs - côté lecteurs chez elg la littérature populaire à l'air d'être la plus prisée chez elg, une mesure chez Gutenberg.[1]
-
- Ce qui serait vraiment utile, c'est que l'on puisse demander à la BNF des documents qui nous font cruellement défaut (voir par exemple notre liste de Textes demandés). Je viens de voir que nous n'avons pas la 2e page du J’accuse de Zola. La 1ère page est disponible sur Commons (Image:J accuse.jpg). La source n'est pas indiquée, mais des recherches me font penser que ce document vient très certainement de la BNF. (la 2e page en petite résolution est par exemple disponible ici, mais c'est illisible [1]). Yann 13 septembre 2008 à 12:40 (UTC)
[modifier] 5. Réalisation
Suivi du projet
- ↑ Intervention non signée