Discussion aide:Numérisation

La bibliothèque libre.
Aller à : navigation, rechercher

Bonjour,

L'idée m'intéresse, mais les essais que j'ai faits jusqu'à présent ont été peu satisfaisants (différents logiciels d'OCR sous Linux et un petit scanner à plat). Donc pas mal de question... Sinon, j'ai pas de bouquins, je pourrais faire une liste de ce que j'ai et de ce qui m'intéresse. Yann 31 janvier 2006 à 13:44 (UTC)

  • Quelle est la résolution minimum nécessaire ?
  • Quelle est le format d'images conseillé / nécessaire ?
  • Quelle est le meilleur logiciel d'OCR sous Linux ?
Yann,
La résolution conseillée est 300 dpi. Le format d'image conseillé dépend du logiciel OCR (s'il est séparé du logiciel de scan). Le meilleur logiciel OCR est FineReader, je ne sais pas s'il existe en version Linux. Il est capable de scanner un PDF en mode image complet, vite et bien en plus ! Mais il en existe sans doute d'autres (certains sont très lents et très mauvais). François 31 janvier 2006 à 13:52 (UTC)
Bonjour,
oui, avec 300, et un bon livre source, ça fonctionne très bien. Marc 31 janvier 2006 à 13:55 (UTC)
Pour les livres, il faut emprunter à la bibliothèque. C'est ce que je compte faire (emprunter les oeuvres complètes de tel ou tel auteur). Avec moins d'une heure par jour de numérisation, cela fait 140 pages minimum, et s'il y a plusieurs personnes, même avec moins d'investissement de chaque contributeur, cela fera un résultat considérable au bout d'un an. Marc 31 janvier 2006 à 13:58 (UTC)
J'ai utilisé X-Sane qui propose le format PNM (*.pnm, *.ppm, *.png, *.pbm). Il y a effectivement des différences entre ces extensions, mais je n'ai pas compris lesquelles. Yann 31 janvier 2006 à 13:59 (UTC)
Je dois dire que pour ma part, je ne connais rien à Linux... Marc 31 janvier 2006 à 14:06 (UTC)
le format png est compressé. je crois que les trois autres ne le sont pas.
pour l'ocr, j'ai utilisé gocr, mais le résultat n'était pas génial. c'était il y a longtemps, le logiciel a peut-être fait des progrès depuis...
ThomasV 31 janvier 2006 à 18:02 (UTC)

Questions techniques[modifier]

L'exemple donné Discuter:Les Satires (Boileau) montre toutes les difficultés du scan ; en effet, le texte est tout à fait exploitable et compréhensible, mais il y a quelques caractères parasites en plus ou en moins (" * . ; , …) qui, outre le fait que ce ne soit pas esthétique, peuvent surtout changer le sens du texte : un point n'est pas pareil qu'un point-virgule, des guillemets présents ou absents peuvent changer l'auteur de la citation, etc.

Pour corriger cela, j'édite en parallèle le PDF initial et le word, et je "tourne les pages" de chacun en même temps, après avoir relu le word et supprimé tout ce qui me parait erroné.

Une des erreurs les plus courantes et les plus dures à trouver et le découpage des paragraphes. Tout simplement parce que sur wikisource, on doit rajouter un saut de ligne devant chaque nouveau paragraphe, et il arrive parfois - souvent hélas - que la fin du paragraphe soit "à droite de l'écran" sur l'éditeur wikisource, et que du coup on ne le voit pas. François 31 janvier 2006 à 13:49 (UTC)


Les problèmes de l'exemple donné ne viennent pas du scanner ou du logiciel, mais de l'édition : la Pléaide utilise une typographie parfois gênante ; avec des éditions plus convenables pour ce genre de travaux, le résultat est proche de la perfection, sans corrections ; tout le problème consiste à choisir la bonne édition ; je pense à essayer avec la collection Bouquins. Sinon, il faudrait peut-etre créer un espace spéciales pour ces numérisations. Les résultats seront en général déjà bons pour la lecture, mais pas assez parfait pour l'édition habituelle.

Pour le découpage, le logiciel donne les sauts de ligne : à partir de là il est possible de les modifier avec un traitement de textes, pour conserver les paragraphes sous wiki. Marc 31 janvier 2006 à 14:04 (UTC)


Bon, que pensez-vous de mettre à disposition tout le résultat de ces numérisations dans un espace spécifique, par exemple : Wikisource:Numérisation - Œuvres complètes de Boileau ? J'ai déjà plus de 15 pour cent des textes de Boileau, mais les donner ainsi dans Wikisource ne me paraît pas possible. Placer ainsi ces textes les rendraient disponibles pour le lecteur, avec avertissement, et pour les contributeurs souhaitant procéder au nettoyage. De plus, pour la collaboration avec d'autres sites, ce serait utile. Marc 31 janvier 2006 à 14:13 (UTC)

Je verrais plus une page de recensement 'Wikisource:Numérisation en cours avec, dans cette page, Œuvres complètes de Boileau - numérisation en cours qui serait renommée plus tard en Œuvres complètes de Boileau. François 31 janvier 2006 à 14:20 (UTC)
Oui, d'accord, cela me paraît bien. Marc 31 janvier 2006 à 14:26 (UTC)
Marc, on peut aussi utiliser ton indicateur "Qualité". Pour les oeuvres en cours de numérisation, je mets 25% tant que la numérisation n'est pas terminée ; et comme je fais systématiquement la relecture immédiatement, le texte fini passe de 25% à 100%. Avec cet indicateur, le lecteur sait s'il peut avoir un texte fiable ou non en face de lui. François 31 janvier 2006 à 14:41 (UTC)
Oui, c'est vrai. Et je crois qu'il faudra également ajouter des informations spécifiques, comme le fait que certaines numérisations à nettoyer comporteront par exemple des chiffres (de notes ou de pages) qui nuisent à la lecture, mais ne réduisent pas normalement la qualité du texte ; et d'autres choses de ce genre, pour conserver une description aussi exacte que possible de l'état de chaque numérisation. Marc 31 janvier 2006 à 15:46 (UTC)

Partage du travail[modifier]

Je pense qu'on peut facilement attirer de nouveaux contributeurs si on leur prépare le travail, i.e. on numérise les documents et on les met dans une liste de documents à vérifier, un peu comme "Distributed Proofreaders". Yann 31 janvier 2006 à 15:00 (UTC)


Je suis entièrement d'accord. Même si la numérisation comporte encore des fautes, c'est un gros obstacle qui disparaît pour ceux qui voudraient simplement éditer une œuvre qu'ils ne trouveraient pas ailleurs autrement ; d'ailleurs, tout le monde n'a sans doute pas les moyens d'obtenir ces textes. Ainsi, ceux qui ont le matériel peuvent mettre en ligne une immense masse de textes à travailler. Pour ma part, je vais moins éditer, car j'ai du travail ; mais je peux numériser chaque jour quelques dizaines de pages.

Ces numérisations pourraient ainsi devenir une grosse base de données à partir de laquelle Wikisource s'augmenterait plus facilement en textes inédits. Marc 31 janvier 2006 à 15:38 (UTC)


Il faut faire attention aux notes de bas de page, qui risquent d'être compliquées à gérer si on supprime la pagination. J'ai tendance à penser qu'il faut laisser cette pagination au contributeur qui formate, corrige, vérifie le texte.

Contrairement à Marc, je dirais que le temps de vérification / correction d'un texte est beaucoup plus long que le temps de numérisation des pages avec un PDF image. Je dis cela d'expérience. François 31 janvier 2006 à 18:10 (UTC)

Peut-être, mais la relecture et la correction peuvent être déléguées et partagées, c'est plus difficile pour la numérisation et l'« OCRisation ». Ce qui change tout. Yann 31 janvier 2006 à 18:45 (UTC)
Yann, c'est un boulot "ingrat", je ne suis pas sûr que tu trouveras beaucoup de volontaires. François 31 janvier 2006 à 22:00 (UTC)

euh, j'ai dit ça ? Marc 31 janvier 2006 à 18:16 (UTC)

« une bonne numérisation permet en effet une relecture simple et relativement rapide. » que tu as mis dans le paragraphe Définition du projet. Ma remarque est juste pour dire que ce temps de relecture n'est pas pour moi relativement rapide - mais peut-être suis-je lent de nature - Je fais cette remarque pour que cette phase ne soit pas baclée par les contributeurs. François 31 janvier 2006 à 18:25 (UTC)
La remarque visait la qualité de la numérisation, et n'était sans doute pas bien exprimée : si la numérisation n'est pas bonne, il faut beaucoup de temps pour réécrire soi-même des passages ; si elle est bonne, la correction est relativement plus rapide, elle est aussi moins pénible. Mais peut-être as-tu des critiques à faire sur ce projet ? Si tu penses que ce n'est pas une bonne idée, je préfère que tu me le dises, car j'ai lancé cela comme cela, mais sans certitude. C'était peut-être une mauvaise idée, en fin de compte. Marc 31 janvier 2006 à 18:33 (UTC)
Non, non, c'est une très bonne idée. Il faut simplement que celui qui vérifie / corrige / présente le texte ait à sa disposition la version image qui a été scannée, pour qu'il puisse vérifier, paragraphe par paragraphe et parfois mot à mot, les erreurs de scan éventuelles et la présentation. Afin que ce travail ne soit pas baclé.
Par exemple, le scan n'arrive quasiment pas à prendre les textes en grec ou autre caractères particuliers car l'OCR est programmé "pour une langue donnée"
De même, les textes en italique - et en gras - doivent être mis de la sorte avec la syntaxe wiki, ce qui nécessite d'avoir l'édition "source du scan" en même temps que l'édition "wikisource".
J'ai vu par exemple sur Notre-Dame de Paris que des parties de texte avaient été modifiées par l'auteur selon les ré-éditions.
Souvent les notes de bas de page, écrites "en petits caractères", sont à ré-écrire entièrement.
Tout cela pour dire que cette étape n'est pas si simple que cela, il y a parfois des difficultés imprévues, et du coup n'est pas si rapide que cela car il faut quasiment lire complétement les textes scannés. Quand il s'agit des oeuvres complètes de Victor Hugo, on en a pour une vie entière …
Sinon, je suis tout à fait d'accord avec toi pour dire que la qualité de numérisation est primordiale pour que l'étape de vérification ne soit pas lente, mais pour moi elle restera quand même "pas rapide" et il faut bien mesurer ces propos, pour que le contributeur ne fasse pas cette étape rapidement. Voilà la raison profonde de ma remarque. François 31 janvier 2006 à 19:08 (UTC)
Oui, en fait, le travail de relecture reste le même. Il faut se consacrer à la qualité de la numérisation, dont le but est de livrer un texte brut, mais aussi bon qu'il est possible ; par exemple, il doit être possible de faire le formatage wiki des textes en gras, en italique, automatiquement à partir d'un traitement de textes. C'est possible, mais je n'ai jamais réussi à faire marcher le truc. Pour le moment, donc, je teste ; cela conduira à faire une liste de ce qu'une bonne numérisation peut atteindre à l'aide des moyens dont nous disposons. Ensuite, l'édition en elle-même ne peut que suivre toujours le même cours, mais ce cours sera grandement simplifié si auparavarant nous définissons une bonne procédure de numérisation. J'en ai fait l'expérience avec les oeuvres de Nietzsche : je me suis donné de la peine pendant des jours sur certains textes avec un logiciel assez médiocre, temps perdu puisqu'avec un logiciel performant, le résultat est incomparable. Marc 31 janvier 2006 à 19:39 (UTC)


Ici : Wikisource:Œuvres complètes de Victor Hugo. Philosophie. I, 1819-1834, littérature et philosophie mêlées, un premier résultat. Ce sont les images Gallica, à partir de la collection Bouquins. Pensez-vous que ce soit satisfaisant ? Si non, pourquoi ? Si oui, j'envisage de reconnaître toutes les images de bonne qualité de Gallica, et de scanner de même des livres (dans la collection Bouquins, donc le résultat sera sensiblement le même que ci-dessus). Merci de me dire s'il y a des points qui ne vont pas, car il faut être sûr que cela en vaille vraiment la peine avant de commencer. Marc 31 janvier 2006 à 21:39 (UTC)

Ça me semble plutôt bien. Faire quand même attention à ne pas faire un travail pour rien. Une partie des œuvres de V.H. existent déjà au format texte, sur Gallica ou ailleurs sur le Net. Yann 31 janvier 2006 à 21:48 (UTC)
Il me semble préférable, dans un premier temps, de ne scanner que ce que les gens ont demandé, sinon, comme dit Yann, tu risques de faire un travail "pour rien". Il faudrait peut-être attendre l'expérience du premier livre (celui de Victor Hugo) ? François 31 janvier 2006 à 22:00 (UTC)
En tout cas, le résultat est quasi parfait pour les œuvres de Diderot. Marc 31 janvier 2006 à 22:03 (UTC)

Légalité ?[modifier]

Je ne pense pas qu'il soit légal de scanner une édition récente genre Bouquins (moins de 50 ans ?), même si le texte est du domaine public. D'ailleurs les gens de ABU et de Gutenberg partent de vieilles éditions.

Bonsoir,

Si le texte lui-même est dans le domaine public, la source est indifférente, tant que l'on ne copie pas la mise en forme. Or, en scannant une édition récente, et en faisant l'OCR, on obtient un texte libre de droit qui n'a pas de forme spéciale, et qui sera en outre édité sur Wikisource dans des formes spécifiques et nouvelles. Marc 21 avril 2006 à 22:37 (UTC)

Je soutiens ce que dit Marc. Ne pas croire tout ce qui ce dit concernant les droits d'auteur, il y a beaucoup d'informations fausses. Par exemple, beaucoup de livres mentionnent un (c) sur un texte dans le domaine public. Yann 22 avril 2006 à 09:16 (UTC)

Pour donner un contre-exemple (par rapport à ABU et à Gutenberg) : Le site Classiques des sciences sociales utilise parfois les collections Bouquins et Bibliothèque de la Pléiade. Marc 26 avril 2006 à 12:57 (UTC)

Bonjour,

"... Si le texte lui-même est dans le domaine public, la source est indifférente, tant que l'on ne copie pas la mise en forme..." : Je ne suis pas d'accord les oeuvres publiées dans la Pléiade, par exemple, ont fait l'objet d'un travail éditorial : comparaisons entre différentes éditions, retour aux manuscrits,... qui permet l'établissement d'un texte plus conforme, moderne,... Utiliser ces éditions en ne considérant que le statut domaine public de l'oeuvre et de l'auteur, c'est ne pas prendre en compte le travail de "création" de l'éditeur scientifique pour l'édition considérée et qui est couvert, me semble-t-il, par le Code de la propriété intellectuelle. --Bogros 19 février 2007 à 10:22 (UTC)

Bogros, je suis certes de ton avis. J'ajouterai que ton travail, à toi, doit aussi être reconnu — un travail dont tu as été le pionnier et l'exemple ! --Zephyrus 19 février 2007 à 12:31 (UTC)
Il y a effectivement peut-être des cas où ce travail d'édition donne droit à un « droit d'auteur », mais je ne pense pas que ce soit systématique, et cela doit être évalué au cas par cas. Je pense que c'est le cas pour des textes anciens ou dont l'édition d'origine est incertaine (Montaigne, par exemple). Il faudrait vérifier s'il existe une jurisprudence là-dessus. Yann 19 février 2007 à 15:12 (UTC)