Aide:Comment numériser

La bibliothèque libre.
Aller à : Navigation, rechercher

Vous êtes ici : accueil >Aide >Comment numériser



Aide : Manuel de Wikisource

Sommaire

[modifier] Photographie (scan) de textes

Cette photographie s’effectue à l’aide d’un outil spécialisé appelé « scanner ».

Les photographies effectuées sont alors stockées sous forme d’images (JPEG, ...) ou regroupées dans des « fichiers images » de type PDF ou TIFF. De la qualité de la photographie dépendra de la plus ou moins grande réussite de l’étape suivante qu’est la reconnaissance optique. Il est donc conseillé d’effectuer des images avec une résolution de 300 dpi (dpi = dots per inch, en français « points par pouce »). Une résolution inférieure (par exemple 200 dpi) peut également fonctionner si la source est en bon état et qu’il y a un bon contraste entre la couleur du papier et celle des caractères. Une résolution supérieure peut être utile dans le cas contraire, sachant que plus la résolution est élevée, plus le temps de scanning sera long et plus gros sera le fichier généré.

Les scanners individuels sont en général vendus avec un logiciel de paramétrage, permettant de régler plus ou moins finement cette étape photographique.

Note : étant donné la résolution des appareils photo numériques actuels, il n’est pas nécessaire de disposer d’un scanner pour numériser un texte.

[modifier] Téléchargement à partir du site Gallica

Il existe des sites spécialisés qui fournissent déjà des fichiers images de textes. Le plus connu est Gallica, bibliothèque numérique de la Bibliothèque Nationale de France.

Par défaut, Gallica offre l’accès à l’œuvre page par page. Pour obtenir l’œuvre complète, il faut, lorsqu’une des pages est affichée, cliquer sur l’avant-dernière icône verte « Télécharger et reproduire » et cocher les cases suivantes :

  • choisir le format du fichier (PDF)
  • choisir de télécharger le document entier
  • accepter les conditions de réutilisations

En cas de problèmes pour récupérer des gros fichiers, il est préférable d’utiliser le protocole de communication FTP, voir la page d’aide.

[modifier] Éditer les textes avec les images

Pour assurer la qualité des textes édités sur Wikisource, il est très important de disposer d’une source (édition papier ou images de cette édition). Pour les images, il est possible de les charger sur Wikisource et de les placer à côté du texte pour en faciliter la relecture.

Pour plus de détail sur ce genre d’édition, voir Aide:Affichage par pages.

[modifier] Reconnaissance optique des caractères (OCR)

En anglais OCR, cette étape « transforme » une image d’un texte en un texte lui-même, composé de caractères. Elle est réalisée par des logiciels spécialisés.

Certains de ces logiciels sont vendus avec le « scanner », d’autres sont récupérables en ligne, et peuvent être gratuits ou payants.

Il y a une grande différence de qualité entre ces logiciels, et cette différence aura des conséquences importantes sur la facilité d’utilisation, la qualité du résultat produit et donc le temps que vous passerez lors de cette étape. Voir la liste sur Wikipédia. Ou la liste sur la documentation ubuntu ( pour linux et windows ).

Celui qui possède la meilleure réputation parmi les habitués de la numérisation est FineReader, payant mais gratuit à l’essai pendant 15 jours. Il permet notamment de prendre en compte un fichier image complet (et non page par page comme certains) et restitue correctement la présentation et le contenu lui-même, tout en étant rapide. À noter que, sous Linux, certaines versions de FineReader peuvent être installées avec Wine.

Il est possible d’utiliser le site gratuit http://www.free-ocr.com mais il n’accepte qu’une page à la fois.

[modifier] Correction

L’étape de reconnaissance optique des caractères ne permet que très rarement d’obtenir un résultat parfait. La plupart du temps, le logiciel ne reconnaîtra pas quelques lettres ou mots, ou les considèrera comme un autre mot ou une autre lettre.

Les erreurs les plus courantes sont :

  • entre le u et le n,
  • entre le a et le o,
  • entre le l (parfois L) et le 1,
  • entre le m et le n combiné avec une autre lettre,
  • entre le ! et le l,
  • sur la ponctuation (ajout, confusion ou absence de points, virgules, points-virgules, deux-points, ...)
  • sur l’accentuation des mots (confusion entre les accents aigus, graves, circonflexes et le tréma ; absence de ces accents)
  • etc

Il est donc impératif de relire le plus soigneusement possible les textes ainsi numérisés, ou d’indiquer dans la page de discussion une note sur la réalisation ou non de cette étape de relecture.


Voir Wikisource:Chasse aux coquilles pour les coquilles les plus fréquentes.


Processus de validation
Protection des livres : 1. Numérisation (en cours)| 2. À relire | 3. À valider (notation qualité)| 4. À protéger | 5. Protégés

Livres en mode page : À formater - Trouver un scan - Trouver une source texte
Comment numériser ?

Outils personnels
Espaces de noms
Variantes
Actions
Lire
Contribuer
Imprimer / exporter
Boîte à outils