Aide:Comment numériser

La bibliothèque libre.

Crystal Clear device scanner.png
La numérisation d’un texte s’effectue en trois phases distinctes :
  1. photographie (scan) de chaque page,
  2. reconnaissance optique de la photographie de la page,
  3. la correction des erreurs de numérisation.



Nuvola apps khelpcenter.pngAIDENuvola apps khelpcenter.png

Qu'est-ce que Wikisource ?


Aide générale - Débuter


Aide : lecteur - éditeur


Typographie


Copyright - Ressources


Numériser - Espace page:


Validation - Qualité des textes


Des questions ?

Sommaire

[modifier] Photographie (scan) de textes

Cette photographie s’effectue à l’aide d’un outil spécialisé appelé "scanner".

Les photographies effectuées sont alors stockées sous forme d’images (JPEG, ...) ou regroupées dans des "fichiers images" de type PDF ou TIFF. De la qualité de la photographie dépendra de la plus ou moins grande réussite de l’étape suivante qu’est la reconnaissance optique. Il est donc conseillé d’effectuer des images avec une résolution de 300 dpi (dpi = ‘‘dots per inch’’, en français ‘‘points par pouce’’). Une résolution inférieure (par exemple 200 dpi) peut également fonctionner si la source est en bon état et qu’il y a un bon contraste entre la couleur du papier et celle des caractères. Une résolution supérieure peut être utile dans le cas contraire, sachant que plus la résolution est élevée, plus le temps de "scanning" sera long et plus gros sera le fichier généré.

Les scanners individuels sont en général vendus avec un logiciel de paramétrage, permettant de régler plus ou moins finement cette étape photographique.

Note: étant donné la résolution des appareils photo numériques actuels, il n'est pas nécessaire de disposer d'un scanner pour numériser un texte.

[modifier] Téléchargement à partir du site Gallica

Il existe des sites spécialisés qui fournissent déjà des fichiers images de textes. Le plus connu est Gallica, bibliothèque numérique de la Bibliothèque Nationale de France.

Par défaut, Gallica offre l’accès à l’œuvre page par page. Pour obtenir l’œuvre complète — ou un extrait de plusieurs pages —, il faut, lorsqu’une des pages est affichée, demander un "Téléchargement" en indiquant le format du fichier (PDF ou TIFF) et le nombre de pages. Le fichier généré sera sauvegardé pendant 48 heures sur les serveurs de Gallica.

La récupération du fichier (souvent de plusieurs Mo) n’est pas toujours simple. En effet, le lien proposé par Gallica (Vous pouvez le télécharger en cliquant ici. Utiliser le clic droit et "Enregistrer le lien sous…" pour Netscape ou "Enregistrer la cible sous…" pour Internet Explorer) utilise le protocole de communication HTTP, peu fiable pour de gros fichiers. Il vaut mieux utiliser le protocole de communication FTP.

[modifier] Utilisation du FTP

Pour utiliser FTP, il existe deux manières :

  1. votre navigateur internet,
  2. un logiciel spécialisé.

Préalablement, notez les références données par Gallica lorsque le fichier demandé a été généré (bas de la page). Vous aurez quelque chose comme chemin du fichier = ftp://ftp.bnf.fr/002/N0022607_PDF_1_484.pdf. Ici, le fichier que nous recherchons est N0022607_PDF_1_484.pdf présent dans le répertoire 002.

L’utilisation du navigateur implique que celui-ci soit assez récent. Vous pouvez alors taper l’adresse ftp.bnf.fr (ou ftp://ftp.bnf.fr) qui vous affichera alors la page "répertoire" de Gallica. Cette page répertoire donne une liste de sous-répertoires notés "nnn". Dans notre cas, le sous-répertoire est 002. En cliquant sur ce répertoire, vous verrez apparaître une liste des fichiers, dont le vôtre. Utilisez "rechercher dans la page" (avec, dans notre cas, 22607) pour retrouver plus facilement votre fichier. Vous pouvez alors le télécharger en cliquant avec le bouton droit de la souris, puis "Enregistrer le lien sous…".

Il existe également des logiciels de transfert FTP spécialisés, autorisant des transferts avec reprise en cas d’interruption. Parmi les gratuits, il y a notamment :

Le transfert de fichier avec reprise s’effectue en créant une file (queue) avec les fichiers demandés, puis en lançant la demande de chargement. Votre configuration locale, et notamment le pare-feu, ou la configuration de votre fournisseur d’accès internet peuvent gêner voire empêcher le fonctionnement de ces logiciels, et des opérations de paramétrage complexes du système d’exploitation, du pare-feu et/ou de ces logiciels peuvent être nécessaires.

[modifier] Éditer les textes avec les images

Pour assurer la qualité des textes édités sur Wikisource, il est très important de disposer d'une source (édition papier ou images de cette édition). Pour les images, il est possible de les charger sur Wikisource et de les placer à côté du texte pour en faciliter la relecture.

Pour plus de détail sur ce genre d'édition, voir Aide:Affichage par pages.

[modifier] Reconnaissance optique des caractères (OCR)

En anglais OCR, cette étape "transforme" une image d’un texte en un texte lui-même, composé de caractères. Elle est réalisée par des logiciels spécialisés.

Certains de ces logiciels sont vendus avec le "scanner", d’autres sont récupérables en ligne, et peuvent être gratuits ou payants.

Il y a une grande différence de qualité entre ces logiciels, et cette différence aura des conséquences importantes sur la facilité d’utilisation, la qualité du résultat produit et donc le temps que vous passerez lors de cette étape. Voir la liste sur Wikipédia.

Celui qui possède la meilleure réputation parmi les habitués de la numérisation est FineReader, payant mais gratuit à l’essai pendant 15 jours. Il permet notamment de prendre en compte un fichier image complet (et non page par page comme certains) et restitue correctement la présentation et le contenu lui-même, tout en étant rapide.

Il est possible d'utiliser le site gratuit http://www.free-ocr.com mais il n'accepte qu'une page à la fois.

[modifier] Correction

L’étape de reconnaissance optique des caractères ne permet que très rarement d’obtenir un résultat parfait. La plupart du temps, le logiciel ne reconnaîtra pas quelques lettres ou mots, ou les considèrera comme un autre mot ou une autre lettre.

Les erreurs les plus courantes sont :

  • entre le u et le n,
  • entre le a et le o,
  • entre le l (parfois L) et le 1,
  • entre le m et le n combiné avec une autre lettre,
  • entre le ! et le l,
  • sur la ponctuation (ajout, confusion ou absence de points, virgules, points-virgules, deux-points, ...)
  • sur l’accentuation des mots (confusion entre les accents aigus, graves, circonflexes et le tréma ; absence de ces accents)
  • etc

Il est donc impératif de relire le plus soigneusement possible les textes ainsi numérisés, ou d’indiquer dans la page de discussion une note sur la réalisation ou non de cette étape de relecture.


Voir Wikisource:Chasse aux coquilles pour les coquilles les plus fréquentes.


Processus de validation
Validation des textes : 1. Numérisation (en cours)| 2. À relire | 3. À valider (notation qualité)| 4. À protéger | 5. Validés

Livres en mode page : Terminés - À valider - À relire
Comment numériser ?