Aide:OCR

Nous vous recommandons de lire auparavant Aide:Espace « Page », Aide:Transcription

Cette page d'aide explique ce qu'est un OCR et comment l'utiliser

En résumé :
OCR (optical character recognition) est une technologie d'aide à la transcription de texte. C'est un outil automatique de reconnaissance de caractère.
Pour l'utiliser il faut cliquer sur « Transcrire le texte » lors de l'édition d'une page dans l'espace « Page ».

La reconnaissance optique des caractères (ou « OCR » en anglais pour optical character recognition) est une technologie d'aide à la transcription de texte. C'est un outil automatique de reconnaissance de caractère.

Pour rappel, la transcription : c'est la transformation d'un texte sous forme d'image à un texte sous forme informatique.

Cas simple

Niveau débutant

Utilisation pour un texte en entier

La façon la plus simple d'utiliser l'OCR pour transcrire est d'utiliser le bouton « Transcrire le texte » situé en haut à gauche dans la barre d'outil.

Barre d'outil avec le bouton « Transcrire le texte »

Cela transcrit le texte dans le cadre « Contenu » de l'espace page en mode édition.

Utilisation pour une partie de texte ou pour une langue étrangère

À droite du bouton « Transcrire le texte » il est possible d'afficher les « Options avancées » pour choisir une zone à sélectionner, des langues à reconnaître etc.

Pour sélectionner une partie de l'image à transcrire avec l'outil il faut cliquer sur « », puis cliquer sur « Transcrire la zone ». Pour rajouter une langue à détecter (par exemple sur un texte en français avec du chinois) il faut ajouter une langue au cadre.

Cas complexes

Niveau expert

Ajout d'une couche d'OCR via outils

Pour ajouter une couche d'OCR sur un ouvrage il faut utiliser des outils externes spécialisés.

Ses outils peuvent être payants ou gratuit, en ligne ou en local.

Il y a une grande différence de qualité entre ces logiciels, et cette différence aura des conséquences importantes sur la facilité d’utilisation, la qualité du résultat produit et le temps à passer.

Outils

ABBYY. Il existe différents outils, mais le plus efficace mais payant (100-200€) est ABBYY (anciennement FineReader), il permet notamment de prendre en compte un fichier image complet (et non page par page comme certains) et restitue correctement la présentation et le contenu lui-même, tout en étant rapide. À noter que, sous Linux, certaines versions de FineReader peuvent être installées avec Wine.

http://www.free-ocr.com, Il est possible d’utiliser le site gratuit http://www.free-ocr.com, mais il n’accepte qu’une page à la fois.

Voir aussi

mw:Help:Extension:Wikisource/Wikimedia OCR
w:fr:Reconnaissance optique de caractères, l'article sur Wikipédia
http://doc.ubuntu-fr.org/ocr la liste sur la documentation Ubuntu (pour Linux et Windows).