Aller au contenu

Aide:OCR

La bibliothèque libre.
Nous vous recommandons de lire auparavant Aide:Espace « Page », Aide:Transcription
Cette page d'aide explique ce qu'est un OCR et comment l'utiliser
En résumé En résumé :
OCR (optical character recognition) est une technologie d'aide à la transcription de texte. C'est un outil automatique de reconnaissance de caractère.
Pour l'utiliser il faut cliquer sur « Transcrire le texte » lors de l'édition d'une page dans l'espace « Page ».

La reconnaissance optique des caractères (ou « OCR » en anglais pour optical character recognition) est une technologie d'aide à la transcription de texte. C'est un outil automatique de reconnaissance de caractère.

Pour rappel, la transcription : c'est la transformation d'un texte sous forme d'image à un texte sous forme informatique.

Cas simple

[modifier]
Niveau débutant

Utilisation pour un texte en entier

[modifier]

La façon la plus simple d'utiliser l'OCR pour transcrire est d'utiliser le bouton « Transcrire le texte » situé en haut à gauche dans la barre d'outil.

Barre d'outil avec le bouton « Transcrire le texte »

Cela transcrit le texte dans le cadre « Contenu » de l'espace page en mode édition.

Utilisation du bouton « Transcrire le texte » et résultat à gauche

Utilisation pour une partie de texte ou pour une langue étrangère

[modifier]

À droite du bouton « Transcrire le texte » il est possible d'afficher les « Options avancées » pour choisir une zone à sélectionner, des langues à reconnaître etc.

Emplacement des Options avancées de l'outil d'OCR intégré à Wikisource.

Pour sélectionner une partie de l'image à transcrire avec l'outil il faut cliquer sur «  », puis cliquer sur « Transcrire la zone ». Pour rajouter une langue à détecter (par exemple sur un texte en français avec du chinois) il faut ajouter une langue au cadre.

Outil externe WM OCR permettant de transcrire une zone et faire reconnaître des langues supplémentaire

Cas complexes

[modifier]
Niveau expert

Ajout d'une couche d'OCR via outils

[modifier]

Pour ajouter une couche d'OCR sur un ouvrage il faut utiliser des outils externes spécialisés.

Ses outils peuvent être payants ou gratuit, en ligne ou en local.

Il y a une grande différence de qualité entre ces logiciels, et cette différence aura des conséquences importantes sur la facilité d’utilisation, la qualité du résultat produit et le temps à passer.

Outils

[modifier]
  • ABBYY. Il existe différents outils, mais le plus efficace mais payant (100-200€) est ABBYY (anciennement FineReader), il permet notamment de prendre en compte un fichier image complet (et non page par page comme certains) et restitue correctement la présentation et le contenu lui-même, tout en étant rapide. À noter que, sous Linux, certaines versions de FineReader peuvent être installées avec Wine.

Voir aussi

[modifier]