Sujet sur Discussion utilisateur:Ernest-Mtl

Ajouter une couche d'OCR à un DJVU ou à un PDF

19 commentaires • 22 octobre 2020 à 13:19 il y a 3 ans

19

Bonjour,

J'ai entendu que vous étiez assez habile avec la technique sur Wikisource, et du coup je me tourne vers vous pour avoir de vos astuces :D

J'aimerais savoir avec quels outils et comment vous faites pour ajouter une couche d'OCR à un fichier .djvu ou .pdf (avec quelle logiciel ou site web, d'où prenez vous l'OCR, et si vous avec de l'OCR en .txt comment faites vous pour l'associer au .pdf ou au .djvu ?)

En vous remerciant :)

Bonne journée.

Répondre 20 septembre 2020 à 15:28 il y a 3 ans

Ernest-Mtl (discussioncontributions)

Bonjour...

Depuis 2014 que je contribue ici, j'ai toujours utilisé ABBYY (qui n'est malheureusement pas gratuit) pour préparer des DJVU et PDF (depuis 1 an, je ne fais que des PDF car la version des DJVU créés par ABBYY est dépassée le standard DJVU utilisé sur le projets wiki). Une fois le fichier recréé avec la couche texte par OCR, il ne suffit plus que de remplacer le fichier sans OCR.

Cependant, si vous avez l'OCR en format txt, il est possible d'apparier le texte avec le facsimilé par le petit robot M&S (Match & Split). Dans ce cas-ci, il s'agît de donner les indicateurs de pages dans le fichier txt en mode menu (ex: <noiwiki>==Page:titre.djvu/32==</nowiki> et ainsi de suite pour toutes les pages), importer le fichier txt sur WS, ce qui ouvrira un onglet additionnel Split que l'on peut cliquer pour envoyer l'OCR directement dans des pages roses sur le DJVU ou le PDF. Pour un livre de moins de 100 pages, ça passe encore, mais pour un livre de 200, 300, 400 voire 500 pages, ça devient tout un travail de moine... ;)

N'hésite pas si tu as des questions.

Répondre 20 septembre 2020 à 20:51 il y a 3 ans

Koreller (discussioncontributions)

Merci pour ta réponse, effectivement j'ai des questions :D

Du coup, tu as acheté la version « ABBYY FineReader PDF 15 » version « Standard » à 199€ (tout en bas de ce lien) ?

L'OCR de ABBYY est « maison » ou il utilise l'OCR de Google derrière (ou d'un autre) ? Est-ce que l'OCR de ABBYY est bon ? Est-il mieux que celui de Google ?

Je n'ai pas bien saisi ta phrase « car la version des DJVU créés par ABBYY est dépassée le standard DJVU utilisé sur le projets wiki » : c'est le standard DJVU qui est dépassé ? ou la gestion par ABBYY du format DJVU qui est dépassée ?

Est-ce que vous utilisez des boutons OCR directement sur Wikisource ? (si oui lesquels ?) Que pense-tu de l'OCR de base sur Wikisource ? et de l'OCR Tesseract ? et de l'OCR Google ? (en connais-tu d'autres ?)

Est-ce que vous savez à quoi servent sur Internet Archive tous les fichiers qu'ils proposent au téléchargement (par exemple sur en cliquant sur « SHOW ALL » cela renvoi tout une série de fichier téléchargeable : lesquels sont utiles ?)

Merci :D

Répondre Modifié 21 septembre 2020 à 17:05 il y a 3 ans

Ernest-Mtl (discussioncontributions)

J'ai encore la version 14... Je saute une sur 2... Quand ils vont sortir la 16, je vais me mettre à jour...

L'OCR de ABBYY est "built-in", il n'utilise pas l'OCR d'un autre moteur. Ce qui le rend particulièrement efficace car ABBYY a fait sa renommée grâce à son OCR. Son autre avantage, c'est qu'on peut lui apprendre à se dépasser... très utile notamment lorsque je fais des OCR de très vieux textes avec le s long et les ligatures ss, ct, ft, st, etc...

Le standard DJVU que prépare ABBYY est plus avancé que le standard DJVU utlisé ici. Alors ça provoque des décalage d'OCR ici. Je sauvegarde donc en PDF maintenant vu que WS fonctionne aussi bien en PDF que DJVU. Un jour la Fondation mettra peut-être le standard du DJVU à jour et je pourrai recommencer à faire des DJVU.

Pour le bouton OCR sur wikisource, il ne fonctionne pas ici... Peut-être mon système, ou mon fureteur...

Sur IA, je choisis toujours le PDF et je le traite de mon côté. Ils offrent dans les anciens fichiers plusieurs options dont le DJVU qui a un OCR de fait mais leur OCR est un OCR généraliste "américain" donc il est très rare que les accents soient retranscrits.

Répondre 21 septembre 2020 à 17:17 il y a 3 ans

Koreller (discussioncontributions)

Et donc, du coup, vous n'utilisez que le bouton OCR de Wikisource sur wikisource (qui malheureusement ne fonctionne pu depuis quelques jours :/) ? Vous utilisez jamais le bouton OCR de Google sur wikisource ? (et du coup vous en avez pas d'autre je suppose ?)

Merci pour vos informations sur IA ! Et pour vos réponses ! (j'en retiens que ABBYY est incontournable pour vraiment maitriser les formats utilisés pour wikisource !)

Répondre 21 septembre 2020 à 18:00 il y a 3 ans

Ernest-Mtl (discussioncontributions)

Disons que ce n'est pas un "incontournable" mais j'aime bien l'efficacité... Et malheureusement, l'efficacité se paie... ;)

Répondre 21 septembre 2020 à 22:14 il y a 3 ans

Le ciel est par dessus le toit (discussioncontributions)

A qui pourrait-on demander une mise à jour pour l'utilisation sur les wikis

Répondre 21 septembre 2020 à 18:09 il y a 3 ans

Ernest-Mtl (discussioncontributions)

Aucune idée... Thomas peut-être? Si ce n'est pas lui, peut-être pourrait-il te guider dans la bonne direction.

Répondre Modifié 21 septembre 2020 à 22:15 il y a 3 ans

Le ciel est par dessus le toit (discussioncontributions)

C'est qui Thomas ?

Répondre 22 septembre 2020 à 07:34 il y a 3 ans

Ernest-Mtl (discussioncontributions)

Oopps... TPT...

Répondre 22 septembre 2020 à 14:04 il y a 3 ans

Le ciel est par dessus le toit (discussioncontributions)

@Tpt bonjour, pourris-tu te renseigner pour résoudre le problème exposé ci-dessus stp

Répondre 22 septembre 2020 à 14:51 il y a 3 ans

Tpt (discussioncontributions)

Désolé du lag. L'outil d'OCR était effectivement planté. Je l'ai redémarré il y a deux jours et je crois qu'il marche maintenant.

Répondre 25 septembre 2020 à 13:51 il y a 3 ans

Le ciel est par dessus le toit (discussioncontributions)

@Tpt et pour la mise à niveau des djvu sur les wikis ? voir plus haut

Répondre 25 septembre 2020 à 13:54 il y a 3 ans

Tpt (discussioncontributions)

Hum, la version du DjVu libre utilisé est probablement celle fournis avec le serveurs Wikimedia. C'est hors de mon contrôle. Pourrais-tu ouvrir une task Phabricator à ce sujet?

Répondre 27 septembre 2020 à 16:08 il y a 3 ans

Le ciel est par dessus le toit (discussioncontributions)

@Tpt ben non ! je ne sais même pas ce que c'est qu'une task Phabricator et je suppose qu'il faut parler anglais donc si tu pouvais le faire je t'en serai vivement reconnaissant. ;) et :)

Répondre 27 septembre 2020 à 16:16 il y a 3 ans

Tpt (discussioncontributions)

Après une recherche, la dernière version de DjVu date de 2005, je crois qu'on est à jour là dessus. Le problème que vous rencontrer ressemble beaucoup à celui ci ou encore celui là. MediaWiki ignore les pages invalides dans le DjVu, créant un décalage. Il faudrait que je m'y mette.

Répondre 27 septembre 2020 à 20:09 il y a 3 ans

Le ciel est par dessus le toit (discussioncontributions)

@Tpt je compte sur toi, même si ça presse pas trop mais ça limite le travail d'Ernest et par conséquent le mien ;) Merci

Répondre 28 septembre 2020 à 06:34 il y a 3 ans

Koreller (discussioncontributions)

Bonjour, j'ai une autre question, qu'est-ce qui vous fait choisir d'héberger un fichier sur commons.wikimedia.org ou sur fr.wikisource.org ?

(Je me suis posé la question pour ce fichier notamment Livre:Garine - Contes coréens, adaptés par Persky, 1925.pdf qui est sur fr.wikisource.org)

Répondre 22 octobre 2020 à 09:15 il y a 3 ans

Ernest-Mtl (discussioncontributions)

Commons n'accepte que des fichiers qui sont DP aux USA... Ici, sur WSFR, nous pouvons déposer des fichiers qui sont DP en Europe ou au Canada, mais pas aux États-Unis. Donc dans ce cas-ci, 1925, on doit attendre au 1er janvier 2021 pour le transférer sur commons car en ce moment, aux USA, on peut se rendre jusqu'en 1924.

Répondre 22 octobre 2020 à 13:19 il y a 3 ans

Répondre à « Ajouter une couche d'OCR à un DJVU ou à un PDF »