Discussion utilisateur:Denis Gagne52/Tesseract — Djvu

Bonjour ElioPrrl :, si cela peut t’intéresser, voici où j’en suis rendu dans l’exploitation de Tesseract au moyen de scripts. Pour atteindre un résultat incluant le référencement par mot, il m’a fallu passer par un fichier pdf sans image (textonly), le convertir en djvu pour finalement, au moyen de djvused, recopier l’OCR djvu dans le fichier contenant les images. La solution optimale consisterait à n’utiliser que Tesseract et djvused mais le format produit par Tesseract ne le permet pas directement. Je t’en informe si jamais tu voulais pousser plus loin car, de mon côté, je m’arrêterai là. --Denis Gagne52 (d) ^{Le miraculé du 9^e} 28 septembre 2021 à 23:54 (UTC)Répondre

Développement de dernière minute. Aussitôt qu’on touche au pdf, il faut préciser un dpi. Le script vbs ne servait qu’à déterminer le dpi des images produites par ScanTaylor. Dans le cas présent et après vérification, l’important n’est pas de connaître le dpi réel des images mais plutôt d’utiliser le même partout. Je peux donc éliminer le script vbs et n’utiliser que le fichier de commande ce qui donne un code vraiment compact et plus robuste. --Denis Gagne52 (d) ^{Le miraculé du 9^e} 29 septembre 2021 à 00:29 (UTC)Répondre

Merci Denis Gagne52 ! J’ai essayé un peu de modifier le format de sortie Tesseract pour le transformer en quelque chose d’acceptable par DjVu sans perdre les coordonnées de chaque mot, mais comme je n’y arrivais pas, et qu’en pratique je ne regarde pas le surlignement en rouge, je n’ai pas poussé plus loin. J’ai de moins en moins de temps en ce moment pour Wikisource, encore moins pour la programmation que je connais trop mal, donc je ne garantis pas que je vais tirer profit de ton code avant longtemps, mais merci de m’avoir prévenu !

— ElioPrrl (d) 29 septembre 2021 à 07:48 (UTC)Répondre