Utilisateur:SyB~Anicium/Tutoriel DjVu

Tutoriel DjVu

Scriptum sanum in Djvu sano. (Anonyme)

Avertissement compatibilité : ce tutoriel est valable en 2018, sur Windows 7. N’hésitez pas à l’adapter !

Navigation rapide : Introduction — Étape 1 — Étape 2 — Étape 3 — Étape 4 — Réparer un fichier DjVu

Introduction

Objectif : à partir d’un livre numérisé en PDF sans couche texte, réaliser un fac-similé présentant les critères de qualité suivants :

un format adapté à Wikisource (Djvu plutôt que PDF)
une taille raisonnable (idem)
une définition correcte voire supérieure
pas d’erreurs de pagination, pas de pages manquantes (1^re cause de fébrilité chez les correcteurs et les admins)
une couche de texte OCRisé, même imparfaitement

Ces 5 critères réunis assurent un fac-similé numérique de bonne qualité, qui sera « facile » à corriger, valider, exploiter et valoriser sur Wikisource. Cerise sur le gâteau : l’exemplaire que vous mettrez à disposition sur Wikimedia Commons sera le plus complet de tout le Web. Devinez pourquoi : il a été vérifié par un être humain !

Cette méthode passe par plusieurs étapes, dont certaines peuvent être simplifiées, automatisées, voire carrément omises en fonction du fichier d’origine et des objectifs que vous poursuivez. Je donne ici les différents niveaux de qualité atteignables, libre à chacun d’expérimenter, puis de piocher dans ces étapes, pour assouplir ce tutoriel qui ne se prétend pas synthétique.

Le temps de réalisation est cependant un facteur à prendre en compte : il ne serait pas raisonnable, bien sûr, de sacrifier plusieurs jours à préparer un seul livre, fût-ce un chef d’œuvre que tout Internet attend fébrilement.

Les outils dont nous aurons besoin :

un ordinateur assez costaud (évitez les mini portables ou les processeurs du millénaire précédent) : la vélocité de la bête est un critère important, car certaines tâches répétitives vont bien le solliciter.
quelques logiciels (gratuits) que j’indique au début de chaque étape : découpe de PDF, extraction des images, assemblage de scans, création de fichiers DjVu, OCR, etc. Notez bien que vous pouvez réaliser chacune de ces étapes avec d’autres logiciels équivalents.
de la motivation et de la curiosité, car la tâche est ingrate, répétitive et tout à fait bénévole !

Un exemple de livre que vous pouvez utiliser pour vous faire la main : Petit livre bon à consulter, ou Examen critique et impartial sur les chemins de grande communication, les routes départementales et les voies de petite vicinalité dans la Dordogne, par Jean-Pierre Trigant Gautier (1766-1844). Disponible sur Gallica, cet ouvrage passionnant, qui a eu le succès que l’on sait (…), a l’avantage de présenter des marges en trop et un nombre de pages restreint. Et il ne possède pas de couche texte ! Bref, le candidat idéal si vous voulez vous exercer.

Pour commencer, il faut le télécharger. Je vous recommande de le déplacer sur votre Bureau, dans un dossier de travail accessible. Il est judicieux de renommer ce fichier d’origine, par exemple [ORIGINE]Titre du livre.pdf. Ceci afin de ne pas le perdre/supprimer parmi les fichiers qui seront produits au cours des étapes suivantes.

modifier

Étape 1 — Premiers coups de ciseaux dans le PDF

Objectif de l’étape : retirer du PDF tout ce qui peut l’être sans nuire au texte, afin de l’alléger.

Attention : dans certains cas, il est judicieux de garder les pages blanches qui faisaient partie de la numérotation d’origine : cela facilitera grandement la numérotation automatique sur la page d’index du livre ! Soyez donc prudent dans vos choix de découpe. Dans le doute, vous pouvez même sauter cette étape.

Passé cet avertissement, sachez que l’on peut sans crainte retirer les pages qui nuiraient à la pagination sur Wikisource, puisqu’elles ont été ajoutées au document original : par exemple, les pages de garde ajoutées par l’institution qui a numérisé l’ouvrage^[1], éventuellement quelques pages blanches non numérotées, etc.

C’est dans cette étape que l’on se fait une première idée de l’organisation de l’ouvrage, et que l’on peut s’apercevoir qu’il manque des pages (fréquent !) ou que quelques pages ont été scannées plusieurs fois (encore plus fréquent !).

Préparation : cette étape est réalisable avec de très nombreux outils^[2], mais allons au plus simple : le navigateur Chrome. Et comme dit plus haut, vous pouvez aussi attendre l’étape 3, une fois que vous aurez découpé le PDF en images plus faciles à manipuler.

Réalisation avec Chrome :

Cliquez droit sur le fichier [ORIGINE]Titre du livre.pdf → Ouvrir avec… → Sélectionnez Chrome.
Le PDF s’ouvre dans le navigateur web (pratique !).
Cliquez sur le bouton d’impression en haut à droite. Dans la fenêtre qui s’ouvre, modifiez impérativement la destination, en cliquant sur le bouton « Modifier ». Là, vous allez voir la liste de vos périphériques d’impression, et vous sélectionnerez « Enregistrer au format PDF » dans les emplacements de destination locaux.
C’est là que l’option de découpe apparaît : en face de « Pages », cochez la case en-dessous de « Tous », qui permet de sélectionner une ou plusieurs pages de texte. Dans le cas présent, nous allons inscrire « 3-26 », ce qui omet les pages 1 et 2, qui sont des ajouts de Gallica. Mais vous pouvez aussi noter quelque chose comme « 4-21, 23-24, 26 » pour omettre les pages 1 à 3, 22 et 25, tout en conservant la dernière page (26). Chrome donne automatiquement un aperçu du fichier qui va être enregistré : vous pouvez vérifier que tout est OK.
Cliquez sur le bouton Enregistrer et donnez à ce nouveau fichier un nom différent du fichier d’origine, et suffisamment clair, par exemple « [Découpé]Titre du Livre.pdf »

Résultat d’étape : vous avez un tout petit peu allégé le fichier PDF, en ôtant des pages qui seraient apparues comme « ne devant pas être corrigées » sur Wikisource. S’il y avait beaucoup de pages superflues, vous avez en plus gagné du temps lors des prochaines étapes !

↑ D’une part, il s’agit (il me semble) d’une recommandation de Wikimedia Commons ; d’autre part, l’origine des images numérisées sera indiquée de façon claire dans le bandeau de licence sur Wikimedia Commons.
↑ Vous pouvez utiliser un logiciel dédié tel que PDF SAM (Split and Merge) : cette suite logicielle propose de nombreux outils pour bricoler des PDF : découpe, assemblages, fusion, etc. Une partie des fonctionnalités sont gratuites, voire toutes dans les versions anciennes. Un tutoriel complet est à découvrir à cette adresse.

modifier

Étape 2 — La mise en pièces du PDF : retour à l’image originelle

Objectif : repartir des scans individuels, car les logiciels des étapes suivantes travaillent à partir de fichiers image. Ces petits fichiers seront de toute façon plus souples à traiter qu’un seul fichier compilé et volumineux.

Préparation : Si vous utilisez Windows 7 : Téléchargez un logiciel qui porte le doux nom de TTRPDFtoJPG : Il est gratuit et disponible à cette adresse.

Important : ce logiciel ne dispose pas d’installeur ; vous devez extraire tout le dossier du fichier .zip à un emplacement accessible (comme le Bureau), puis exécuter le programme en cliquant sur l’icône « ttrpdftojpg3.jar »

Mise à jour 2022 : Si vous utilisez Windows 10, il existe une application gratuite qui rend le même service : Any PDF to JPG.

Réalisation dans TTRPDFtoJPG :

Menu Fichier → Ajouter des PDF → Sélectionnez le fichier téléchargé/travaillé précédemment.
Dans les options du volet de droite : si vous avez plusieurs gigaoctets disponibles, je recommande de choisir JPG avec une « magnification » de 10 ; pour la destination d’enregistrement, cocher « Enregistrer dans le même dossier » (ou créez au préalable un sous-dossier, c’est pratique)^[1].
« Convertir »

Résultat de l’étape : Vous disposez à présent d’autant de fichiers images (JPG) qu’il y avait de pages dans le PDF. Si ce n’est pas déjà fait, je recommande de ranger ces images dans un sous-dossier ad hoc : « [JPG-Découpé] – Titre du livre ».

Étape BONUS : si vous ne l’avez pas fait au cours de l’étape 1, c’est le moment de vérifier que toutes les pages sont là, dans le bon ordre, sans redondance ou page inutile. Cette démarche, loin de vous faire perdre du temps, vous en fera gagner par la suite : vous n'aurez pas besoin de modifier la pagination automatique dans le pagelist de la page d’Index, ou d’ajouter laborieusement des pages au DjVu final dans lequel vous aurez repéré des pages manquantes. Récupérez ces pages cruciales par tous les moyens sur d’autres exemplaires numérisés (HathiTrust, Google, Gallica), en scannant l’ouvrage en question que vous aurez été chercher dans les ruines de l’Atlantide ou à la bibliothèque du quartier, etc. Il suffira ensuite d’intercaler l’image en lui donnant un nom correct. Par exemple, s’il manquait une page entre les images 00189.jpg et 00190.jpg, appelez-là 00189BIS.jpg, copiez-la parmi les autres et le tour est joué, elle prendra la place souhaitée. Et croyez-moi, c’est infiniment plus simple à ce stade qu’une fois le bouquin téléversé et l’erreur constatée

.

↑ Vous pouvez aussi opter pour le TIF dans le menu déroulant, mais cela réserve des surprises : ce logiciel m’a parfois ressorti des TIF (en théorie sans perte) complètement saccagés… Je reste souvent sur du JPG, par prudence. En revanche, sur des scans Google venant de HathiTrust, un JPG haute qualité gardait trop d’informations cachées et provoquait un crash de mon logiciel d’OCR… Les formats sont des mondes mystérieux…

modifier

Étape 3 — ScanTailor : du sur-mesure pour tous les goûts

Objectifs : d’une part, optimiser l’affichage ultérieur du fac-similé dans le mode Édition d’une page sur Wikisource ; d’autre part, alléger encore un peu le fichier final ; enfin, rétablir certaines images, en particulier lorsqu’elles sont penchées.

Préparation : téléchargez et installez le logiciel ScanTailor (disponible ici).

Réalisation :

Lancement : Au lancement de ScanTailor, vous devez créer un « nouveau projet », et le logiciel vous demande alors de choisir un « répertoire d’entrée » : indiquez-lui celui où sont stockés vos fichiers JPG ou TIFF de l’étape précédente ; ceci fait, le logiciel ajoute automatiquement un répertoire de sortie intitulé « out », à l’intérieur du répertoire que vous avez sélectionné. Le logiciel ajoute également la liste des fichiers faisant partie du projet. Cliquez sur OK.
Puis une fenêtre s’affiche, qui vous demande de fixer les DPI. Dans l’onglet « Need fixing », sélectionnez « All pages », puis dans le menu déroulant « Personnaliser », choisissez 600x600. Cliquez sur Appliquer, puis OK.

ScanTailor va procéder en 6 étapes au cours desquelles vous avez le contrôle sur à peu près tout. À chacune de ces étapes, vous choisirez les options souhaitées, puis vous indiquerez la cible ( « Appliquer à… » → Toutes les pages, Cette page seulement, etc.), enfin vous les validez en cliquant sur le triangle gris de l’étape. Sans cela, les modifications ne sont pas appliquées.

(facultatif) Fixer l’orientation : vous pouvez faire tourner certaines pages lorsque c’est nécessaire.
(facultatif) Scinder les pages : utile seulement si le livre a été scanné à plat 2 pages par 2 pages.
(facultatif) Redresser : cela peut nous intéresser, par exemple pour le Petit Livre qui présente des scans penchés tantôt dans un sens tantôt dans l’autre. Pour éviter d’avoir à le faire page par page, réglez le redressement sur une page « moyenne ». Puis sélectionnez une page sur 2 : pour ce faire, cliquez sur les miniatures à droite tout en maintenant enfoncée CTRL. Ensuite, cliquez sur « Appliquez à… » et choisissez « Toutes les pages sélectionnées ». Abracadabra, vous pouvez procéder de la même manière pour toutes les pages laissées de côté, que vous redresserez différemment (je parie qu’il y en a une sur deux). Parfois le réglage auto du logiciel est excellent, parfois non, cela dépend de la courbure des pages scannées… je vous laisse expérimenter. Une fois chaque image redressée manuellement ou automatiquement, ou par lot, cliquez sur le triangle gris de l’étape pour valider.
Sélectionner le contenu : (un autre tour de magie) très souvent vous n’avez rien à faire car ScanTailor repère les zones de texte qui serviront à l’étape suivante. Néanmoins, le logiciel peut se planter et ne pas voir les textes en marge : surveillez-le, page par page s’il le faut.
Définir les marges : en déplaçant les bordures, vous parviendrez à ajouter une petite marge autour du contenu — il ne s’agit pas de coller les paragraphes à la bordure de l’image, cela risque de gêner la lecture. Mais vous pouvez souvent supprimer des zones autour du contenu^[1] : seul le contenu intégré aux cadres continus sera conservé. Ce qui est entre le cadre continu et le cadre extérieur en pointillé sera découpé ! Cette mesure est appliquée à toutes les pages.
Sortie : cette dernière étape permet de fixer les DPI de sortie (600 pour garder le maximum de qualité, 300 pour le minimum), à vous de choisir et de l’appliquer à toutes les pages. Ensuite vous devez indiquer quel profil sera appliqué au contenu : couleur/niveaux de gris, mixte ou noir et blanc. Attention, même si le noir et blanc réduit considérablement la taille des fichiers de sortie, il réduit aussi la qualité des pages et les possibilités de lecture ou reconnaissance des caractères. Mixte permet d’appliquer noir et blanc au texte, et couleurs/niveaux de gris aux images détectées par ScanTailor. Ce choix est à adapter en fonction des scans d’origine et des objectifs poursuivis^[2]. Selon mon expérience, voici un juste milieu : 300 DPI en noir et blanc et « couleurs/niveaux de gris » sur certaines pages illustrées.

Résultat : vous avez désormais dans le dossier « Out » l’ensemble des images traitées. Si tout s’est bien déroulé, vous les avez redressées, découpées, et les voilà ressorties avec une lisibilité supérieure ET en ayant perdu du poids !

↑ Sur Wikisource, vous aurez remarqué que des marges trop grandes obligent à zoomer à chaque nouvelle page pour n’avoir que le texte, et rien que le texte, votre Honneur.
↑ Par exemple, pour notre Petit Livre, une sortie en niveaux de gris 600 DPI donne une taille totale de 18,4 Mo. Ce n’est pas nécessaire mais c’est pourtant moitié moins par rapport aux TIFF d’origine ! Une sortie en niveaux de gris 400 DPI donnera un total de 8,74 Mo, mais c’est l’extrême limite pour permettre une bonne lecture/OCRisation ultérieurement. Là aussi, c’est à vous de doser selon le document.

modifier

Étape 4 — Une impression de DjVu : recompiler un fichier unique avec une couche de texte

Objectif : être en mesure de téléverser dans Wikimedia Commons un fichier complet, unique, au format DjVu, intégrant à la fois les scans de qualité et une couche de texte (caché) !

Préparation : téléchargez puis installez DjVu Toy (disponible ici).

Note : ce logiciel n’a pas besoin d’installation, vous devez extraire les fichiers de l'archive zip dans un dossier accessible, que vous appellerez par exemple « DjvuToy » (je suis très imaginatif).

Préalable nécessaire : vous devez également installer un ancien logiciel Microsoft, que DjVu Toy mettra à profit pour la partie Reconnaissance optique des caractères. Suivez les instructions en anglais — mais rien de bien sorcier — fournies par cette page. Cette étape est cruciale pour permettre à Djvu Toy d’ajouter une couche de texte (souvent très convaincante !) au DjVu.

Réalisation : Enfin !

Lancez DjvuToy en cliquant sur le fichier DjVuToy.exe
Choisissez l’onglet « Maker » (repérable par son logo DjVu violet).
Indiquez le dossier source ( « source folder or file » ) : en principe c’est le dossier « out » que ScanTailor a rempli précédemment. N’oubliez pas de cocher le format que vous avez utilisé : JPG, TIFF, etc.
Dans le 3^e champ, « Target Djvu file », vous pouvez modifier le nom du fichier qui va être produit. Dans un 1^er temps « out.djvu » est parfait.
Cochez OCR et sélectionnez French.
Cliquez sur 4. Options pour changer quelques paramètres : par exemple, pour un résultat de haute qualité, choisissez une compression « lossless », Color Image à 100%, Content sur « Photo (1 layer) », tout en bas « Just Text layer » et « 1 ».
Cliquez sur 5. Go ; cela vous laisse le temps de boire un thé, et à cette étape c’est plus que mérité !

À votre retour, le DjVu est prêt .

Vous pouvez à présent :

Vérifier la qualité du texte en utilisant l’onglet « Hidden Text » de DjvuToy → vous pouvez ainsi obtenir un fichier .txt contenant le texte caché
Lire le DjVu (et faire une recherche plein texte !) en utilisant un logiciel tel que DjvuLibre

Enfin, vous pouvez renommer le fichier en suivant les consignes, le charger sur Wikimedia Commons, et apporter la lumière de ce texte fondamental à tout Internet. Bravo !

Et si vous avez l’âme d’un(e) aventurier/ère, vous pouvez pousser plus loin l’apprentissage avec les étapes suivantes… Ou peaufiner les étapes, procéder à quelques tests de qualité avec DjVuToy, dont je n’ai présenté qu’une seule fonctionnalité mais qui permet de bricoler un DjVu de nombreuses manières, par exemple pour réparer un fichier incomplet : voir ci-dessous.

Étape BONUS — Réparer un fac-similé DjVu avec l’outil DjVuToy

En utilisant DjVuToy (téléchargé en début d’étape), vous pouvez réorganiser les pages sans avoir à retourner aux images brutes et sans perdre la couche texte :

Cliquez sur l’onglet Editor
Sélectionnez le fichier DjVu à réparer/réorganiser
Cliquez sur Go…
Un avertissement de sécurité peut survenir, ignorez-le.
Dans la fenêtre Page Editor qui s’est ouverte, examinez les différentes actions possibles dans la barre supérieure (une info-bulle apparaît au passage de la souris) : Insert a file before current page pour insérer une page que vous aurez pris soin de transformer en DjVu ; plusieurs triangles vers le haut ou vers le bas permettent de déplacer les pages (et leur couche texte) à l’intérieur du fichier. Vous pouvez aussi procéder à des rotations, suppressions, etc.
Une fois les déplacements/insertions/rotations/suppressions de pages effectuées, vous pouvez sélectionner Save as (petite disquette) pour éviter d’écraser le fichier original.

modifier

Étape 5 — OCR, peut mieux faire (épreuve facultative)

Utilisateur:SyB~Anicium/Tutoriel DjVu/5

modifier

Étape 6 — Nouveaux horizons : le fleuve MatchAndSplit et la pyramide de Regexp

Utilisateur:SyB~Anicium/Tutoriel DjVu/6

modifier

Épilogue

Utilisateur:SyB~Anicium/Tutoriel DjVu/Épilogue

modifier