Utilisateur:SyB~Anicium/Tutoriel DjVu/2
Objectif : repartir des scans individuels, car les logiciels des étapes suivantes travaillent à partir de fichiers image. Ces petits fichiers seront de toute façon plus souples à traiter qu’un seul fichier compilé et volumineux.
Préparation : Si vous utilisez Windows 7 : Téléchargez un logiciel qui porte le doux nom de TTRPDFtoJPG :
Il est gratuit et disponible à cette adresse.
« ttrpdftojpg3.jar »
Mise à jour 2022 : Si vous utilisez Windows 10, il existe une application gratuite qui rend le même service : Any PDF to JPG.
Réalisation dans TTRPDFtoJPG :
- Menu
Fichier
→Ajouter des PDF
→ Sélectionnez le fichier téléchargé/travaillé précédemment. - Dans les options du volet de droite : si vous avez plusieurs gigaoctets disponibles, je recommande de choisir JPG avec une « magnification » de 10 ; pour la destination d’enregistrement, cocher
« Enregistrer dans le même dossier »
(ou créez au préalable un sous-dossier, c’est pratique)[1]. « Convertir »
Résultat de l’étape : Vous disposez à présent d’autant de fichiers images (JPG) qu’il y avait de pages dans le PDF. Si ce n’est pas déjà fait, je recommande de ranger ces images dans un sous-dossier ad hoc : « [JPG-Découpé] – Titre du livre »
.
pagelist
de la page d’Index, ou d’ajouter laborieusement des pages au DjVu final dans lequel vous aurez repéré des pages manquantes. Récupérez ces pages cruciales par tous les moyens sur d’autres exemplaires numérisés (HathiTrust, Google, Gallica), en scannant l’ouvrage en question que vous aurez été chercher dans les ruines de l’Atlantide ou à la bibliothèque du quartier, etc. Il suffira ensuite d’intercaler l’image en lui donnant un nom correct. Par exemple, s’il manquait une page entre les images 00189.jpg
et 00190.jpg
, appelez-là 00189BIS.jpg
, copiez-la parmi les autres et le tour est joué, elle prendra la place souhaitée. Et croyez-moi, c’est infiniment plus simple à ce stade qu’une fois le bouquin téléversé et l’erreur constatée .
- ↑ Vous pouvez aussi opter pour le TIF dans le menu déroulant, mais cela réserve des surprises : ce logiciel m’a parfois ressorti des TIF (en théorie sans perte) complètement saccagés… Je reste souvent sur du JPG, par prudence. En revanche, sur des scans Google venant de HathiTrust, un JPG haute qualité gardait trop d’informations cachées et provoquait un crash de mon logiciel d’OCR… Les formats sont des mondes mystérieux…