Aide:Créer un fichier DjVu/Windows

La bibliothèque libre.
Aller à la navigation Aller à la recherche

Vous êtes ici : accueil >Aide >Créer un fichier DjVu >Windows

Aide : Manuel de Wikisource

Convertir un fichier pdf[modifier]

La plupart des fichiers qui sont utilisés sur Wikisource sont des fichiers pdf que les contributeurs téléchargent sur Gallica et Google Livres. Ces fichiers peuvent être convertis directement, ou exigent au contraire des manipulations plus ou moins importantes des images qu’ils contiennent avant de créer un fichier DjVu.

Conversion directe[modifier]

Si vous n’avez pas besoin de modifier les images du pdf que vous voulez convertir et que le fichier contient déjà un texte (OCR fournie par Gallica), téléchargez pdf2djvu gui version Windows, décompressez le dossier obtenu, puis lancez le programme ; cliquez sur add pdf, choisissez votre fichier, puis cliquez directement sur generate djvu, la configuration par défaut étant généralement appropriée.

Si le fichier contient une première page d’avertissement du site source et une table des matières ajoutée par ce même site (ce qui est le cas pour Gallica), cliquez « Select Pages » et indiquez à partir de quelle page (from) et jusqu’à quelle page (to) vous voulez convertir le pdf.

Si la résolution du DjVu obtenu est médiocre, essayez avec 600 dpi au lieu de 300.

Modifications des images du fichier pdf[modifier]

Il est souvent nécessaire de modifier les images d’un fichier pdf avant de le convertir et de l’utiliser sur Wikisource. L’une des manipulations les plus fréquentes consiste à enlever des marges trop importantes. En effet, la conversion directe des fichiers pdf fournis par Google Books et par Gallica donnera le plus souvent des fichiers dont les images conservent les marges blanches d’origine. Ces marges rendent souvent l’utilisation du mode page plus difficile car elles occupent une partie importante de l’affichage, aux détriments du texte.

Extraire les images[modifier]

Pour manipuler les images d’un fichier pdf, il faut tout d’abord les en extraire.

Le plus simple et rapide est la ligne de commande : téléchargez Xpdf pour récupérer pdfimages.exe. Il suffit alors de faire :

pdfimages.exe votrefichier.pdf nomdesimages

Vous pouvez ouvrir le fichier (tif, pdf, etc.) dans un programme capable d’en exporter les images séparément, par exemple, avec FineReader (version d’évaluation pendant 15 jours, mais au-delà, il est toujours possible d’ouvrir et de convertir un fichier) ou PdfCreator qui permet d’exporter un pdf en différents formats (jpg, tif, etc.).

L’utilisation d’un logiciel de conversion pdf vers jpg ou tiff est aussi possible, mais ces logiciels sont souvent payants.

Enlever les marges[modifier]

Une fois les images extraites, deux méthodes de découpage des marges sont possibles :

  • installez Xnview et utilisez sa fonction de détourage. Dans ce cas, les espaces blancs sont détectés et supprimés. Avantage : automatique. Défaut : le détourage automatique peut ne laisser aucun espace entre les bords et le texte, ce qui n’est pas forcement très esthétique.
  • toujours avec Xnview, utilisez la fonction de découpage et définissez un cadre. Cette méthode fonctionne quand les pages numérisées sont placées exactement de la même manière dans chaque image, ce qui est souvent le cas des fac-similés de Gallica. Avantage : permet de laisser des marges autour du texte. Défaut : ne convient pas pour tous les scans qui doivent être tous vérifiés après le découpage.

Il reste à importer les images obtenues dans un programme de conversion comme DjVu Solo, c’est-à-dire à suivre la procédure qui est décrite plus bas.

Diminuer la résolution[modifier]

Dans le cas de fichiers de qualité moyenne, comme ceux proposés en général par Gallica et surtout par Google Livres, il peut arriver que la résolution soit très élevée. Par exemple, les images de Google peuvent avoir une résolution de 3000x4500. Or, pour des images en noir et blanc, une résolution de 1400x2200 peut être largement suffisante. On peut donc choisir de la diminuer, sans que le rendu soit particulièrement affecté, ce qui permettra en outre de diminuer le volume du fichier DjVu final. La diminution de la résolution peut être faite avec Xnview en même temps que le détourage.

Convertir des images[modifier]

Si vous avez un ensemble d’images dans des formats tels que jpg, png, etc., plusieurs programmes similaires vous permettront de les convertir et de les rassembler en un seul fichier. La principale difficulté est de bien configurer le processus de conversion ; pour le reste il suffit de charger vos images dans un programme et de vérifier qu’elles sont toutes là et dans l’ordre souhaité avant de configurer et de démarrer la conversion.

  • DjVu Solo (disponible ici)
  • Autres : DjVu Libre, LizardTech Virtual Printer.

Nous donnerons l’exemple détaillé de l’utilisation de DjVu Solo.

Conversion avec DjVu Solo[modifier]

Importer vos images[modifier]

Quand vous avez vos fac-similés, installez puis lancez DjVu Solo. Cliquez sur File, en haut à gauche, et sélectionnez Open. Le programme vous demande l’emplacement du fichier à importer. Sélectionnez le type de fichiers que vous souhaitez ouvrir (par exemple jpg), puis cliquez sur Ouvrir. Si vous voulez importer plusieurs images, ouvrez une première image en suivant la procédure précédente, puis cliquez sur Edit et sélectionnez Insert page(s) after. Sélectionnez toutes les images que vous voulez ajouter, et cliquez sur Ouvrir. Les images s’ajoutent à la suite de la première.

Vérifier l’ordre des images[modifier]

Quand vous ouvrez des images dans DjVu solo, le programme en fait une liste qui correspond à l’ordre dans lequel ces images seront disposées dans le fichier DjVu. Cela crée une pagination par défaut qui n’est pas modifiable et qui correspond rarement à la pagination du livre lui-même.

Ce décalage de pagination est en général laissé tel quel par les contributeurs de Wikisource, les liens vers les pages étant simplement corrigés dans l’espace Livre et dans les sommaires.

Paramétrage et conversion[modifier]

Lorsque les images sont prêtes, correctement ordonnées dans DjVu Solo, cliquez sur File, et sélectionnez Save. Le programme vous propose alors un titre de sauvegarde que vous pouvez modifier ; l’extension DjVu Files est proposée par défaut. Cliquez ensuite sur Enregistrer ; une boîte de configuration de la compression des images apparaît :

  • Résolution : par défaut, le nombre 300 apparaît. L’utilisation de la valeur par défaut donne généralement de bons résultats, y compris pour des illustrations.
  • Scanned, Photo, Clean, Bitonal : vous avez le choix entre 4 méthodes de conversion. Scanned est sélectionné par défaut, et convient aux images extraites des fichiers de Gallica et de Google Livres, et à tous les fac-similés de qualité similaire à ceux de ces deux sites. La configuration est un peu plus compliquée pour des images en couleurs de haute résolution. Il est utile de faire des essais de configuration avec seulement une image :
    • Photo : dans cette configuration, la qualité des images est peu dégradée, mais la compression est la plus faible (même si elle demeure très forte en comparaison du volume de l’image d’origine). Il en résulte que si vous avez plusieurs centaines d’images à convertir et si ces images sont à l’origine d’une résolution et d’un volume élevés, le fichier DjVu peut être trop volumineux (plus de 100 mo) pour être ensuite importé sur Wikisource ou Commons. En revanche, cela peut convenir pour un petit nombre d’images dont vous voulez conserver la qualité d’origine.
    • Scanned : dans cette configuration, les images sont très fortement compressées (une image jpg de 400 ko peut être réduite à 20 ou 40 ko), mais avec une dégradation de la qualité qui peut s’avérer désastreuse. Cette configuration convient pour les images provenant de Gallica ou Google Livres et de qualité similaire (résolution de 1000x1800 par exemple, mais pour les images en noir et blanc de ces sites, on pourra essayer la configuration bitonal), mais des images en couleurs d’une résolution moyenne (1800x2600) peuvent grandement souffrir de cette conversion. En revanche, le résultat peut être satisfaisant pour des images d’une résolution supérieure, par exemple de 2500x4500 comme c’est le cas des scans bruts fournis par l’Internet Archive : une plus grande résolution dans ce choix de configuration améliore le rendu final, sans augmenter considérablement la taille du fichier djvu. Dans tous les cas, il est préférable de tester plusieurs configurations sur une image, pour voir laquelle produit le meilleur rapport volume/qualité.
    • Bitonal : pour convertir des images en noir et blanc.
    • Clean : …

Il ne reste plus qu’à cliquer sur OK et la conversion commence.

Résumé : paramètres conseillés selon les fac-similés[modifier]

  • Images noir et blanc comme celles de Gallica : bitonal.
  • Images de faible ou moyenne résolution, en couleur : Scanned (que l’on peut utiliser aussi pour les images Gallica ou Google Livres).
  • images couleurs, résolution élevée :
    • Photo pour conserver à peu près la qualité de l’image originale, mais avec une compression faible (division par deux de la taille par rapport au format jpg).
    • Scanned, produit un rendu moins bon (utilisez si possible des images avec la résolution la plus haute dont vous disposez), mais permet une compression beaucoup plus élevée que la configuration photo.


Fichiers tiff[modifier]

Le cas des fichiers tiff se présentait quand Gallica proposait ce format au téléchargement, ce qui n’est plus le cas aujourd’hui.

La solution la plus simple et la plus rapide pour les fichiers de Gallica, consiste à télécharger ces fichiers au format tif, puis à les ouvrir dans un logiciel comme tiff editor (mais utilisable 1 mois) capable de supprimer les marges de toutes les images sélectionnées. Il ne reste plus alors qu’à ouvrir le fichier tif obtenu dans un logiciel de conversion DjVu. Le problème est qu’il ne semble pas exister de logiciels gratuits pour faire ce détourage.

Numérisation d’un livre[modifier]

Si vous avez un scanner installé, vous pouvez l’utiliser avec DjVuSolo pour acquérir des fac-similés que vous pourrez ensuite convertir en un seul fichier DjVu.

Importer vos fichiers[modifier]