Utilisateur:BernardM/Créer un fichier djvu à partir de Gallica sous Linux

La bibliothèque libre.
Sauter à la navigation Sauter à la recherche

Créer un fichier djvu à partir de Gallica sous Linux[modifier]

Préparer la configuration des différents logiciels pour une utilisation efficace[modifier]

Geeqie[modifier]

  1. aller dans le menu Éditer puis choisir Préférences->Configurer les éditeurs...
  2. choisir Nouveau
  3. utiliser le nom mogrify.desktop, et entrer le contenu suivant :
[Desktop Entry]
Version=1.0
Type=Application
Name=Image Magick trim
Exec=mogrify -trim -border 10x10 %F
Categories=X-Geeqie;
OnlyShowIn=X-Geeqie;
  1. enregistrer

Gimp[modifier]

  1. maximiser la fenêtre
  2. sélectionner l'outil gomme, et choisir la brosse 2. Hardness 100
  3. aller dans le menu Édition->Préférences
  4. dans l'onglet Environnement décocher Confirmer la fermeture des images non-enregistrées pour éviter la boîte de dialogue de sauvegarde au format XCF
  5. dans l'onglet Périphériques d'entrée choisir Enregistrer l'état des périphériques maintenant pour que la gomme s'ouvre au prochain lancement de Gimp
  6. aller dans le menu Édition->Raccourcis clavier
  7. dérouler Fichier et cliquer sur l'entrée de nom file-overwrite puis tapper F2
  8. dérouler Affichage et cliquer sur l'entrée de nom view-zoom-fill puis tapper F3
  9. cocher Enregistrer les raccourcis clavier à la fermeture puis fermer la boîte de dialogue

pdf2djvu[modifier]

Copier dans un éditeur de texte le contenu du script Perl pdf2djvu depuis la page Aide:Créer un fichier DjVu/Linux et le modifier de la façon suivante :

Enregistrer sous le nom pdf2djvu et rendre exécutable.

Télécharger les fichiers[modifier]

  1. chercher le livre sur le site web de Gallica
  2. aller sur Télécharger / Imprimer, choisir le format et enregistrer sous le nom chronique_d_une_ancienne_ville_royale_Dourdan.pdf
  3. télécharger au format txt et enregistrer la page web sous le nom chronique_d_une_ancienne_ville_royale_Dourdan.html

Convertir le texte[modifier]

./pdf2djvu gallica2txt chronique_d_une_ancienne_ville_royale_Dourdan.html chronique_d_une_ancienne_ville_royale_Dourdan.txt

Extraire les images du PDF[modifier]

pdfimages chronique_d_une_ancienne_ville_royale_Dourdan.pdf chronique_d_une_ancienne_ville_royale_Dourdan

Effacer les images qui ne sont pas du livre (logos Gallica).

Renuméroter : titre=chronique_d_une_ancienne_ville_royale_Dourdan ; for i in $(seq -w 6 471); do ext=$(echo ${titre}-${i}.* | grep -o '[^.]*$'); mv ${titre}-${i}.$ext ${titre}-$(printf "%03d" $(expr $i - 5)).$ext ; done

Nettoyer les images[modifier]

Retailler manuellement les .ppm avec Gimp.

Dans geeqie, sélectionner toutes les images (ctrl+A), puis, depuis la galerie de vignettes, faire un clic droit puis éditer « Image Magick trim ». Cela fait un premier nettoyage.

Pour chaque chapitre, sélectionner les images correspondantes, puis éditer « Gimp ». Toutes les images s'ouvrent dans des onglets dans Gimp. Pour chaque image, appuyer sur <F3> pour avoir un niveau de zoom propice au travail, enlever les tâches avec la gomme, appuyer sur <F2> pour enregistrer les modifications, et enfin fermer l'onglet. Une fois toutes les images traitées, réappliquer le trim dans geeqie. Vérifier que toutes les marges ont disparu. Si ce n'est pas le cas, recommencer le processus pour les images à corriger jusqu'à ce que tout le chapitre soit correct.

Réitérer pour chaque chapitre (ou autre entité logique).

Créer le fichier djvu[modifier]

./pdf2djvu mkdjvu chronique_d_une_ancienne_ville_royale_Dourdan