Aller au contenu

Sujet sur Discussion utilisateur:ElioPrrl

VIGNERON en résidence (discussioncontributions)

Bonjour,

Suite à notre conversation de mars dernier, je me permets de te contacter pour avoir de l'aide pour créer un DjVu.

Pour le contexte, je travaille aux Champs Libres à Rennes et je me suis rendu compte que Bretagne est univers de Saint-Pol-Roux est quasiment inexistant en ligne (en tout cas, l'édition de 1941). Même en papier, l'édition de 1941 est rare, je n'en ai trouvé que 3 copies en France, donc celle à Rennes que je viens de scanner.

Dans ce cadre, je n'ai pas accès au ligne de commande et je ne peux pas installer de logiciel (sauf demander à la DSI ce qui risque de prendre plusieurs mois). Pour le moment, j'ai un fichier jpeg (300 ppp) pour chaque double page. Comment procéder au mieux ?

Sinon, soit je ferais un pdf (ça c'est facile, il y a des milliards d'outils en ligne) soit je tenterais ScanTailor sur mon ordi perso (mais c'est rédhibitoire dans le cadre de mon travail).

Cordialement,

VIGNERON en résidence (discussioncontributions)
Denis Gagne52 (discussioncontributions)

Est-ce que tu as accès à Google Drive ou tout autre espace de stockage qui permettrait à l’un de nous de récupérer tes images ?

VIGNERON en résidence (discussioncontributions)
Denis Gagne52 (discussioncontributions)

C’est @Cunegonde1 qui m’a initié à ScanTaylor. C’est la partie la plus délicate. Je vais tenter de retrouver ce qu’il m’avait fourni comme info. Je dois m’absenter pour 3 heures. Tu peux explorer ScanTaylor entre temps. J’ai récupéré les images. On pourrait le faire ensemble.

Cunegonde1 (discussioncontributions)

Bonjour @VIGNERON en résidence et @Denis Gagne Il faut bien préciser que Scantailor est un logiciel de pré-traitement des images. Pour créer ensuite un document pdf ou djvu de bonne qualité avec un OCR ayant également une meilleure qualité qu'avec l'absence de traitement, scantailor ne fait que convertir les images jpg ou png d'origine en images tif et rien d'autre, pour regrouper les images dans un livre il faut donc utiliser un logiciel tiers qui effectue également l'OCR. J'utilise la version "advanced" de Scantailor dans sa version linux 1.0.16 en anglais. traitements :

  • la plupart du temps je reprécise la résolution des images à 600 dpi,
  • puis je met le split à page simple ou double page suivant les cas, si l'image est double, il faut vérifier qu'elle est correctement coupée.
  • je laisse Deskew à auto, en vérifiant et rectifiant les pages de couverture, de garde et les illustrations qui sont souvent inclinées à tort.
  • je fais la selection du contenu à conserver en auto en vérifiant en triant les pages avec height et width du plus grand au plus petit et inversement pour repérer les erreurs, attention aux rognages intempestifs.
  • ensuite on passe aux marges, je mets 5 partout et aligné vers le haut, puis je rectifie les images titres, les illustrations et les têtes de chapitre qui doivent être centrées et non alignées en haut. Pour les images plus grandes (couv.; titre etc.), je décoche Match size, ce qui permet de réduire les marges pour les pages "utiles" ce qui est plus confortable pour la relecture sur WS
  • enfin on passe à l'export (output) la plupart du temps, à ce stade, j'utilise une résolution de 600dpi, en noir et blanc et le filtre otsu à 0, si l'image est très sale, je peux utiliser les autres filtres mais ils sont plus délicats à paramétrer. Je peux également jouer avec despeckle, mais il faut bien vérifier, car si on force trop, il a tendance à effacer les deux points, les guillemets et les points virgule, ce qui n'est pas toujours facile à repérer. Enfin l'outil magique est la gomme (fillzone) qui permet d'effacer les pétouilles (mais là il faut être patient, car c'est très long à faire).

Pour les pages avec illustrations la plupart du temps, j'utilise le mode mixte au lieu de noir et blanc, en précisant le picture sharp à rectangulaire et higher search sensivity.

Généralement l'aide sur les fonctions est située en bas de l'écran.

Une dernière précision, je fais l'export à 600 dpi pour donner les meilleures conditions possible à l'OCR, si je passe par Abbyy pour l'OCR, je réduis ensuite à 300 dpi à la création du djvu, si j'utilise tesseract, je passe à 300 dpi ou moins lors de la conversion du pdf temporaire vers le djvu (je n'utilise pas abbyy sur les gros fichiers issus de pdf, car il crée des djvu incorrect avec décalage de la couche texte par rapport aux images des pages, alors que si je pars des images source ils sont OK).

Voilà désolé d'avoir été un peu long, mais utilisant ce logiciel quotidiennement si je peux aider quelqu'un à se l'approprier, cela me fait plaisir.

Denis Gagne52 (discussioncontributions)
VIGNERON en résidence (discussioncontributions)

Bonjour,

Merci pour vos efforts mais cela semble confirmer que DjVu n'est pas facilement générable (beaucoup moins qu'un pdf... :( ) et cela me semble vraiment dommage... La multiplication d'outils notamment est rédhibitoire, ne serait-il pas possible de créer un outil unique sur les serveurs Wikimédia ?

En tout cas, ce document est maintenant sur Wikimédia : File:Saint-Pol-Roux - Bretagne est univers, 1941.djvu et Livre:Saint-Pol-Roux - Bretagne est univers, 1941.djvu. Merci beaucoup pour votre réactivité ; cela compense grandement les complications ! (maintenant, espérons que vous soyez encore tous actif dans 10 ou 20 ans quand j'aurais encore besoin de vous Clin d'œil)

Cdlt,

Cunegonde1 (discussioncontributions)

@VIGNERON en résidence désolé.e, mais je crains de devoir tirer ma révérence avant. Mais les outils et formats auront sans aucun doute évolué de même que les pratiques, si wikisource existe encore. Les outils actuels que j'utilise me permettent de faire un djvu avec couche ocr correcte en moins de 5 minutes pour 700 pages images au format jpg ou png, si je ne suis pas contraint de faire un traitement avec scantailor. Pour ce type de tâches, les interfaces graphiques n'apportent rien et ralentissent plutôt les processus, de plus les options sont limitées. Sinon un bon outil payant est Abbyy fine-reader, je l'utilise en version 15, mais il pose problème (décalage de la couche texte par rapport aux images) sur les gros fichiers issus de Gallica.

VIGNERON en résidence (discussioncontributions)

Attendons donc les futurs outils et croisons les doigts pour que cela arrive un jour (cela fait 17 ans que je contribue sur Wikisource, j'ai vu de nombreuses améliorations et je sais être patient).


Entretemps, peut-être y a-t-il des choses à améliorer au niveau de la documentation. Via un message supra, je découvre Utilisateur:SyB~Anicium/Tutoriel DjVu qui commence par un caveat « ce tutoriel est valable en 2018, sur Windows 7. N’hésitez pas à l’adapter ! » serait-il possible et opportun de le mettre à jour ?

Denis Gagne52 (discussioncontributions)

Opportun ? Pas vraiment. @Cunegonde1, à lui seul, produit plus de f-s que toute la communauté réunie. Sans doute 10 X plus et p-e davantage. Quand le travail est réalisé par lui, je sais que le djvu est optimisé, qu’il ne sera pas trop lourd inutilement, que les droits d’auteurs auront été vérifiés, les pages nettoyées, recadrées et vérifiées, surtout qu’elles seront toutes présentes et lisibles. Ceux qui souhaitent n’avoir qu’à peser sur un bouton devraient toujours faire appel à lui. La documentation ne leur sera pas tellement utile.

VIGNERON en résidence (discussioncontributions)

Je ne pense pas que reposer sur une seule personne (ou un petit nombre de personnes) soit une bonne idée, ni pour la personne elle-même (à cause de la pression engendrée) ni pour la communauté (qui se retrouve démunie quand la personne est indisponible ou partie).

En 17 ans (et j'espère bien contribuer encore autant de temps), j'ai vu beaucoup de personnes géniales qui ont beaucoup fait pour Wikisource mais dont le départ a causé d'importants problèmes. La documentation n'est pas toujours la solution idéale mais elle permet d'atténuer en partie le problème. Cette page précise n'est peut-être bonne qu'à être archivée mais d'une façon ou d'une autre il faudrait permettre que le flambeau puisse être transmis.

Denis Gagne52 (discussioncontributions)

Tu as raison, mais on peut difficilement faire davantage. Cette page à laquelle tu as contribué fournit, selon moi, suffisamment d’information pour permettre que le flambeau demeure allumé. Je ne suis pas trop inquiet. Si on est vulnérable, c’est surtout qu’on ne pourra p-e pas toujours compter sur des personnes aussi dévouées que @Cunegonde1, Ernest et d’autres qui les ont précédés. Ce qui est valorisant quand on produit un f-s, c’est de constater qu’il a été exploité. Dans ton cas, ça n’a vraiment pas traîné. Sourire

Cunegonde1 (discussioncontributions)

Je me permet d'intervenir pour dire que la réalisation de fac-similés est une tâche plutôt ingrate car c'est ce qu'on appelle en ergonomie un travail invisible  : en effet lorsqu'on regarde un fac-similé on ne se rend absolument pas compte du travail que cela a demandé. Par ailleurs les 1000 et plus imports que j'ai fait dans le cadre des rattachements de textes non sourcés consiste à réaliser un fac-similé de parfois plusieurs centaines de pages pour quelques pages, voire une seule page exploitée.

Actuellement j'importe une une revue comportant 99 numéros de 600 à 700 pages chacun dont je sais qu'elle sera très peu exploitée. Donc oui, il est important qu'un relai se fasse, mais ce qui n'est pas simple, c'est qu'en matière de réalisation de scans, on ne peut absolument pas se contenter d'appliquer une procédure standard : chaque situation pose des difficultés particulières qui requièrent l'utilisation d'outils spécifiques. Donc effectivement il n'y a pas de solution magique presse-bouton. Et je crains qu'une page d'aide trop simple ne serve à rien et trop technique rebute les bonnes volontés. En outre n'ayant aucune qualité pédagogique, je me vois mal rédiger une page d'aide.

Je précise en conclusion que j'ai mis environ 8 ans de pratique et de tâtonnement pour arriver à un niveau acceptable et encore perfectible dans ce domaine et que comme pas mal de contributeurs de wikimedia, mon avenir est plutôt derrière moi que devant.

ElioPrrl (discussioncontributions)

Désolé, je suis parti en vacances, et je viens donc après la bataille. Juste pour y aller de mon petit commentaire : en fait, le problème ne consiste pas tellement en la conversion en DjVu, mais en tout le travail fait auparavant pour redresser, rogner, décoloriser, etc. les pages une à une. Malheureusement, les bibliothèques ne fournissent de plus en plus que des fichiers en couleurs ; mais pour nous qui utilisons le fac-similé non pas pour le donner directement à lire comme image, mais seulement pour en extraire la couche texte et la donner à la lecture comme texte, il vaut mieux que le fac-similé soit retravaillé pour faciliter la tâche des logiciels de reconnaissance de caractères, qui préfèrent le noir et blanc, les lignes bien horizontales, la suppression des accrocs et annotations dans les marges, etc.

On peut passer par des logiciels avec interface graphique (pas en ligne de commande).

Pour générer des DjVu à partir de fichiers PDF noir et blanc de bonne qualité et déjà océrisés, tout est très simple avec PDF 2 DjVu Converter ou WinPDF2DjVu (solution en deux-trois clics).

Pour générer à partir de plusieurs images ou de PDF en couleurs, le mieux pour le prétraitement est de passer par ScanTailor. En désactivant le rognage des marges et en gardant les paramètres par défaut pour les autres étapes, cela va très vite ; un travail soigné de rognage ou de redressement à la main, par contre, prend du temps. Le seul vrai problème dans ce cas est la couche texte : Tesseract ne se trouve pas avec une interface sympathique. Je me suis codé un algorithme en Python pour utiliser Tesseract, dans lequel il suffit de rentrer les emplacements des fichiers à traiter, mais je crains que cela ne suffise pas pour beaucoup de monde (il faut télécharger Python, un environnement pour Python et Tesseract). Heureusement, on a depuis quelque temps la possibilité de passer par Tesseract ou Google en mode édition.

Répondre à « Besoin d'aide pour créer un DjVu »