Sujet sur Discussion utilisateur:ElioPrrl

Cunegonde1 (discussioncontributions)

Bonjour, j'ai voulu faire un test de réalisation d'un fichier au format djvu du tome I entier de Buffon - Œuvres complètes, éd. Lanessan que tu as mis en ligne au format pdf. Pour le moment c'est un test, mais plutôt encourageant car c'est une version en noir et blanc de bonne qualité (j'ai réalisé les images .tiff avec scantailor, puis ocrisé avec abbyy et converti le pdf final en djvu avec pdf2djvu). J'ai conservé la page de titre et les superbes planches couleurs. Le tout pèse 25,6 Mo seulement pour les 928 pages en 400 dpi.

Si tu es intéressé (aucune obligation), je peux finaliser le test et le mettre en ligne ce qui serait plus simple que de séparer les volumes en deux parties comme tu as été obligé de faire.

En tout cas c'est un sacré défi que la transcription de ce monument du XVIIIe siècle.

ElioPrrl (discussioncontributions)

Merci beaucoup ! J'y connais absolument rien en conversion, et j'avais essayé naïvement de convertir le fichier pdf en djvu avec résolution 600dpi, et déjà que la résolution du PDF était pas extraordinaire, j'avais obtenu quelque chose de beaucoup moins lisible, pour un poids à peu près équivalent, d'où ma décision. Je veux bien voir le fichier ! Je vérifierai que la couche texte de Gallica, très satisfaisante, a été préservée ; je ne pense pas retéléverser les tomes I et II, que j'ai divisés et dont j'ai mis en partie les index en conformité avec les originaux, mais si c'est concluant, pourrais-je te solliciter pour la conversion des autres volumes de la série ?

Je ne sais pas si j'irai au bout (je mène trop de projets de front...), mais au moins mettre les choses sur des rails en corrigeant quelques volumes, pour voir les problèmes, édicter des règles générales et permettre ainsi une correction unifiée avec les autres contributeurs, cela serait déjà super.

Encore merci ;)

Cunegonde1 (discussioncontributions)

J'ai mis en ligne cette version de test non finalisée : Fichier:Buffon - Œuvres complètes, éd. Lanessan, 1884, tome I-test.djvu. S'agissant de l'ocr, dans une version finalisée, l'ocr que je réalise est en général meilleur que celui de la BNF car je sélectionne les zones de reconnaissance "à la main" et j'utilise le même logiciel de reconnaissance. J'ai oublié d'indiquer que je récupère les livres sur la BNF avec Gallica.ml qui permet de télécharger les images (une par une) de façon automatisée avec un script dans la meilleure résolution possible.

ElioPrrl (discussioncontributions)

Ça m'a l'air vraiment bien ! Il n'y a plus toutes ces marges qui dévorent la page, et le texte est très lisible comme ça (bon, j'avoue aimer la couleur originale des pages, mais c'est tout à fait anecdotique ^^) ; quand aux quelques pages dont j'ai consulté la couche texte, c'est impeccable.

Ça doit prendre un temps fou de tout "corriger" à la main ainsi ! C'est vraiment sympa de porter de l'intérêt à ce projet, en tout cas. Je comprends très bien que tu as toi-même d'autres projets, donc ne t'inquiète pas, le temps que je corrige rien que le premier tome, tu as de la marge. Ne te sens donc pas obligée ; quand je voudrai importer un nouveau tome (pas forcément dans l'ordre d'ailleurs), je te le signalerai, et tu auras toute permission de m'envoyer bouler x)

Cunegonde1 (discussioncontributions)

Ok, pas de problème fait moi signe ça me fait plaisir de contribuer à cet ouvrage. PS : c'est le passage en noir et blanc qui allège de façon drastique le poids de fichiers.

ElioPrrl (discussioncontributions)

Ayant terminé les deux premiers tomes des Œuvres complètes de Buffon, je reviens vers vous/toi (? je ne sais jamais qui vouvoyer et tutoyer ici ), @Cunegonde1, pour savoir si ce serait possible de convertir en djvu le tome III (les liens pour consulter tous les tomes sont disponibles sur Gallica), comme proposé dans les précédents messages ? Le temps ne presse pas, loin de là : je compte faire une pause sur ce projet, et corriger des textes mathématiques pour changer ; ne te sens donc pas obligée de faire ça tout de suite ^^ Bon courage pour ce travail que je peux imaginer assez rébarbatif, et surtout grand merci !

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, pour le (vouv/tut)oiement, je crois que c'est une question de génération, pour ma part, je fait partie de celle qui a commencé à utiliser Internet à son début ; à l'époque, l'usage était que tout le monde se tutoyait sur Internet. Il est vrai que j'ai repéré depuis quelques temps l'apparition du vouvoiement sur wikisource, ce qui est amusant. Bref, ok pour le Buffon, je regarde quelle est la meilleure solution technique et je te tiens au courant.

Pour les planches, souhaites-tu que je les traite également pour les téléverser en plus du djvu, séparément sur Common ? ce qui permet de les intégrer facilement ensuite, mais prends également du temps, mais si tu n'es pas pressé...

ElioPrrl (discussioncontributions)

Pour les planches, tu peux les traiter comme le reste du texte, pas de traitement de faveur . Je les transclurai de toute façon tout à la fin, en les téléchargeant directement de Gallica en HD puis en leur donnant probablement un petit coup de Photoshop. Les planches sont distribuées assez aléatoirement entre les volumes, et je les inclurai à des endroits plus logiques. Et comme je le disais, tu as tout ton temps, je suis en période de partiels donc je ne toucherai pas beaucoup à Wikisource pendant deux semaines. Merci beaucoup !!!

Cunegonde1 (discussioncontributions)

Ok.

ElioPrrl (discussioncontributions)

Encore Merci !

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, j’ai terminé la préparation et le téléversement du tome III de Buffon : Livre:Buffon - Œuvres complètes, éd. Lanessan, 1884, tome III.djvu, le djvu ne pèse qu’environ 40 Mo. Le traitement est le suivant :

  • Mise en noir et blanc à l'exception des pages de titre et illustration,
  • gommage des pétouilles les plus visibles,
  • Passage à l'Ocr sur Abby finereader 15 :
    • Vérification et correction des zones de reconnaissance,
    • Ocr de bonne qualité en français et latin, plus mitigé pour les quelques passages en grec ; pour les tableaux, pages 510 à 523, pas de miracle, la reconnaissance est bonne mais tout le boulot reste à faire.
    • Pré-correction du texte sur Abby.
  • Passage d'une expression régulière reconnaissant les principales scanilles et correction avant création du djvu.
  • J’ai laissé les coquilles pas trop nombreuses mais surtout des a/à.

Je suis disponible pour le prochain volume, prévoir 15 jours à l'avance. Bon courage pour la suite.

PS : Il faut retirer l'avertissement qui apparaît au dessus du pagelist.

ElioPrrl (discussioncontributions)

Un immense merci Cunégonde ! Vous avez même créé la page Livre:, merveilleux ! Le temps déjà que je finisse celui-là, il y a le temps de voir venir le suivant... Un an pour les deux premiers (bon, ils étaient particulièrement pénible car contenaient beaucoup de mathématiques), alors il ne faut pas attendre de nouvelle demande avant six mois . Merci infiniment !

Cunegonde1 (discussioncontributions)

Bonjour @ElioPrrl, j'ai vu ce jour sur le scriptorium que le tome 3 de Buffon avance sérieusement. Souhaites-tu continuer ce projet ? Dois-je commencer à préparer le tome 4 ?

ElioPrrl (discussioncontributions)

Sérieusement, sérieusement... c’est vite dit, je suis bien loin de la fin ! Si tu as du temps, pourquoi pas, mais fais passer tes projets avant. Seulement, pour ce tome, pourrais-tu faire comme j’avais fait au début, diviser ce tome en deux parties (entre le Traité de l’aimant, qui appartient encore à l’Histoire des minéraux, et le début de l’Histoire des animaux) ; pas tant pour des questions de poids, mais cela me facilitera la tâche lors de la transclusion, pour remplir les boîtes de titre. Merci de proposer en tout cas

Cunegonde1 (discussioncontributions)

Ok, pour la division en deux parties ça ne pose pas de problème, sinon, le scan de gallica est un peu problématique (Livre mal ouvert => lignes courbées) normalement je peux le rectifier, mais ce ne sera sans doute pas parfait. Si j'ai un doute sur l'endroit précis de la césure, je te demanderai au moment de fabriquer le djvu (c'est à dire à la fin) du processus.

ElioPrrl (discussioncontributions)

Merci beaucoup ! J’espère que ça ne te donneras pas trop de fil à retordre

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, j'ai fini le tome 4 de Buffon j'ai fait 3 fichiers : 1o le volume complet, 2o le volume séparé en deux parties 1/ les minéraux, 2/ les animaux.

ElioPrrl (discussioncontributions)

Super merci beaucoup ! Je m'occupe de la création des index sur Wikisource cette fois-ci Tu me rends vraiment service, parce que les couches texte sont de la meilleure qualité !

Cunegonde1 (discussioncontributions)

En fait je fais une pré-correction avec finereader, puis je corrige les principales scanilles mais je laisse les coquilles.

ElioPrrl (discussioncontributions)

Mais comment fais-tu pour modifier la couche texte du fichier, une fois qu'il a été océrisé ? Parce que j'ai bien une liste de corrections et de commandes pour insérer automatiquement certains modèles, que j'applique avec le bouton T, mais je ne sais pas comment faire pour l'appliquer au fichier, avant le mode page...

Cunegonde1 (discussioncontributions)

L'OCR Finereader (version windows et non mac) permet d'éditer et de modifier la couche texte. Pour les OCR en français ancien, je préfère utiliser Tesseract avec la langue Fraktur je fais l'OCR puis j'édite la couche texte sous forme d'un fichier xml, je le modifie, puis le réinjecte dans le djvu.

ElioPrrl (discussioncontributions)

Merci, il me faudra me pencher un peu plus là-dessus, parce que quand je m'occupe moi-même de la reconnaissance de caractères (avec Tesseract sur Python), les fichiers sont bien moins bons que les tiens Alors si je peux copier sur toi !... Encore Merci  !

Cunegonde1 (discussioncontributions)

sous linux :

  • extraire la couche texte : djvutoxml monfichier.djvu monfichier.xml
  • réinjecter la couche texte : djvuxmlparser -o monfichier.djvu monfichier.xml
ElioPrrl (discussioncontributions)

Bonjour @Cunegonde1 ! Je reviens poursuivre la discussion là où elle était restée, parce que je veux essayer de mieux faire quand je convertis des fac-similés en DjVu. Grâce au tutoriel de @SyB~Anicium (un immense Merci à lui ! et il ne doit pas se priver pour apporter ses lumières ici ), je dispose de TIFF bien traités, que je peux fusionner en un DjVu de 33Mo (pour 270 pages, comment fais-tu pour obtenir des fichiers à peine plus lourds mais trois fois plus longs  ?).

Seulement, je ne sais pas comment ajouter un OCR à ces images sans produire un PDF (avec pytesseract sur Python) comme fichier intermédiaire ; ne peut-on pas océriser directement les TIFF ou le DjVu, quitte à obtenir un fichier XML à réinjecter dans le DjVu ? Le problème : je crois que Tesseract ne peut pas donner en sortie des fichiers XML (PDF, hOCR, mais pas XML). Comme tu disais que tu utilisais Tesseract pour les textes anciens, je me disais que tu savais peut-être comment faire cela…

Cunegonde1 (discussioncontributions)

Bonjour Elioprrl, j'utilise ce script de Kipmaster qui crée une couche texte sur un djvu, il est basé sur tesseract et tu peux choisir la langue. Pour le français avec s longs, j'utilise la langue "fraktur" qui est la moins mauvaise. puis j'édite le texte en xml et utilise des regex pour éliminer les erreurs les plus courantes : aufli au lieu de auſſi, etc. Pour le rapport poids qualité avec pdf2djvu, c'est assez délicat, il faut jouer avec les paramètres couleur ou noir et blanc, et résolution.

Mais depuis l'automne dernier, je me suis offert abbyy finereader 15 (199 €), qui est un excellent couteau suisse de création et d'édition de pdf, c'est avec lui que j'obtiens des rapports qualité/poids du fichier satisfaisants car on peut paramétrer de nombreuses options lors de la création des fichiers. Il permet également dans sa version windows (et pas mac) d'éditer et de corriger directement le texte de l'ocr avant de créer le fichier final avec de nombreux formats d'export dont bien sûr le djvu. Je sais que certains contributeurs (mais je ne me souviens plus qui) ont demandé et obtenu des micro-crédits pour le financer. Les défauts que j'ai repérés sur finereader après 8 mois de pratique : confusions fréquentes entre sauts de ligne et sauts de paragraphe dans les poèmes ; reconnaissance des zones d'entête de page assez médiocre. Pas de possibilité d'utiliser des regex pour corriger l'OCR ; galère pour apprendre à faire un OCR des textes avec S longs (le dictionnaire ancien français ne convient pas), mais avec de la patience, on y arrive. Et surtout, je n'ai pas trouvé de communauté en francophone pouvant apporter de l'aide sur ce logiciel.

ElioPrrl (discussioncontributions)

Merci beaucoup ! Je vois que ce programme décompose le DjVu en images TIFF avant de les océriser, et comme je dispose déjà de ces fichiers, je vais essayer de modifier ce script pour éviter de refaire le travail déjà fait. Merci !

Cunegonde1 (discussioncontributions)

Si tu arrives à réaliser cette modification, cela m’intéresse, car quelque soit le cas de figure, je pars également toujours de fichiers tiff créés en phase préparatoire avec scantailor.

ElioPrrl (discussioncontributions)

Cunegonde1 : Je viens de réécrire le script que tu indiquais en Python (je ne sais pas coder en perl, malheureusement, et je supporte les lignes de commande à dose homéopathique ). Il a été appliqué à ce ce livre via Spyder sur Windows. Cela me donne un résultat dont je ne suis pas mécontent, même sans post-traitement de la couche texte.

Je ne suis pas un as du codage, et je voulais que le script puisse être utilisé sans avoir à changer de répertoire, donc le script est un peu pénible à manipuler (il faut entrer les emplacements complets des fichiers directement dans le script, et peut-être que sur un autre OS il faudra changer des guillemets doubles en simples, ou des slashs en anti-slashs), mais moi-même je crains de ne pas faire beaucoup mieux.

Cunegonde1 (discussioncontributions)

Le résultat est plutôt bon, bien qu'il soit un peu lourd pour un noir et blanc. L'ocr est bon, y compris pour les équations simples . Je testerai ton script demain sur linux et mac pour voir si j'y arrive avec les noms de dossiers. En fait il suffit de créer un dossier spécifique pour l'utilisation de ce script. C'est ce que j'ai fait pour des scripts perl appliquant 400 regex en cascade de nettoyage des principales scanilles spécifiques aux textes avec S longs. Pour le poids des fichiers, avec pdf2djvu pour le mercure de france, beaucoup de pages j'ai mis < pdf2djvu -d 300 --monochrome -o Mercure1914-07-1.djvu Mercure1914-07-1.pdf > j'arrive à ~20Mio pour 300 pages.

[Edit] je viens de relire ta page et quelque chose m'échappe. Ton prérequis était de partir d'images tiff pour créer un djvu et faire un ocr. Or 1/ tu crée ton djvu avec DjvuToy puis 2/ tu applique ton script au fichier djvu. Quelle est la valeur ajoutée par rapport à la simple utilisation du script ocr-pl ? qui ajoute une couche texte à un fichier djvu existant ?

ElioPrrl (discussioncontributions)

Le script Perl part du DjVu, le décompose en TIFF, océrise les TIFF et inscrit cet OCR dans le DjVu. Je court-circuite juste la première étape, puisque je dispose déjà des TIFF. (mon prérequis était surtout de ne pas avoir à convertir le DjVu en PDF puis encore en DjVu)

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, je vois que tu avances à grands pas sur tome 3 de Buffon. Souhaites-tu continuer sur ce projet, et que je commence à préparer le tome 4 ? Si oui, cela demande pas mal de temps (redressage des pages etc. et vérification de l'OCR), et je préfère le faire tranquillement et avoir une visibilité pour poursuivre mes autres projets en parallèle. Si oui toujours, indiques-moi si tu as des préférences de découpage du volume ou bien s'il faut le laisser tel quel. Bien cordialement.

ElioPrrl (discussioncontributions)

Merci Cunegonde, mais le tome 4 a déjà été préparé... par toi-même ! Je pense finir le III avant de vraiment importer le IV sur Wikisource. Mais merci encore

Cunegonde1 (discussioncontributions)

Bon, je regrette de t'avoir importuné pour rien. Je pense avoir un "petit délai" avant de penser au tome 5 .

ElioPrrl (discussioncontributions)

Oh aucun problème !

ElioPrrl (discussioncontributions)

Malgré tous mes efforts (et pourtant à préparer en ce moment les fac-similés du domaine public 2022 je me suis pas mal amélioré), mes fac-similés sont toujours moins bons que les tiens, surtout en ce qui concerne la couche texte Je voulais importer les tomes suivants tout seul comme un grand, mais du coup, pourrais-tu importer le tome V des Œuvres complètes de Buffon ? Cette fois-ci, pas de division à faire ; et comme toujours, pas la peine de se casser la tête pour les planches. Je ne suis pas du tout pressé : je suis déjà bien pris dans la vraie vie, et je pense continuer quelque temps encore à préparer les fac-similés de 2022 Sourire tu peux donc faire passer avant la confection de tes prochaines relectures, par exemple. Merci beaucoup par avance !

Cunegonde1 (discussioncontributions)

Ok pour le tome 5 (j'avais déjà téléchargé les images de pages en prévision) je te préviendrai quand ce sera prêt. Pour la couche texte, il n'y a pas de miracle, Finereader (version de windows) permet d'éditer la couche texte et de la pré-corriger : il y a un outil qui surligne les caractères douteux. Et on peut aussi faire du rechercher/remplacer (mais malheureusement pas de regex) sur tout le livre avant sa création. La couche texte n'est bien sûr pas parfaite, mais elle est correcte. C'est ce que je fais pour mes imports "soignés". Pour les imports de revue à la chaîne, je ne le fait pas.

ElioPrrl (discussioncontributions)

Merci Cunegonde1 ! ! Il faudrait que je trouve un moyen déjà de passer mon Typos.js sur la couche texte avant import ; par contre je ne peux pas sans logiciel dédié repérer les caractères douteux, je pense.

Cunegonde1 (discussioncontributions)

Sur un djvu fait avec tesseract, tu peux éditer la couche texte avec la commande dvjvutoxml monfichier.djvu monfichier.xml, tu modifies ta couche texte comme tu veux. La syntaxe des coordonnées des mots est la suivante <WORD coords="903,138,954,97">TEST</WORD> qui correspond à <WORD coords="gauche,haut,droite,bas">TEST</WORD>. Puis pour réinsérer la couche texte modifiée : djvuxmlparser -o monfichier.djvu monfichier.xml (si il y a une faute de syntaxe il y a un message d'erreur indiquant la ou les lignes fautives.). Il ne semble pas possible de faire ça avec les fichiers issus de Finereader, ou je ne sais pas le faire. Par ailleurs, la qualité vient également du travail fait en amont avec scantailor (redressage, crop, gommage des pétouilles, etc).

Cunegonde1 (discussioncontributions)

Bonjour, @ElioPrrl je viens de mettre en ligne le fichier Livre:Buffon - Œuvres complètes, éd. Lanessan, 1884, tome V.djvu, car je voulais m'assurer avant de préparer la couche texte soignée qu'il n'y aurait pas de décalage de la couche texte par rapport aux images de page comme j'en ai rencontré avec les revues. Apparemment le problème se pose sans que je comprenne pourquoi pour des fichiers qui excèdent 500-600 pages quelle que soit la résolution choisie. Au cas présent j'ai de la chance il n'y a pas de décalage avec une résolution optimum de 600dpi. Pour minimiser le poids du fichier, j'ai mis les illustrations en noir et blanc, les préfères-tu en couleur ? j'ai de la marge le fichier pesant 42Mio. J'ai mis un bandeau pour indiquer de ne pas corriger avant mise en place de la version définitive.

ElioPrrl (discussioncontributions)

Les images importent peu, je les importerai en HD à la fin du projet. Et pour le décalage, je me souviens de ton message sur le Scriptorium, mais je ne crois pas avoir jamais eu ce problème, donc je ne saurai pas te dire que faire pour régler le problème Sourire

Cunegonde1 (discussioncontributions)

Buffon 5 Suite

Bonjour @ElioPrrl, ce petit mot pour dire que je n'ai pas perdu de vue le tome V de Buffon. Je continue d'y travailler, mais je ne peux le faire à temps plein (trop sollicitant pour la vue par rapport à d'autres travaux) plus projets personnels à avancer également. Je pens avoir terminé d'ici la fin du mois de février et te préviendrai. Si tu est pressé, je peux téléverser une version intermédiaire avec les 400 premières pages finalisées et les autres en friche. Préviens-moi si tu le souhaite. Si tu n'interviens qu sur les pages de début, cela ne devrait pas poser de problème particulier.

ElioPrrl (discussioncontributions)

Non non, prends ton temps, je ne suis pas pressé, et je suis moi-même bien pris par ailleurs. Merci pour tous tes efforts pour préparer ces scans avec tant de soin

Cunegonde1 (discussioncontributions)

Bonjour @ElioPrrl, je viens de terminer Livre:Buffon - Œuvres complètes, éd. Lanessan, 1884, tome V.djvu, j'ai fait une pré-correction à partir des caractères douteux signalés par Finereader ; une rectification des apostrophes, de l'espacement de la ponctuation et des scanilles les plus courantes. J'ai laissé les coquilles telles qu'elles sont dans le fac-similé. La tâche a été assez ardue car les pages du fac-similé original sont courbées, ce qui, même avec les lignes redressées par le logiciel, nuit à la qualité de reconnaissance. Pour finir, je te recommande la lecture page 580 de la description des mœurs de la pie, qui est particulièrement savoureuse. Bonne correction.

ElioPrrl (discussioncontributions)

Merci beaucoup, vraiment ! et un grand coup de chapeau

ElioPrrl (discussioncontributions)

Bonjour @Cunegonde1 ! Un après le tome V, je reviens te solliciter pour convertir le tome VI de Buffon et bénéficier de FineReader et de ta science ès corrections automatiques de scanilles. Comme toujours, pas la peine de réserver un traitement de faveur aux planches, ni de corriger les coquilles du fac-similé lui-même. Et surtout, ne te presse pas : fais passer tes projets personnels et tes priorités avant moi — car, comme Buffon lui-même, mon intérêt se perd un peu dans cette partie du livre, où les descriptions minutieuses ont remplacé les grandes hypothèses et les « vues du génie ». Encore merci !

P.-S. : Et à mon tour de te conseiller un extrait : les soins de la poule à ses poussins, aux deux derniers paragraphes de la page 302 (il faut lire vraiment la fin, en début de page 303, à la fois comique et attendrissante Sourire).

Cunegonde1 (discussioncontributions)

Bonjour @ElioPrrl. Ok pour pour le tome VI, ça va prendre un peu de temps, je te préviendrai quand ce sera prêt. Le passage de maman poule est sympa effectivement (mais n'y a-t-il pas un soupçon d'anthropomorphisme ?) Bonne continuation comme guru interfacique.

ElioPrrl (discussioncontributions)

Merci ! et comme je le disais, je ne suis pas pressé Sourire

Buffon sait rester froidement scientifique (il suffit de lire sa description du développement du fœtus de poulet puis des incubateurs, qui précède le passage en question), mais je trouve que son meilleur consiste justement en ces portraits moraux, totalement humanisés, dont le style est aussi divers que les animaux mêmes : la comparaison de la description du coq dans son sérail et de celle de la poule parmi ses poussins est à cet égard très éclairante. Un passage comme celui-ci fait toujours mouche chez moi : « Un bon coq est celui qui a du feu dans les yeux, de la fierté dans la démarche, de la liberté dans ses mouvements, et toutes les proportions qui annoncent la force ; un coq ainsi fait n’imprimerait pas la terreur à un lion, comme on l’a dit et écrit tant de fois, mais il inspirera de l’amour à un grand nombre de poules. » La phrase qui commence tout en noblesse (ne décrirait-il pas un chevalier ?) pour finir presque dans la trivialité (oui, mais un chevalier galant !), pour moi, quel charme ! je verrais presque dans ces passages du La Fontaine en prose — et que serait La Fontaine sans anthropomorphisme ! Clin d'œil

Cunegonde1 (discussioncontributions)

Bonjour @ElioPrrl Le tome VI de Buffon est prêt, j'ai fait une pré-correction des principales scanilles, et je n'ai pas pu m'empêcher de mettre les planches en couleur : Livre:Buffon - Œuvres complètes, éd. Lanessan, 1884, tome VI.djvu. Il faut reconnaître que les pages génériques pour chaque espèce avec noms et descriptions en français, latin, grec, allemand, anglais, italien, quelquefois espagnol sont pour le moins fastidieuses à pré-corriger et je le suppose également à corriger. Pour le grec, j'ai fait au mieux, vérifie notamment les diacritiques qui ne sont pas clairement lisibles sur le f-s et certaines ambiguïtés entre grec ancien et grec moderne. Je n'ai pas corrigé les coquilles, les corrections éventuelles sont automatiques et m'ont échappé. NB : J'ai vérifié que le f-s soit complet, c'est le cas, il y a un décalage de 10 vues au début auquel il faut ajouter 13 illustration +13 pages blanches, ce qui fait 36 vues de décalage par rapport au numéro de page, que l'on retrouve à la dernière page.

ElioPrrl (discussioncontributions)

Tu me mâches à tel point le travail que je ne sais comment te dire merci Clin d'œil Vraiment merci !

Cunegonde1 (discussioncontributions)

Je t'en prie, rendez-vous au tome 7... si toi et moi en avons le courage !

ElioPrrl (discussioncontributions)

Mince ! Je ne me rends compte de cela que maintenant, mais les pages et la couche texte du tome VI sont décalées. Le décalage intervient à partir de la page 282 exactement. Je voulais commencer par la TdM, mais je vais commencer le correction par les pages de début. Je sais que tu as déjà eu ce problème, mais je crois que tu ne sais toujours pas le résoudre. À moins que ça ait changé depuis tes derniers appels sur le Scriptorium ?

Cunegonde1 (discussioncontributions)

Notification ElioPrrl :Ouh la, là ! ça m'embête fortement, car la solution que j'utilise pour réparer implique de refaire un scan avec Tesseract au lieu d’Abby, soit presque un mois de pré-correction à raison de deux heures par jour mis à la poubelle. Je vais essayer de voir en changeant un paramètre d'export d'Abbyy si ça change quelque chose, ne touche plus à rien avant que je te donne un nouveau feu vert.[edit] je viens de refaire un téléversement avec un exemplaire intégralement en noir et blanc, et il n'y a pas de changement. J'attends demain matin, car quelquefois il faut du temps pour arriver à vider le cache. Si cela ne fonctionne pas, je ne sais pas corriger le décalage, d'autant plus qu'il n'est pas régulier (282, 1 page ; 439, 3 pages, etc.) Je ne qui peut réparer un décalage irrégulier. Je vais préparer une version avec Tesseract (mais ce sera sans pré-correction). Je la téléverserai s'il n'y a pas d'autre solution. J'avais écrit à abbyy pour ce problème et ils m'ont répondu que ça ne dépendait pas d'eux et je n'ai plus eu ce problème depuis un moment.

ElioPrrl (discussioncontributions)

Si tu y arrives, super, sinon je pensais à contacter Lepticed pour demander à son bot de rosir automatiquement les pages, puis de les décaler. Je préfère garder la version précorrigée, parce que, vraiment, elle économise beaucoup de temps Clin d'œil

Cunegonde1 (discussioncontributions)

Notification ElioPrrl : Ok j'ai fait une nouvelle version abbyy avec un autre paramètre, je l'essaierai demain s'il n'y a pas d'amélioration avec la version que j'ai téléversé tout à l'heure. Je précise qu'évidemment, je vérifie toujours l'absence de décalage avant import. C'est donc l'outil de Commons qui ne comprends pas certain paramètres du fichier.

J'ai une idée : Je peux faire un match et split avec la couche texte, et quelque soit l'ordre du match ou même si j'ai un no match à partir de la 282 ce n'est pas grave, car je peux splitter les pages dans l'ordre que je veux. Qu'en penses-tu ? Ça sera un peu pénible, mais moins que de tout décaler à la main.

ElioPrrl (discussioncontributions)

Oui, bonne idée !

Cunegonde1 (discussioncontributions)

Notification ElioPrrl : Voilà c'est Fait , j'ai splitté les pages pré-corrigées à leur place correcte. J'ai commencé à 280, car apparemment c'était inutile avant. Je suis fort soulagé·e Clin d'œil de ne pas avoir fait pour rien les jours de travail de pré-correction. Bon évidemment cela contrevient salement au presque consensus récent sur le fait de ne pas rosir en masse les pages d'un fac-similé Mort de rire. Ce qui est contrariant c'est ce bug d’abbyy qui n'est pas reconnu par eux. Quand j'essaie d'extraire la couche xml, j'ai une erreur :djvutoxml test.djvu test.xml*** [1-10100] La structure du calque de texte est endommagée. *** (DjVuText.cpp:287) *** 'void DJVU::DjVuTXT::Zone::decode(const DJVU::GP<DJVU::ByteStream>&, int, const DJVU::DjVuTXT::Zone*, const DJVU::DjVuTXT::Zone*)'

D'après ce que je comprends, ce doit être la page cachée de description des pages qui bugue. D’habitude, je ne m'en rends pas forcément compte, car je splitte toujours les livre que j'importe pour moi, et pour les imports pour Le ciel, par sécurité sur ce plan, je les fait avec Tesseract.


Bon courage pour la correction, soit vigilant sur le grec, les diacritiques sont peu lisibles. Pour le latin il y a une bizarrerie ? une grande partie des mot qui se termine en "a" se termine avec un "â" : tæniâ ponè oculos fuscâ ; rectricibus binis utrimque extimis interiùs maculâ.

ElioPrrl (discussioncontributions)

Merci beaucoup ! Maintenant que tu as une description précise du bug, et que cela semble bien venir de ABBYY, peut-être que tu pourras revenir vers eux ?

Pour le grec, de toute façon même dans la première édition les accents sont souvent fautis : je vais donc toujours vérifier dans le dictionnaire. Pour le latin, les accents sont là pour distinguer les ablatifs : rosa rosa rosam rosæ rosæ rosâ. De même, il y a des accents graves sur cùm conjonction mais pas sur cum préposition, ainsi que sur la dernière syllabe de certains adverbes (temerè, diù). Du reste, dans les deux ou trois premiers tomes, avant que je ne comprenne ces règles, je mettais les accents circonflexes pour les graves et inversement ; il faudra que je le corrige un jour.

Cunegonde1 (discussioncontributions)

Pour aller vers Abbyy, j'hésite un peu en ce moment, d'autant qu'ils sont plutôt embêtant, j'avais pas mal galéré, je leur avais transmis un fichier problématique et ils n'ont pas reconnu la reproductibilité du problème. Effectivement cela n'arrive que sur les très gros livres, et de façon aléatoire, je n'ai jamais compris pourquoi. Pour le prochain Buffon, je vérifierai avant la pré-correction.

Pour le latin, ouh là là, c'est vraiment vieux pour moi tout ça ! Pour le grec et le russe, je peux encore les lire, mais ne les comprends plus !... Eh oui, il n'y a pas que des jeunes sur wikisource.

Répondre à « Oeuvres complètes de Buffon »