Aller au contenu

Sujet sur Discussion utilisateur:Cunegonde1

Rafavannay (discussioncontributions)

Bonjour, j'espère pas te prendre trop de temps avec cette question mais c'est vrai que tu fais du super job avec la préparation de fac-similé et je me demandais vraiment comment tu arrivais à de tels résultats. Je viens de voir la réponse que tu as fait hier à Étienne M mais j'ai pas eu le temps de la tester de mon côté.

Avant ça j'ai essayé d'autres méthodes pour un ouvrage que j'ai récupéré d'Internet Archive : Raphaël de Romain Coolus. J'ai premièrement essayé de faire une façon que tu avais donné dans le scriptorium : j'ai téléchargé le pdf de IA, l'ai océrisé avec ocrmypdf et ensuite j'ai transformé le tout en djvu avec pdf2djvu. Le seul hic, c'est que la qualité de l'OCR reste à désirer.... (notamment les "t" qu'il remplace par des "r") Je sais pas comment tu fais pour améliorer sa qualité...

Sinon, j'ai tenté de suivre le guide de SyB~Anicium : j'ai transformé le pdf en jpgs, j'ai utilisé scantailor pour recadrer les images et avec DjvuToy j'ai reconstruit le fichier djvu. Le problème : la qualité était horrible (tout était flou et illisible) alors que j'avais gardé 600 de dpi et le paramètre colors pour l'output.

Voilà, c'est pour ça que je voulais savoir si tu arrivais à un peu mieux m'éclairer sur comment faire pour améliorer mon travail de préparation de fac-similé pour éviter à avoir toujours à solliciter ton aide à l'avenir Sourire

P. S. : je me rappelle aussi que tu avais parlé de cette ligne pour transformer les pdf en djvu pdf2djvu -o outputfile.djvu -j0 --fg-colors=black --dpi=300 --lines inputfile.pdf Pourtant, quand je l'ai utilisé, mon djvu était quadrillé avec des lignes noires.... J'ai retiré les éléments --fg-colors=black et --lines pour obtenir un djvu "normal". Tu sais pourquoi c'est arrivé ?

Cunegonde1 (discussioncontributions)

Bonjour @Rafavannay, je n'utilise pas DjvuToy pour créer les djvu (j'ai essayé et les résultats ne me satisfaisaient pas). Je fais cela soit avec la ligne de commande ci-dessus, mais moi j'ai le problème du quadrillage quand j'utilise le paramètre --monocolor a tester aussi différentes résolutions j'utilise en général soit 600dpi soit 300dpi. Les méthodes que j'utilise sont diverses et je les adapte en fonction du contexte. Pour les fichiers très soignés, j'utilise Abbyy-Finereader qui permet de définir finement les zones de reconnaissance, je l'ai dressé pour les textes du XVIIIe siècle avec s longs et j'édite la couche texte dont je corrige les caractères que le logiciel reconnaît comme douteux (cela prend évidemment du temps), puis je vérifie une série de scanilles connues. Sinon avec tesseract, quand je veux faire un travail soigné, j'édite le fichier xml issu du DjVu (commande djvutoxml MonFichier.djvu MonFichier.xml Je le corrige avec une série de regex reprenant la plupart des scanilles connues, je vérifie l'orthographe (le tout en évitant d'abîmer la structure du fichier) et une fois cela terminé, je réinjecte la couche texte avec la commande djvuxmlparser -o MonFichier.djvu MonFichier.xml. Il peut y avoir une erreur et le script indique la ligne où elle se trouve ce qui permet de la rectifier. Toutes ces opérations prennent beaucoup de temps, c'est pourquoi je ne le fais pas sur les revues qui comprennent des milliers de page.

Rafavannay (discussioncontributions)

Merci Merci ! @Cunegonde1 de ta réponse. J'avais toutefois deux questions qui en découlent : quand je vais sur leur site, Abbyy-Finereader demande de payer pour avoir leur license et les seules offres gratuites sont des démos de quelques jours... As-tu payé la license ou as-tu trouvé une autre version en ligne ?

Sinon, c'est vrai que je n'avais jamais entendu parler de regex avant aujourd'hui et j'ai été voir sur le scriptorium les discussions où vous en parliez mais à vrai dire c'est assez difficile à lire pour moi pour l'instant (va falloir que je prenne la main !) Comment est-ce que ça s'utilise concrétement ? Tu l'utilises comme un mémo des scanilles fréquentes que tu vérifies manuellement ou est-ce que tu peux la mettre dans un programme qui vérifie tout seul ? (et je pense que tu as fait toi-même ton regex, ou alors il y en a déjà un que je peux prendre comme modèle ?)

Merci encore de tes conseils, c'est vraiment très intéressant et informatif !!!

Cunegonde1 (discussioncontributions)

@Rafavannay Pour les regex, c'est un langage totalement abscons dont l’apprentissage n'est pas si difficile si on est patient, j'ai démarré avec ce tutoriel. Celle que j'utilise cherche pas mal de scanilles il faut la copier dans le champ de recherche d'un éditeur de texte en précisant que c'est une expression régulière :

(\>| |-)(VÉ|\//|àla|ime|a (celle|cette|ne|[mts]on|[nv]os|leurs?|part|([a-zà-ÿ]+er)|([a-zà-ÿ]+re)|([a-zà-ÿ]+ire?))|(11)(?! (janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre))|1[aeul]|afli|ail|([a-zà-ÿ]+ail)((?<!travail|sérail|détail))|(?<![Uu]n |deux |trois |quatre |cinq |six |sept |huit |neuf |dix |onze |douze |treize |quatorze |quinze |seize |cent |mille |par )ans?|aide|arec|aorte|atout|au(dessus|dessous|del[aà])|[Aa]pres|(\s|l’)antre|aue|avals|aveo|Get?|ayec|bâter|bâta|bâtes?|bâtent|bêles?|boite|bottes?|on effet|c[’']a|ca|chaine|déchaine|cardan|carie|celai|[Gg]ela|[Cc]elte|([Cc]elle)(?!( à| du| d’| de| dont| où| qu[ei]| qu’|-ci|-là|-la))|[Cc]ette(-ci|-l[aà]| de| du| qu[ei])|cl|[Cc]lames?|clans|clic|cloutes?|clouter|co|cola|[Cc]onnue|cote|coté|cotte|da|daines?|dés?|(?<![Aa]u |[Aa]u-)del[aà]|déplus|de[39]|dévoient|do|dont ou|(?<!du |le |leur |mon |ton |son )dos(?! à)|dune|dupassé|ea|([Ii]l|[Ee]lle) écoulait|([Ee]h)(?!( bien| donc| quoi| non| oui| que| |,|\!))|[Ee]lé?|[Éé]liez|échiné|éludes?|(?<![DLMCSdlmsc]es |[Nn]os |[Uu]ne |[MSTmst]on |[Cc]ette |[Qq]elques |[Ll]eurs )études?|enl|en roule|entant|esi|épouvantait|estce|étalent|é[lt]alt?|étes|([Ee]u) ((proie|effet|hiver|automne|terre|général|route|marche|est|[a-zà-ÿ]+ant)|[A-ZÉÈ])|évoque|Fart|Fauteur|fat?|faîte|fdle?|fiançais|f[ïî]t|(?<!le |ce |un )fil|Fo|foire|fondions|foret|fouie|fols|fout (([a-zà-ÿ]+er|[a-zà-ÿ]+re|[a-zà-ÿ]+ire?))|([Ii]l|[Ee]lle|[Oo]n) fui|Ggela|foutes|je tous|gène|glus|[Gg]omme|[Gg]omment|gu[ei]|Hais|heu|honnète|I('|’)|I[89]|[Ii]i|ilua|im|incuite|([Cc]e|[Ll]e|[ad]u|[Uu]n) inonde|jo('|’)|l('|’)aire|l('|’)eut|lâcheuses?|ajoure|lactique|lai|lait|lait(s|es?)|lapis|([Pp]lus|trop) lard|lard|laveur|lavu|lemmes?|l[éè]s?|lésa|le[39]|(?<!me |il | elle |te |se |le |on |lui |les |nous |et |qui |vous |la |s['’]y |une )lie|eu lien|lien(?!( de))|lient|lièvres?|ligures?|ll|([Aa]u|eu|donné|[Ll]e) [Hh]eu|([Uu]ne|[Ss]ans|[La]) lin|([Uu]ne|[Cc]ette|première|dernière|la) lois|lous|luf|(?<!la |une )lune|maia|ma[ït]s|malin|médian|[Mm]ème|mil|mimes|mo[lru]|môme|motie|moulons?|moyeu|ni[ae]|niasse|niais|npu|(?<![[Jj]e |[Tt]u |[Ii]l |[On]n |[Ee]lle |[Vv]ous |[DMTSdmtsl]e )nomme[sr]?|onl|oti|ôtes-vous|ôtes|O/O|on (avant|arrière|ce|ces)|[PFT]onde|[Aa]vec on|([Qq]uand|dont) ou|Pair|[Pp]ais|parait|parce (temps|moyen|biais)|par exempte|(?<!ne )(parle)(?!( ainsi| avec| dans| de| du| au| d’| pas| comme| donc| lui| pour| l[ae]|,| |\.))|paries?|Pavons|perle|peul|pins|Po|pondant|prés?|prèle|profil(é|er|a|èrent)|pue|Qh|[Qq]uanta|qni|[Qq]uelles? (?!que|qu’elles?|[a-zà-ÿ]+ance|[a-zà-ÿ]+ence|[a-zà-ÿ]+esse|[a-zà-ÿ]+eur|[a-zà-ÿ]+euse|[a-zà-ÿ]+ité|[a-zà-ÿ]+tion|[a-zà-ÿ]+iere?|[a-zà-ÿ]+ier)|[Qq]uelquil|raffaire|raill(e|ion|ions)|relira(it|is)|rembarras|à rencontre|rendezvous|rengagement|(à|de) rentrée|retendue|rétablissement|renti|rho|rie|rivai|rl|roules?|(r|R)rouie|saris|soldais?|sons l[ae]|[Ss]ou|sc|scs|sdr|se mil|tais-loi|Tan|Tannée|taudis que|ternies?|tète|tilles?|tf|Tl|tn|tins?|Ton|[Tt]ontes?|[Tt]onte|tout à lait|toule?|Tordre|[Tt]une|(?<!dét|trav|Trav)ail|[uù]|U[st]|Eu|v|[Vv]oila|vêlements?|(je|tu|ne) yeux|1’(\p{L}+))( |\s|\.|,|…|-| \?| :|\<)

J'en utilise également d'autres en complément, plus spécialisées par exemple pour les textes du 18e siècle, etc.

A copier telle quelle, ne surtout pas enlever les espaces.

Cunegonde1 (discussioncontributions)

J'ai la version 15 pour windows que j'ai payé fort cher je crois que c'était 300€ à l'époque.

Rafavannay (discussioncontributions)

Ah oui.... tu le voulais ce programme Mort de rire (et merci pour le regex !)

Répondre à « Comment tu fais ? »