Sujet sur Wikisource:Forum des nouveaux

Misc (discussioncontributions)

Bonjour,


je voudrais transcrire un document venant de Gallica, en l’occurrence https://gallica.bnf.fr/ark:/12148/bpt6k5425403p/f8.item.r=Contribution%20%C3%A0%20l'%C3%A9tude%20de%20la%20descendance%20des%20invertis#

J'ai tenté d'utiliser le script gallica.py, mais il semble que soit l'API a changé, soit elle ne marche pas sur ce fichier (erreur 500, donc peut être aussi Gallica en rade, et je doute que ça se corrige par magie un weekend). Je suis capable de coder en python, donc corriger n'est pas un souci si c'est l'API, mais avant d'aller tel Alice dans un terrier de lapin, j'aimerais savoir si le PDF que produit Gallica est utilisable pour wikisource. J'ai le fichier, les images sont corrects, mais la notice du début du fichier semble dire que le fichier n'est pas sous une licence correcte (eg, pas d'utilisation commercial), alors que Gallica dit "domaine publique", et que l'auteur est mort il y a 95 ans.

Si j'uploade le fichier, est ce qu'il faut que je retire les 2 premiéres pages, ou au contraire, il faut les garder ?

Misc (discussioncontributions)

Bon je me réponds à moi même, je me suis planté dans l'identifiant pour Gallica, ç'est pour ça que le script ne marche pas. Ceci dit, ma question sur l'usage du PDF est toujours valable :)

ElioPrrl (discussioncontributions)

Bonjour Misc !

Pour les fichiers issus de Gallica, il est recommandé de les convertir en DjVu et de supprimer les pages stipulant les conditions de réutilisation du fichier. La conversion en DjVu permet surtout de diminuer le poids des fichiers, de prévenir certains problèmes de sécurité et de faciliter pour les autres utilisateurs la modification (les logiciels permettant de modifier les DjVu étant bien plus souvent libres et gratuits que ceux pour PDF).

Misc (discussioncontributions)

Ok, et du coup, je doit faire l'OCR moi même (enfin, utiliser un logiciel) et incorporé ça dans le fichier DjVu ?

ElioPrrl (discussioncontributions)

Il existe des logiciels de conversion qui conservent la couche texte du PDF à convertir, ou bien on peut fabriquer le DjVu à partir des images (en TIFF ou JPG) de Gallica et océriser le résultat soi-même. Après, pour 18 pages seulement, on peut même océriser page par page une fois le fichier téléversé dans Commons, grâce au nouvel outil pour OCR incorporé dans le mode Page:.

Misc (discussioncontributions)

Ok, et je suppose que l'outil en question s'appuie sur Tesseract ou d'autres outils libres, et qu'il y a aucun risque que je trouve un truc plus performant chez moi sauf à aller sur des outils payants ?

ElioPrrl (discussioncontributions)

Tesseract ou Google Clin d'œil

Répondre à « PDF de Gallica »