Sujet sur Discussion utilisateur:SyB~Anicium/Structured Discussions Archive 1

Des livres anciens, à importer avec ocr, si possible

7
Résumé par SyB~Anicium

Import ok !

Hsarrazin (discussioncontributions)

Salut @SyB~Anicium,

@Etienne_M, un nouveau contributeur qui fait des recherches sur les méthodes éducatives du 18e siècle, voudrait mettre en ligne des ouvrages de cette époque.

Penses-tu pouvoir obtenir un ocr décent de Google et d'autres ouvrages de la même période ? si oui, ça serait sympa de commencer par celui-ci, et de voir ensuite directement avec lui pour les ouvrages suivants... (il y a une jolie liste sur sa page perso, mais pas tous en même temps, j'espère)

sinon, je mettrai directement en ligne les pdf, mais ça supposera plus de travail de correction...

Merci pour ton aide

SyB~Anicium (discussioncontributions)

Sacré projet !

(Je me demande si cet utilisateur n'est pas aussi fou que moi avec mes bouquins en latin et en grec à présent !)

Je regarde dans les jours à venir ce que je peux tirer de l'ouvrage que tu cites.

Je ne toucherai sans doute pas aux marges cette fois-ci, déjà c'est un bon point. L'OCR avait donné d'assez bons résultats dans mes tests sur la Gallia Christiana avec les s longs, il suffit juste d'en donner quelques exemples au logiciel. Reste à voir si la qualité de cet exemplaire est suffisante ; sais-tu s'il est également sur HathiTrust ?

Hsarrazin (discussioncontributions)
SyB~Anicium (discussioncontributions)
Hsarrazin (discussioncontributions)

merci , je préviens Etienne_M : pour qu'il puisse travailler dessus quand il voudra...

SyB~Anicium (discussioncontributions)

La qualité de l'OCR est très variable ; j'ai réussi à bien paramétrer la bête sur quelques pages, mais le logiciel a été rapidement bloqué par un souci de résolution dont je n'ai pas trouvé la source... Résultat : les S longs faciles à repérer, les "ct" et autres ligatures ont été zappées. J'ai fait du rechercher/remplacer un peu brutal, mais si @Ernest-Mtl ou toi voulez tenter un M&S, ça peut peut-être coller... À noter : ce bouquin en compile deux, ou en tout cas dispose d'une sous-partie qui ressemble fort à un livre séparé. Je n'ai pas osé les séparer mais c'est peut-être une question à se poser !

Hsarrazin (discussioncontributions)

on pourra toujours publier séparément les 2 textes reliés en un seul.

Merci pour ton travail sur l'OCR : sur les textes anciens c'est toujours très délicat...