Sujet sur Wikisource:Forum des nouveaux

Transcription automatique des pages lors de leur création

7
Susuman77 (discussioncontributions)

Bonjour,

Je contribue activement depuis plusieurs mois, surtout pour transcrire ou corriger des oeuvres de Stendhal à partir des fac-similés de Gallica de l'édition Martineau. Aujourd'hui, j'ai décidé de passer à l'étape suivante en important un fichier djvu manquant jusqu'alors (le tome III de Rome, Naples et Florence, toujours à partir d'un pdf téléchargé depuis Gallica. J'espère m'y être pris correctement, et tout a l'air de marcher, j'ai donc commencé la transcription des pages. C'est là qu'un problème est apparu auquel je n'ai pas trouvé de réponse dans l'aide ou le scriptorium : la transcription du fac-similé ne se fait pas automatiquement lors de la création d'une nouvelle page. Il y a certes le bouton "transcrire le texte", mais je remarque que le formatage est bien moins abouti que ce que j'obtenais automatiquement sur les ouvrages auxquels je travaillais jusqu'alors ; notamment, les mots coupés par des tirets d'une ligne sur l'autre ne sont pas rattachés. Quelqu'un pourrait-il m'indiquer d'où pourrait venir ce problème, et comment je pourrais éventuellement y remédier ? Merci beaucoup par avance !

Le ciel est par dessus le toit (discussioncontributions)

bonjour, c’est parce que le fichier n’a pas de couche OCR, je ping @Cunegonde1 pour qu’il refasse le fichier. il vous informera quand ce sera fait (Merci à lui) Avez-vous activer le gadget "baguette magique" dans onglet "préférence" section "Edition" et cocher la case : "Gadget généraliste d’aide à la création, la typographie et la mise en page dans l’espace de nom Page. Automatique à la création d'une page, il peut être lancé par ailleurs à partir du bouton " Ce qui devrait simplifier déjà une partie de votre travail. Bonne continuation !

Susuman77 (discussioncontributions)

Merci beaucoup pour l'explication! Je comprends mieux, hélas le faire moi-même semble dépasser mes compétences techniques, je serai donc extrêmement reconnaissant si @Cunegonde1 peut le faire à ma place, quitte à potasser ensuite... En tout cas, le gadget généraliste est déjà bien activé, de même que le bouton T.

Cunegonde1 (discussioncontributions)

Bonsoir, @Susuman77, je m'en occuperai demain. Par contre, il est d'usage de supprimer les pages Gallica ou Google ou autres en début de livre. Dans ce cas, je ne pourrais pas le faire car il faut faire cette opération avant l'import initial, sous peine de décaler les pages déjà corrigées. J'en profiterai également, avant de faire l'OCR, pour rogner les marges excessivement importantes, qui nuisent à visualisation correcte du livre lors la correction.

Cunegonde1 (discussioncontributions)

Notification Susuman77 :, c'est fait, j'ai rogné les pages et fait un OCR avec Tesseract. Il faut purger le livre (onglet en haut à droite "plus" puis "purger", ou inscrire ?action=purge à la fin de l'url de la page index) pour voir la différence. Bonne correction.

PS : j'ai remarqué que le f-s de commons que tu as importé "pèse" 82,7Mb avec une résolution de 300dpi alors que le pdf initial de Gallica pèse 6,5Mb, pour la même résolution : ton outil de conversion est sans doute mal paramétré. Mon f-s, fait à partir des images source de Gallica et pas du pdf, pèse 7,2Mb avec une résolution de 600dpi.

Susuman77 (discussioncontributions)

Merci infiniment !!! J'ai bien noté pour la prochaine fois de supprimer les pages Gallica et j'essaierai de faire l'OCR moi-même, avec un fichier plus léger. Si j'ai du mal, je m'adresserai à vous si vous le voulez bien... Merci encore et bon été !

Cunegonde1 (discussioncontributions)

Bien évidemment je peux partager mes "trucs", qui sont également disponibles sur ma page perso.

Répondre à « Transcription automatique des pages lors de leur création »