Discussion utilisateur:SyB~Anicium

Aller à la navigation Aller à la recherche

À propos de ce flux de discussion

Thucydide 2000 (discussioncontributions)

Bonjour,

je m'adresse à vous en tant qu'initiateur du projet de versement de la Gallia christiana sur Wikisource et Vicifons. J'ai procédé à la mise en page et relectures des premières pages du diocèse d'Albi et j'aurais aimé avoir votre avis sur le rendu.

Merci beaucoup d'avoir entrepris ce beau projet !

Bien cordialement.

SyB~Anicium (discussioncontributions)

Bonjour !

Je suis ravi de voir que ce projet absolument fou peut intéresser d'autres contributeurs :)

Ces pages sont très bien composées ! Je vois que tu as même repris le système des lettres entre les deux colonnes, donc c'est absolument fidèle, et le plus gros du travail est fait ! Après, tout est question de choix éditorial...


À vrai dire, j'ai beaucoup tâtonné pour trouver "une" bonne solution (ou la moins pire ?) sur le rendu des pages, et voici mon opinion toute personnelle :

- dans un premier temps j'ai été moi aussi tenté de conserver la présentation en colonnes originale, qui serait la plus fidèle si l'on voulait faire du page par page, sous la forme d'un fac-similé imitant à la perfection l'ouvrage. Comme tu l'as fait.

- mais la logique de Wikisource (avec la "transclusion") voudrait plutôt que le contenu prime et puisse s'afficher de manière moderne sur tout support numérique pour lui offrir un nouveau potentiel, qu'il n'avait pas au XVIIIe siècle.

En bref : je pense que la transclusion de pages formatées chacune en deux colonnes va nous empêcher d'obtenir une version numérique plein texte où l'on peut à loisir monter et descendre. C'est très bien dans un premier temps lors de la correction, mais l'objectif reste, en tout cas je le crois, d'obtenir des articles (diocèse par diocèse) sans rupture. Voir l'exemple du diocèse du Puy dans le Tome 2 :)

Si l'on regarde la transclusion du diocèse d'Albi, on voit que les colonnes s'opposent à un affichage vertical typique de notre monde numérique : Diocèse d'Albi.

Heureusement, il reste une 3e voie qui pourrait nous mettre d'accord et aboutir à une version uniforme tout en respectant deux choix de correction : l'utilisation de balises Includeonly et Noinclude, pour que les colonnes s'affichent quand on est en mode Page, et qu'elles fusionnent comme il faut lorsqu'on décide de lire l'article complet. J'attends ton avis et je t'adresse tous mes encouragements à continuer ; quel que soit le mode d'édition final, ce qui compte c'est avant tout d'éliminer les coquilles et d'avoir un texte propre. On peut tout faire ensuite !

J'espère que nous aurons l'occasion d'échanger, et que nos réflexions mutuelles enrichiront ce projet !



Thucydide 2000 (discussioncontributions)

Bonjour,

Merci infiniment pour votre retour et vos remarques très pertinentes !

J'avais en effet remarqué ce problème de compatibilité entre les différents modes. Vous me confirmez qu'il sera difficile à résoudre si l'on garde la structure en colonnes, ce que je supposais.

Je vous remercie vivement d'apporter cette troisième voie qui me semble de loin la plus satisfaisante : il serait dommage, à mon sens, de gommer complètement la disposition éditoriale originelle alors qu'elle a été reprise dans les tomes publiés au XIXe siècle, sans doute pour conserver une identité visuelle à la collection.

Il ne me reste plus qu'à apprendre à maîtriser ces commandes que vous évoquez. ;) Quoi qu'il en soit, vu l'ampleur de la tâche et le temps qu'elle prendra, l'on peut se permettre quelques expérimentations, quitte à revenir en arrière par la suite.

Très cordialement !

SyB~Anicium (discussioncontributions)

Voilà, j'ai apporté quelques modifications à la première page, à l'aide des deux balises évoquées plus haut. Cela ne perturbe pas, me semble-t-il, l'affichage souhaité en mode Page (voir ici), tandis que l'article complet aura l'apparence d'une page Web classique, sans rupture :)

À noter quand même que ce travail est chronophage et ne pourra peut-être pas tout résoudre... Il faut par exemple tenir compte de la césure des mots entre deux colonnes, et réfléchir à chaque fois à ce que l'on veut conserver dans la version complète. Pour les lettres capitales placées entre les deux colonnes, je doute même de leur utilité comme repères. Réflexion en cours, il ne faut pas hésiter à aller observer le fonctionnement de ces deux balises très intéressantes ! Amitiés.

Thucydide 2000 (discussioncontributions)

C'est parfait ainsi ! Je suis très impressionné par le rendu ! Merci beaucoup !

Je ne sais pas ce que vous en pensez mais il me semble vraiment que ce soit la meilleure solution, même si elle rajoute un peu de travail. On obtient ainsi une version très fidèle, presqu'un fac-simile, tout en en ayant une beaucoup plus exploitable.

Je suis d'accord avec vous pour les lettres inter-colonnes, d'autant que lorsqu'on cite la Gallia christiana, on ne se réfère qu'aux colonnes. Je crois néanmoins qu'il faut les garder dans le mode page, toujours dans une perspective de fidélité à la source. Après, peut-être suis-je en train de me tromper en pensant qu'il faille "transcrire" presque servilement.

Très cordialement !

Répondre à « Gallia christiana Tome I »
Hsarrazin (discussioncontributions)

Bonjour,

Aurais-tu, stp, la gentillesse de m'importer Gallica, qui est une des premières publications (partielle) en français du Manuscrit trouvé à Saragosse (trad. Nodier) ?

Merci pour ton aide :)

SyB~Anicium (discussioncontributions)

salut ! Je devrais pouvoir y jeter un oeil ce soir...

Hsarrazin (discussioncontributions)

merci

SyB~Anicium (discussioncontributions)

Hop !

Par contre, j'ai vraiment fait la description du fichier en 4 secondes, pourrais-tu compléter sur Commons avant qu'un deleteur fou n'y passe dessus ?

Hsarrazin (discussioncontributions)

Super ! Merci !... c'est fait pour la description... j'ai un petit script qui passe en modèle "Book" et facilite le ménage :)

Je pense que ça va être sympa à corriger... Il y aura 2 autres à importer plus tard... toujours des extraits, mais d'autres... merci

SyB~Anicium (discussioncontributions)

Bien vu le script ! Je savais que tu éditerais plus vite que ton ombre :) L'OCR m'a l'air pas mal, et puis j'ai fait l'effort de recouper les marges (mais j'espère ne pas être allé trop loin cette fois-ci).

Rendez-vous au prochain import, je cours répondre sur l'histoire des catégories.

Hsarrazin (discussioncontributions)

Le texte a l'air nickel ! il est vrai que c'est une impression de chez Jacob à Versailles (imprimeur es débats des Etats généraux, et tout et tout...). Les caractères sont bien lisibles, et l'ocr et quasi impec'

ça va être un vrai régal...

SyB~Anicium (discussioncontributions)

Naaaan vous avez été trop vite pour la correction ! J'imagine que d'autres volumes ne vont pas tarder à être commandés ? ^^

Hsarrazin (discussioncontributions)

Désolée... les pages sont très courtes, et l'ocr impeccable... donc la relecture se fait facile... et en plus y'a d'autres contributeurs qui sont venus aider...

Sinon... y'a "Avadoro, histoire espagnole" en 4 tomes, reliés en 2 volumes : Gallica et Gallica... - publiés avant en 1813 que je n'avais pas l'intention de te demander avant mai ... c'est pas vraiment la suite, tout en étant des journées ultérieures du Manuscrit trouvé à Saragosse...

ça sera tout pour cette oeuvre, car le reste est resté inédit jusqu'en 1958...

Merci pour ton aide :) - et prends ton temps... y'a pas urgence...

Hsarrazin (discussioncontributions)

si tu avais un petit moment pour importer les 2 volumes ci-dessus pour compléter le manuscrit trouvé à Saragosse, ça serait très sympa :)

SyB~Anicium (discussioncontributions)
Répondre à « Un petit import, stp ? »
Hsarrazin (discussioncontributions)

Je me suis livrée à un essai d'import depuis Gallica, mais leurs bordures blanches sont rédhibitoires... et j'avais cru le livre océrisé, mais ça n'est pas le cas...

peux-tu améliorer ce bien pauvre fichier pour moi, stp ? (si tu as un peu de temps, sinon, tant pis...) Sourire

PS - y'a pas urgence...

SyB~Anicium (discussioncontributions)

Coucou Hsarrazin, je note ça dans un coin, si j'ai le temps ce mois-ci ;) Aucune garantie car je suis très pris et qu'il faudrait reprendre les fichiers image pour bien faire !

À très bientôt !

Hsarrazin (discussioncontributions)

oui, c'est pour ça que je t'appelle à l'aide ;)

merci de faire quand tu pourras...

SyB~Anicium (discussioncontributions)
Hsarrazin (discussioncontributions)

malheureusement, les éditions en français de Rossetti ne sont pas faciles à trouver... on prend ce qu'on trouve

un gros GROS merci ! - j'ai fait la substitution sur Commons...

et très bonne année à toi ! j'espère que 2020 t'apporteras plein de bonnes choses, dont la santé, le bonheur, et de magnifiques découvertes sur wikisource Sourire

SyB~Anicium (discussioncontributions)

Merci ! Très belle année à toi aussi ;)

Istimirantstella (discussioncontributions)

Bonjour SyB !

Suite à notre discussion dans le Scriptorium en février (Transclusion d'un œuvre bilingue), j'ai terminé la validation de "De la vie Heureuse" et j'aurais besoin de toi :

  1. pour valider la page 105 (Livre:Sénèque - De la vie heureuse.djvu) car suite aux essais de formatage sur cette page le résultat était au final imparfait (écart entre lignes, longueur de colonne), du coup j'ai repris le formatage à l'identique des autres pages.
  2. tu m'avais indiqué que le livre en plein texte français n'était pas issu d'une transclusion mais d'un montage manuel ; j'ai regardé l'aide des débutants mais je trouve la méthode compliquée pour transclure le livre, aujourd'hui quasiment validé. Peux-tu m'aider à le faire ? En corollaire, que doit-on faire de cette page rajoutée manuellement puisqu'elle ne sera plus rattachée à l'oeuvre après la transclusion ?
  3. En travaillant sur les deux espaces Wikisource et Vicifons, le texte latin () qui a bien été corrigé puis validé, se retrouve aujourd'hui seulement corrigé dans Vicifons, après déplacement. Penses-tu que je peux demander à quelqu'un (je ne maîtrise pas encore les différents rôles) sur Vicifons de valider le texte puisqu'il a bien été corrigé puis validé dans Wikisource ?

Merci d'avance ! et au plaisir d'échanger !

SyB~Anicium (discussioncontributions)

Salut !

Beau travail

Ok pour la page 105.

Je regarde pour la transclusion demain, je pense créer une page générale qui renverra 1) vers la version juxtalinéaire ; 2) vers une transclusion de la traduction correcte (qui apparaît une page sur deux ici).

C'est normal que les pages n'apparaissent pas validées sur Vicifons, les projets ne s'interrogent pas mutuellement sur l'état de leur correction. On pourrait valider mais j'ai quelques scrupules : autant les pages latin en haut et français en bas peuvent faire l'objet d'une transclusion impeccable ici comme là-bas, autant les pages en juxtalinéaire dérogent à la règle "1 langue par domaine wikisource". Une transclusion sans précaution de l'ouvrage entier donnerait en effet un résultat peu satisfaisant...


Cela relance la réflexion d'une mise en forme spéciale juxtalinéaires qui mettrait tout ça d'aplomb. Une idée d'ouvrage qui t'intéresserait ?


Istimirantstella (discussioncontributions)

Bonjour @SyB~Anicium !

Merci pour tes explications et on aide, je comprends que le juxtalinéaire est un cas atypique, un peu en marge des ouvrages habituelles, à cheval sur deux wiki indépendants.

Je vais chercher un nouvel ouvrage à traduire, en lien avec la langue latine :-) mais pas trop long non plus.

Je t'en reparle !


Répondre à « Fin de la correction de Sénèque »
Résumé par SyB~Anicium

Import avec 2 pages rajoutées, ok !

Raymonde Lanthier (discussioncontributions)
SyB~Anicium (discussioncontributions)

Bonjour ! Vous avez de la chance, un autre exemplaire sur Internet Archive semble "complet" https://archive.org/details/BIUSante_67143

En tout cas, il contient les pages 110 et 111, qui sont toutes les deux oubliées dans l'autre numérisation Google... Je vais recoller les 2 pages manquantes, mais il restera à réparer l'index du livre bien sûr

SyB~Anicium (discussioncontributions)

Normalement c'est bon, la nouvelle version est téléversée. J'ai déplacé la Table des matières en p. 133 du fac-similé, et j'ai appliqué ce changement pour le sommaire. N'hésitez pas à me dire si j'ai oublié quelque chose. Et bonne correction !

Raymonde Lanthier (discussioncontributions)

Merci! Je savais que je frappais à la bonne porte. Je vous reviens là-dessus demain.

Raymonde Lanthier (discussioncontributions)

Oups ! Il manque maintenant les pages 111 et 112 du facsimilé. Sur la page d’index, en cliquant sur la 111, c’est la 113 du facsimilé qui s’affiche, mais le texte qui apparaît à gauche est celui de la 111 ; pour la 112, on a maintenant une page de facsimilé vide et le texte (ou plutôt ce qui en tient lieu) apparaissant à gauche correspond à la dernière page du livre, soit la 113. Les pages manquantes (111 et 112) étaient là avant la récupération de la page 110 à partir de la source que vous citez, mais je ne les avais pas corrigées du fait qu’il manquait la page 110.

SyB~Anicium (discussioncontributions)

De mon côté ça fonctionne, essayez de vider le cache de votre navigateur, qui se souvient de la page qui était là avant ;)

Raymonde Lanthier (discussioncontributions)

Comme par magie, tout est revenu au bon endroit. Merci !

SyB~Anicium (discussioncontributions)

Avec plaisir !

Hsarrazin (discussioncontributions)

Salut !

je viens de voir passer cet édit, et je remarque que tu fais des liens "url" vers laws, alors que, comme tous les projets wikimedia, on peut faire des liens "internes"...

la syntaxe est (pour un wikisource) [[la:adresse de la page]] (donc en mettant seulement le code de langue avant le nom de la page visée). Pour un wikipédia, c'est w:nom de la page et w:en:nom de la page s'il s'agit d'un autre wp que fr.

ça simplifie d'autant plus la construction de liens vers vicifons, que les pages d'index et Pages: ont le même nom (il suffit de modifier le nom de l'espace).


Bonne continuation à toi ! (et fais-moi signe si tu as des problèmes avec Typo.js sur vicifons)

SyB~Anicium (discussioncontributions)

Voilà qui arrange mes affaires ! Merci beaucoup pour l'astuce, je m'y perds parfois un peu sur les différents types de liens... Je vais simplifier.

Tant que je peux en parler à une administratrice, vois-tu un inconvénient à ce que je crée un Livre: ici pour chacun des tomes (intégralement latins) de la Gallia Christiana, comme je l'ai justement fait pour le Tome 1 ? L'objectif étant, lorsque j'aurai transclus au moins un chapitre "vitrine", d'attirer des correcteurs vers cette entreprise, comme annoncé sur le projet Projet:Gallia Christiana. Vicifons étant faiblement attractif, j'ai jugé qu'une porte d'entrée ici serait plus fréquentée, d'autant plus que cela intéresse l'histoire de France :) Qu'en penses-tu ?

Du côté du gadget Typo ou du gadget TI, impossible de mon côté de les utiliser sur Vicifons, malgré la mise à jour de ma page , puis la purge de mon cache... J'ai même essayé avec Firefox, rien à faire les boutons n'apparaissent jamais.

Hsarrazin (discussioncontributions)

non, je n'y vois aucun inconvénient (pour les tomes ici)...

par contre, peux-tu m'indiquer la différence entre s:la:Liber:Gallia christiana 01.pdf (et la suite de la série), importé par @Laurent Jerry, et :s:la:Liber:Gallia Christiana, 1715, T1.djvu , importés par toi - ils semblent être la même édition, mais le premier est quasiment illisible sur les quelques pages que j'ai ouvertes... ne vaudrait-il pas mieux le supprimer (ainsi que le reste de la série) ou faire une redirection... ou bien il est important de les conserver... ?

Si vous pensez qu'il vaut mieux les supprimer, merci de me faire la liste des fichiers à virer, que je ne me trompe pas.

SyB~Anicium (discussioncontributions)

Merci pour ton avis :)

Ce sont ces premiers tomes PDF importés par Laurent Jerry qui m'ont incité à travailler sur ce projet et à apporter des fac-similés DjVu plus lisibles ^^ C'est rigoureusement la même édition, et à terme, je pense aussi qu'il est souhaitable de supprimer les fichiers PDF. Mais il faudrait peut-être le prévenir.

Hsarrazin (discussioncontributions)

oui, c'est bien pour ça que je l'ai notifié dans mon message posant la question

Laurent Jerry (discussioncontributions)

Si j'arrive à répondre sur cette interface que je ne maîtrise absolument pas, je dirai la même chose que SyB~Anicium : on peut supprimer, les fichiers qu'il a importés sont de bien meilleure qualité.

Hsarrazin (discussioncontributions)

Merci Laurent. Je supprime toute la série dès maintenant ? ou on attend que les volumes de qualité soient importés par @SyB~Anicium ?

Laurent Jerry (discussioncontributions)

Euh... à ta guise. Ça ne me dérange pas que tout soit supprimé, de toute façon mes fichiers sont difficilement exploitables, il faut bien le reconnaître.

Hsarrazin (discussioncontributions)
SyB~Anicium (discussioncontributions)
SyB~Anicium (discussioncontributions)

Hum... Je viens de tester les liens internes sur la page d'index du Tome 1 ici, ça ne fonctionne pas :o

Hsarrazin (discussioncontributions)

mmm... ma faute, c'est [[s:la: qu'il faut mettre au début du lien (s pour wikiSource)

SyB~Anicium (discussioncontributions)

Une seule lettre vous manque et tout le code est défectueux :D

Hé bien ça tourne parfaitement, et j'obtiens pile le résultat que je souhaitais pour la Gallia Christiana : le passage entre deux sections de langue différente et stockées sur un domaine différent se fait presque de façon invisible pour l'utilisateur "lambda" ! Vois par exemple ce Privilege_du_Roy_(Gallia_Christiana,_1715), précédé et suivi d'une page de Vicifons (j'ai juste dû adapter le header de Vicifons qui est dépassé avec le template "navigatio", plus proche du nôtre et visuellement plus propre). On peut vraiment tout faire :o

Hsarrazin (discussioncontributions)

en fait, je crois même que :la: suffirait (normalement, on n'a besoin de spécifier le projet que si on est sur un autre projet (wikipédia, commons, etc.). Mais bon, le s: ne peut pas faire de mal {{clin}}


Bravo pour ce joli travail, même si je ne suis pas du tout fan des police sérif (à l'écran).

Répondre à « liens vers vicifons »

ton tutoriel sur le DjVu et les outils pour Mac

31
Hsarrazin (discussioncontributions)

Salut,

comme indiqué sur le Scriptorium, je travaille en Mac, ce qui me simplifie beaucoup la vie pour certaines choses, et pas du tout pour d'autres ^^

Je n'ose pas modifier directement ton tutoriel, donc je vais te signaler ici les outils Mac que j'utilise pour les tâches correspondantes :

1. Retaille du PDF : l'utilitaire Preview/Aperçu, livré en standard sur tout Mac est parfait, très rapide, et permet même de retailler, sur tout le livre, les marges blanches beaucoup trop larges qu'on a sur de nombreux scans anciens de Gallica (ceux faits à partir des microfilms) - comme celui-ci par exemple.

2. découper un pdf en jpg : j'utilise Any Free PDF to JPG Converter (qui est gratuit). Il y en a bien d'autres.

Mon principal problème, c'est l'outil pour construire un DjVu. Je n'ai pas trouvé de version pour Mac de DjVu Toy - et malheureusement, la page du logiciel est en chinois (enfin, c'est ce qu'il me semble).

(à suivre, j'espère)

SyB~Anicium (discussioncontributions)

Hum... J'ai cherché, cherché... Est-ce que DjvuToy.exe fonctionnerait grâce à un émulateur de Windows sous Mac ?

Je n'ai pas trouvé d'outil Mac pour assembler plusieurs DjVu (sachant que la découpe elle-même pourrait se faire en enregistrant les sections qui posent problème grâce à un lecteur tel que DjView sous Mac). Tiens-moi au courant !

Hsarrazin (discussioncontributions)

oui, la découpe, je sais faire... c'est l'assemblage (ou l'insertion d'une page) pour lequel je ne trouve pas :(

Je vais essayer d'installer un émulateur windows, mais je suis pas trop sûre...

Hsarrazin (discussioncontributions)

Bon à savoir, sur phabricator

, un contributeur mentionne l'usage de djvused pour recaler le texte par rapport aux images sans tout casser...

Je ne me suis pas penchée dessus pour voir comment ça marche, mais ^^

SyB~Anicium (discussioncontributions)

Hé, c'est plutôt intéressant !! Et si j'ai bien compris, si on dispose du logiciel DjVuLibre, c'est déjà inclus (des .exe sont bien planqués dans le répertoire d'installation)... Et compatible Win/Mac/Linux ! Seul bémol, ça reste en ligne de commande, alors ça risque d'en rebuter certains. Dire que les développeurs n'avaient qu'à incruster les boutons nécessaires dans DjView pour le transformer en machine de guerre (...) merci Je testerai ça :)

Hsarrazin (discussioncontributions)

oui, perso, les lignes de commande, je ne sais pas du tout comment ça fonctionne :(

SyB~Anicium (discussioncontributions)

J'ai fait quelques essais hier pour pouvoir utiliser Tesseract (qui ne fonctionne qu'avec des lignes de commande, donc sans interface graphique), et c'est pas super compliqué ; le seul point un peu difficile c'est d'indiquer le bon chemin des fichiers d'entrée et de sortie... Enfin, j'ai fait tout ça pour rien, car Tesseract peut aussi s'utiliser avec une interface graphique (gImageReader) sous Windows, avec la possibilité d'ajouter des fichiers langue encore plus aboutis (latin avec des s longs notamment !).

À ce sujet, je viens de voir que ABBYY Fine Reader est soldé à 99€ pour Mac, et -20% pour Windows. J'ai presque envie d'y aller (ma version livrée avec le scan n'inclut pas le latin pour mon projet Gallia Christiana, mais c'est infiniment plus performant que Tesseract pour repérer les différents cadres d'une image, par exemple pour la presse).

Hsarrazin (discussioncontributions)

oui, je connais Abbyy fine reader qui est excellent... :)

je voulais l'acheter il y a déjà plusieurs années... mais la version pour mac ne permet pas la sortie en DjVu ^^

ça me convaincrait presque (!!!) de changer de système d'ordi...

SyB~Anicium (discussioncontributions)

J'avais trouvé la solution de sortir le résultat en .html, et à l'aide d'une Regex assez simple, on peut incruster des balises de SPLIT à la place des indications de page, pour aller remplacer l'ancienne couche directement dans Wikisource :) Je travaille à améliorer le procédé... Au final on a un DjVu qui n'a pas une bonne couche de texte, mais les pages Wikisource en obtiennent une de meilleure qualité !

SyB~Anicium (discussioncontributions)

Bon, eh bien il n'y a absolument pas photo, FineReader est imbattable pour OCRiser le Gallia Christiana (c'est un projet un peu dingue que j'ai depuis janvier). Jusque-là j'étais parvenu à produire un texte "relativement" correct, à grands renforts de Regex pour replacer les ligatures, supprimer les déchets et rétablir les S longs, mais j'étais bloqué par l'incapacité des logiciels OCR à replacer les paragraphes dans le bon ordre.

Résultat : les deux colonnes se retrouvaient mélangées, avec des lignes se percutant un peu partout (voir ici). Là je crois que je vais arriver à quelque chose, car en effet FineReader est capable de produire du DjVu (tu viens de me l'apprendre !) Il faut juste nettoyer le texte avec des Regex, et j'ai l'impression que le menu Rechercher et Remplacer est très faible...

C'est très injuste que cet export DjVu n'existe pas sous Mac, est-ce qu'en version 14 c'est toujours pareil ?

Hsarrazin (discussioncontributions)

je surveille régulièrement Abbyy, mais malheureusement, toujours pas voir les specs :(

SyB~Anicium (discussioncontributions)

Salut ! Quelques nouvelles de mes expérimentations OCR :)

Voilà la différence entre une première océrisation (gImageReader) de l'an dernier et sa nouvelle version FineReader en suivant une méthode bien précise. Le S long et les ligatures XVIIIe siècle ne sont pas une fatalité ! Mais ça reste... assez lourd comme documenté ici.

Le pire ça reste les colonnes, même FineReader est incapable de les distinguer à cause du titre d'en-tête et des lettres intercalées... Reste à trouver une méthode pour remplacer mon mauvais OCR splitté par le nouveau dans les pages déjà créées. Je me tâte à demander une autorisation de robot et à creuser le sujet .

Hsarrazin (discussioncontributions)

Si les pages du bouquin sont encore "roses", tu peux utiliser le Match and Split, qui ne nécessite pas d'autorisation de robot :)

C'est juste un gadget, dont le mode d'emploi est . Même moi, j'arrive à l'utiliser, donc c'est pas très méchant ... et il me semble qu'il fonctionne sur tous les projets linguistiques (à vérifier).

Bon courage !

SyB~Anicium (discussioncontributions)

Crois bien que j'ai essayé ^^ Mais l'étape du MATCH échoue sur Vicifons :-/ Je reçois une erreur "match not found". Il me faudrait enclencher juste l'étape du SPLIT, mais impossible de faire apparaître l'onglet magique. Voir mon brouillon... Peut-être une panne ? Cela fonctionnait il y a encore 1 an.

Hsarrazin (discussioncontributions)

argh... :(

mais ton brouillon me paraît bien court pour un M/S. Il ne contient qu'une seule page, non ? as-tu essayé avec un fichier contenant une dizaine de pages ?

sinon, faudrait voir avec un des mainteneurs de M/S, ou au moins avec quelqu'un qui l'utilise couramment...

SyB~Anicium (discussioncontributions)

Oui, je n'ai mis qu'une seule page, c'est la technique que j'avais utilisée il y a 1 an : j'avais incrusté au début de chaque page du .txt une balise de Split, étant donné que j'étais sûr et certain de faire correspondre les pages. Une forme de copier/coller sans passer par le Match qui, vu la qualité de l'OCR, aurait échoué. Sur WSFR ça semble fonctionner : tu peux cliquer pour voir :) Je crois qu'il me faut tenter une invocation de Phe : en espérant ne pas l'ennuyer.

Hsarrazin (discussioncontributions)

mais, si tu n'as qu'une seule page dans ton document... inutile de faire un M/S... il suffit de coller ta page à la place de l'ancienne, non ?

l'intérêt du M/S est de découper un long texte, pour que le contenu soit ensuite placé dans les pages... ou alors, je n'ai pas compris ce que tu veux faire... ^^

SyB~Anicium (discussioncontributions)

Non non, j'ai TOUTES les pages (989 quand même) dans un .txt, et l'idée est donc bien de remplacer le texte (beaucoup moins bon) des pages en rose sur la version latine par ces pages mieux océrisées :)

SyB~Anicium (discussioncontributions)

(ou plus exactement, j'ai toutes les pages dans 989 fichiers .txt, que j'assemblerai dans un méga fichier texte en ajoutant au début de chaque page la balise permettant à la page d'aller se placer au bon endroit). Pour le remplissage de ces pages roses j'avais procédé ainsi, un seul clic sur l'onglet SPLIT et tout s'était rempli. Mais à l'époque j'ignorais qu'on pouvait produire un OCR latin beaucoup plus convainquant en identifiant les colonnes de texte au préalable. Erreur de jeunesse !

SyB~Anicium (discussioncontributions)
Hsarrazin (discussioncontributions)
SyB~Anicium (discussioncontributions)

Je reçois la même erreur, et pas d'apparition de l'onglet Split :-/ Par contre, la suppression de page fournit le résultat attendu : on repart de la nouvelle couche de texte. Ca pourrait se faire à la chaîne grâce à un bot : pour les admins, le Pywikibot permet de supprimer plusieurs pages (voire toutes celles d'un même livre) à la fois. : https://www.mediawiki.org/wiki/Manual:Pywikibot/delete.py

Hsarrazin (discussioncontributions)

oui, la suppression des pages créées permet de reprendre la couche texte du facsimile. Si tu l'as changée, c'est la bonne solution...

je suis admin sur laws, mais je ne sais pas utiliser les scripts python... par contre, si tu me donnes la liste des pages à supprimer, je peux le faire (je suis quelqu'un de très obstiné quand il s'agit de nettoyer un livre