Sujet sur Discussion utilisateur:Cunegonde1

Susuman77 (discussioncontributions)

Bonjour Cunégonde, je m'adresse à toi parce que tu m'avais aidé voici quelques mois avec un livre de Stendhal à uploader et OCRiser. Tu m'avais alors donné quelques conseils, et j'ai tenté d'en suivre au moins quelques-uns cette fois, mais le résultat n'est pas complètement au rendez-vous. L'idée était d'uploader ce livre à partir de la version Gallica, sur wikisource même et non sur commons vu la date d'édition. Le problème est aussi que je travaille en ce moment sur un ordi pro où je ne peux pas installer de programmes ou faire tourner du pythoon, me rendant dépendant des outils en ligne. Je me suis donc contenté du téléchargement pdf gallica de base, et l'ai fait passé par l'outil PDFtoDjVu. Le fichier DjVu obtenu était trois fois moins lourd que le PDF, je l'ai téléversé comme prévu. Ce n'est qu'après avoir commencé de construire l'index que j'ai réalisé qu'un bon tiers des pages avait sauté ! J'imagine que cela s'est produit à la création du DjVu et non plus tard.

Je viens donc à toi implorer de me sauver (ou plutôt ce pauvre livre) de ce mauvais pas. J'imagine qu'il faut reprendre depuis le départ, et que tes outils et ton savoir-faire te permettront d'éviter les écueils où j'ai sombré... Rien d'urgent, j'ai encore bien du travail sur d'autres volumes des OC de Péguy, sans compter Flaubert et les autres... J'ai quelques autres volumes sur Gallica ou IA dans ma liste pour plus tard, si tu pouvais aussi m'aider avec eux à un moment ou à un autre, dis-moi, je le ferais bien moi-même, mais j'ai un gros doute sur mes capacités en la matière. Dis-moi, je peux te faire une petite liste au cas où. Merci en tout cas infiniment si tu peux déjà m'aider à réparer le bazar que j'ai créé malgré moi sur ce livre-ci...

Cunegonde1 (discussioncontributions)

Bonjour, Notification Susuman77 :, j'ai récupéré les images source du livre sur Gallica, et je suis en train de le traiter (préparation des images avec scantailor, ocr avec Abby Finereader). Normalement, je le téléverserai sur WS demain. Certains utilisateurs ont déjà remarqué que les outils en ligne ne sont pas bien fiables. Pas de problème pour ta liste (si elle n'est pas gigantesque), je téléverserai les fichiers au fil du temps en tenant compte de mes autres projets.

Susuman77 (discussioncontributions)

Merci beaucoup !!! Je fouille un peu, j'essaie de te faire une petite liste d'ici demain, ce qui peut manquer pour Péguy et Stendhal, moins d'une dizaine à coup sûr...

Cunegonde1 (discussioncontributions)

Ok !

Cunegonde1 (discussioncontributions)

Notification Susuman77 : C’est fait, j'ai importé le fac-similé entier, toutefois, les pages 170-171 sont manquantes. J'ai collé p. 170 le texte manquant récupéré sur l’édition de 1911 Gallica, la pagination de cette édition étant différente, on ne peut pas remplacer les images de pages manquantes. J'ai détouré et passé les pages en noir et blanc, l'OCR a été fait avec Abbyy Finereader, et les principales scanilles (et non coquilles) ont été corrigées en amont de l'import. Bonne correction. Pour voir les différences, il faut purger le livre soit avec le bouton dans l'onglet "Plus" en haut à droite ou en ajoutant ?action=purge à la fin de l'url.

Susuman77 (discussioncontributions)

Merci beaucoup ! Nos messages se sont croisés... C'est très gentil de ta part, et bravo pour avoir repéré les pages manquantes, je récupérerai le texte grâce à ton lien. Merci merci merci !!!

Susuman77 (discussioncontributions)

Bonjour @Cunegonde1 ! Chose promise, chose due, voici une liste de quelques volumes dont le téléversement pourrait grandement aider mon travail sur WS dans les semaines et les mois qui viennent :

Pour Péguy, je pense notamment aux textes rassemblés après sa mort sous le titre de Situations. Pas de f-s de ce volume trouvable, ni du tome III des Œuvres complètes à partir desquelles je travaille pour la plupart du reste, donc il faut passer par la publication originale dans les Cahiers de la Quinzaine. D'autres cahiers ont déjà été numérisées, on peut donc reprendre les conventions utilisées pour les nommer. Tous ceux que je voudrais sont sur IA sauf un, où il faudra avoir recours à la version Gallica qui a l'air moins bien. Voici donc les liens :

  • Cahiers de la Quinzaine - Série 8, cahiers 1-3, 1906
  • Cahiers de la Quinzaine - Série 8, cahiers 5-10, 1906
  • Cahiers de la Quinzaine - Série 8, cahier 11, 1907 (nommé sur IA d'après l’œuvre des frères Tharaud qui occupe le premier tiers du cahier (et ne sera dans le domaine public français qu'en janvier semble-t-il, sauf subtilités sur la publication en périodique), mais un texte de Péguy occupe le reste du cahier)
  • Cahiers de la Quinzaine - Série 9, cahier 1, 1907
  • Cahiers de la Quinzaine - Série 10, cahiers 11-13, 1909

J'ajouterais à ces cahiers un dernier contenant une biographie de Dostoïevski par André Suarès, que j'aimerais bien transcrire aussi :

  • Cahiers de la Quinzaine - Série 13, cahier 8, 1911

Et enfin dans un autre genre trois volumes manquants dans la série des Œuvres complètes de Stendhal éditées par H. Martineau, disponibles seulement sur Gallica me semble-t-il. Vu leurs dates de publication (entre 1929 et 1931), j'imagine qu'il faudrait les verser sur WS et non sur Commons.

  • Mémoires d’un touriste, II, 1929, éd. Martineau
  • Stendhal - Voyage dans le midi de la France, 1930, éd. Martineau
  • Stendhal - Promenades dans Rome, II, 1931, éd. Martineau

Il y a encore deux volumes de la Correspondance de Stendhal manquants sur WS et disponibles sur IA, mais je sais que je n'y toucherais pas avant très longtemps, donc ce serait malséant de t'embêter déjà avec... C'est donc tout et c'est déjà beaucoup, rien de pressé, j'ai bien conscience de beaucoup demander, et n'hésite pas à me dire en retour comment je pourrais t'aider, par exemple si tu as des textes que tu voudrais voir valider, ce serait un plaisir !

Cunegonde1 (discussioncontributions)

Bonjour Notification Susuman77 : Pour l'import des cahiers de la quinzaine, je me trouve confronté à des problèmes liés aux droits d'auteur. En effet comme tu l'as peut-être vu au cours de l'été, certains contributeurs sont très vigilants sur cette question et demandent la suppression des ouvrages non conformes aux règles légales en la matière (on ne peut importer une revue qu'à condition que tous les auteurs soient dans le domaine public). S'agissant des cahiers de la quinzaine, on peut contourner facilement le problème puisque, sauf erreur de ma part, chaque cahier est autonome. Ci-dessous un récapitulatif des auteurs de chaque regroupement de cahiers :

  • Cahiers de la Quinzaine - Série 8 cahiers 1 à 3 Importable
    • Romain Rolland DP-OK
    • Charles Péguy DP-OK
  • Cahiers de la Quinzaine - Série 8 cahiers 5 à 10 Non importable en entier
    • Charles Péguy DP-OK
    • Romain Rolland DP-OK
    • Charles-Marie Garnier, mort en 1956, Non-DP jusqu'au 01/01/2027
    • Jean Bonnerot, mort en 1964, Non-DP
    • Edmond Bernus, mort en 19.. ?? DP-?? ne pas confondre avec Edmond Bernus, 1929-2004
  • Cahiers de la Quinzaine - Série 8, cahier 11, 1907 Importable à partir du 1er janvier 2024
    • Jérôme Tharaud mort en 01/1953, Non-DP jusqu'au 01/01/2024
  • Cahiers de la Quinzaine - Série 9, cahier 1, 1907 Importable
    • Charles Péguy DP-OK
  • Cahiers de la Quinzaine - Série 10, cahiers 11-13, 1909 Non importable en entier
    • Maxime Vuillaume, mort en 1925 DP-OK
    • Daniel Halévy, mort en 1962 Non-DP jusqu'en 2033
    • Charles Péguy DP-OK
  • Cahiers de la Quinzaine - Série 13, cahier 8, 1911 Importable
    • André Suarès DP-OK

Il faudrait donc que pour les cahiers non importables en entier, tu m'indiques précisément les parties qui t’intéressent pour que je les découpe en fonction et les importe cahier par cahier. Bonne soirée.

Susuman77 (discussioncontributions)

Bonjour @Cunegonde1 et merci beaucoup de t'être penché sur la question ! Pour répondre globalement, c'est avant tout Péguy qui m'intéresse (et Suarès dans le dernier). Pour le Série 8, cahier 11, c'est la (grosse) postface de Péguy que je souhaiterais transcrire, mais autant attendre le 1er janvier pour tout importer d'un coup et transcrire alors la nouvelle des frères Tharaud avec. Pas la peine d'importer les textes de Romain Rolland, je crois qu'ils sont déjà transcrits à partir d'autres éditions de toute façon. Pour les autres, est-il possible de "caviarder", de laisser des pages blanches que l'on pourrait ajouter par la suite là où les auteurs ne sont pas encore dans le DP français ?


Concernant le problème légal plus large, j'avais cru comprendre que la présence du fichier sur Commons (où le droit américain des 95 ans après publication s'applique) n'était pas ce qui posait problème, mais plutôt sa transcription et surtout sa transclusion dans l'espace principal. Mais peut-être cela ne vaut que pour les ouvrages déjà importés depuis longtemps et qu'il vaut mieux être prudent pour les nouvelles importations... Quoi qu'il en soit, restreindre l'importation aux textes DP des Cahiers de la Quinzaine ne me dérange nullement. Merci encore, et bonne soirée à toi aussi !

Susuman77 (discussioncontributions)

Ah et j'ai retrouvé le bon Edmond Bernus : d'après il est mort en 1954 donc pas DP avant 2025...

Cunegonde1 (discussioncontributions)

Pour Commons il y a cumul des règles le fichier doit être DP aux USA (publié il y a plus de 95 ans) et DP dans le pays d'utilisation du fichier (pour nous 70 ans après l'année de la mort de l'auteur sauf exceptions des morts pour la France pour lesquels il y a des prorogations de droits).

Pour les imports, je vais faire comme tu le proposes, sauf pour le caviardage (c'est trop de travail sur des centaines de pages) et dans la mesure ou les cahiers sont autonomes c'est plus simple découper ceux qui nous intéressent.

Susuman77 (discussioncontributions)

Parfait, et oui, je comprends bien pour le caviardage, d'autant que l'organisation des cahiers le rend superflu, il suffit de réserver les "mauvais" numéros pour dans quelques années... Merci beaucoup encore et bon dimanche !

Cunegonde1 (discussioncontributions)

Bonsoir, Notification Susuman77 : j'ai terminé le téléversement des fichiers des cahiers de la quinzaine (j'en ai caviardé deux) :

Je me rends compte que je n'ai pas été très cohérent pour le nommage, mais pour les djvu sur Commons, ce n'est pas si important. Sur WS je te laisse faire à ta manière. Ces fichiers m'ont donné un peu de fil à retordre : les OCR d’Internet archive étaient en mode ligne et tous les mots étaient collés les uns aux autres, j'ai été contraint de refaire la moitié qui étaient déjà téléversés. Ensuite j'ai refait l'OCR avant le téléversement.

Le fichier de la BNF était en très mauvais état (photos floues) on ne peut pas faire grand chose, j'ai fait au mieux.

Susuman77 (discussioncontributions)

Bonsoir et un immense merci pour ce travail que j'imagine vraiment énorme, j'espère que ça ne t'a pas été trop pénible, et je m'efforcerai de faire en sorte qu'il n'ait pas été fait pour rien, en en tirant de beaux textes bien corrigés ! Et pour l'OCR je comprends que ça varie beaucoup en fonction de la source et de la qualité du scan, je suis en tout cas très impressionné par la qualité de celui que tu as pu obtenir pour le tome 13 que tu m'as fait l'autre jour, il n'y a vraiment presque aucune scanille ! Merci encore mille fois, et bonne soirée !

Cunegonde1 (discussioncontributions)

Pour les scanilles, c'était normal, je l'avais pré-corrigé (on peut faire cela avec Finereader ou en éditant le fichier xml du djvu), puis en le corrigeant avec des regex de détection des principales scanilles et en réinjectant le fichier xml corrigé dans le fichier djvu. Mais je ne fais pas ça pour les revues, c'est trop chronophage.

Cunegonde1 (discussioncontributions)

Bonsoir Notification Susuman77 : J'ai commencé à préparer les Stendhal, qui sont en cours pré-corrections. Cependant je viens de me rendre compte que l'éditeur scientifique Henri Martineau est mort en 1958. La préface et les notes de l'éditeur ne devraient pas être transcrites avant 2029. J'espère que je ne vais pas me faire supprimer les imports prévus. Si c'était le cas, je les réimporterai avec la préface et les notes blanchies.

Susuman77 (discussioncontributions)

Bonsoir ! Oui, pour les volumes que j'ai déjà corrigés, j'ai toujours bien fait attention à laisser les préfaces pour plus tard, avec une note dans la pagelist. Il a même fallu en cacher quelques-unes déjà publiées dans des temps moins regardants, je crois qu'une ou deux avaient été supprimées (ou juste proposées à la suppression et retirées du sommaire de l’œuvre). En tout cas personne n'a jamais cherché noise aux nombreux scans de la série déjà présents sur Commons ou WS français, donc à ta place je ne m'en ferais pas trop, en croisant les doigts...

Cunegonde1 (discussioncontributions)

Bonsoir Notification Susuman77 : J’ai terminé le téléversement des 3 volumes de Stendhal, les fac-similés sont rognés des marges excessives, et la couche texte est pré-corrigée des principales scanilles. Les fac-similés étant assez mauvais à la base, il ne faut pourtant pas s'attendre à des miracles. J'ai mis un avertissement relatif à la préface non-dp du voyage dans le midi de la france :

Bonne correction.

Susuman77 (discussioncontributions)

Merci Merci !, merci infiniment, oui, j'ai déjà eu maille à partir avec les scans gallica de cette série, ce n'est jamais très bon, mais ça ne peut être que mieux avec ton ocr et j'essaierai d'en tirer quelque chose de bien corrigé ! Bonne semaine !

Répondre à « Tentative avortée d'upload d'un djvu... »