Discussion:Arsène Lupin contre Herlock Sholmès (1908)

Le contenu de la page n’est pas pris en charge dans d’autres langues.
La bibliothèque libre.

Source: http://www.ebooksgratuits.com/ebooks.php?auteur=Leblanc_Maurice

Fac-similé[modifier]

Livre:Leblanc - Arsène Lupin contre Herlock Sholmes, 1908.djvu

Discussion[modifier]

Notification Le ciel est par dessus le toit : Y a-t-il lieu de conserver ce texte? Nous avons 2 facsimilés de ce roman, un en feuilleton, l'autre en livre Arsène Lupin contre Herlock Sholmès… --Ernest-Mtl (d) 14 novembre 2019 à 19:58 (UTC)[répondre]
Je me permet de vous renvoyer à l'article fr:Arsène Lupin contre Herlock Sholmès qui rapelle bien qu'il y a 3 versions du texte : la version en en feuilleton (qui montre le passage de Sherlock à Herlock), la première publication en 1908 et la deuxième en 1914 avec de nouvelles modifications. Ce que l'on constate dans les transcriptions... Toto256 (d) 14 novembre 2019 à 21:44 (UTC)[répondre]
Notification Ernest-Mtl : Si ce sont des versions différentes, il faut les garder. --Le ciel est par dessus le toit Parloir 15 novembre 2019 à 08:36 (UTC)[répondre]
Notification Toto256 : J'imagine que tu faisais référence à l'article de WP, car ici notre page n'en dit rien… N'y aurait-il pas lieu, dans des cas pareils, d'indiquer localement la raison des 3 versions ou encore, pour ne pas dédoubler l'information, mettre un lien vers WP? --Ernest-Mtl (d) 15 novembre 2019 à 12:33 (UTC)[répondre]
Effectivement c'était ce lien là w:fr:Arsène Lupin contre Herlock Sholmès qui je voulais mettre : c'est le deuxième paragraphe. Toto256 (d) 15 novembre 2019 à 16:42 (UTC)[répondre]

Identification des éditions[modifier]

Notification Ernest-Mtl : Notification Toto256 : Notification Le ciel est par dessus le toit :

(Basé pour l'édition de 1908, sur ce qui figure dans wikisource)

Texte Édition 1906/07 Éditions 1908 et 1914
Premiers mots du chapitre 1 Le 8 mars de l’an dernier, M. Gerbois... Le 8 décembre de l’an dernier, M. Gerbois

Pour les deux éditions de 1908 et 1914, exemple de 4 différences:

# Texte Édition 1908 Éditions et 1914
#1 Chapitre 1 avait arrêté sa charrette devant le jardin et sonné par deux fois avait arrêté sa charrette devant le jardin qui précède la maison, et sonné par deux fois
#2 Chapitre 1 Le numéro 514 – série 23 était bien inscrit, pour mémoire, sur la page de garde. Mais le billet ? Le numéro 514-série 23, était bien inscrit, pour mémoire, sur la page du calepin. Mais le billet ?
#3 Chapitre 2 puisque la sonnerie, avez-vous dit, fut régulière, ininterrompue, et dura sept ou huit secondes. Croyez-vous que son agresseur ...puisque la sonnerie, avez-vous dit, fut régulière. Croyez-vous que son agresseur...
#4 Chapitre 6 — Brrr, frissonna Lupin, vous m’impressionnez, mon bon Ganimard. Quelle mine lugubre ! On dirait que vous parlez sur la tombe d’un ami. Voyons, ne prenez pas ces airs d’enterrement...

— Brrrr, frissonna Lupin, tu m’impressionnes, mon bon Ganimard. Quelle mine lugubre ! On dirait que tu parles sur la tombe d’un ami. Voyons, ne prends pas ces airs d’enterrement...

Au vu de tout ça, la version 1908 existe sur Gallica. Elle a été publiée en feuilleton dans le journal Le Petit Bourguignon entre le 22 octobre et le 10 dédembre 1908. Pour vérification les différence sont ainsi:

Le fac-similé en feuilleton[modifier]

Trouvé donc dans le Petit bourguignon Sourire diabolique et ça m'a l'air complet à vu de nez : Khardan (d) 7 février 2024 à 21:43 (UTC).[répondre]


Liste complète en espérant qu’il n’y ait pas de manque ni d’erreur. --Le ciel est par dessus le toit Parloir 18 février 2024 à 16:32 (UTC)[répondre]

@Khardan et @Le ciel est par dessus le toit Désolé de rabattre votre enthousiasme, mais outre le fait que cette opération, si elle était possible serait extrêmement longue et fastidieuse, elle est malheureusement impossible. En effet sur gallica, vous remarquerez qu'il n'y a aucun lien de téléchargement sur les pages, de plus l'outil IIIF Download qui permet de télécharger les images une par une dans leur meilleure résolution ne fonctionne pas sur ces pages. Bref, la seule solution est de faire des copies d'écran, ce qui par expérience sur des situations similaires, et par test sur le premier des f-s de la liste, produit des f-s illisibles, tant par l'OCR que par un humain. Peut-être que quelqu'un de plus compétent ou de mieux équipé que moi y arriverait. Cunegonde1 (d) 22 février 2024 à 11:56 (UTC)[répondre]

J'ai quand même téléversé un fichier de test à supprimer après l'avoir évalué https://fr.wikisource.org/wiki/Fichier:Le_Petit_Bourguignon-Ars%C3%A8ne_Lupin-Test.djvu. Comme prévu, l'OCR est inutilisable.--Cunegonde1 (d) 22 février 2024 à 14:09 (UTC)[répondre]

Notification Cunegonde1 : le fichier test me paraît pas mal quand même ; après je comprends que ce soit fastidieux. Attendre pour le moment, je supprimerai le fichier test quand Notification Khardan : aura répondu --Le ciel est par dessus le toit Parloir 22 février 2024 à 15:31 (UTC)[répondre]

Notification Cunegonde1 : Notification Le ciel est par dessus le toit : Ah, ouais, ils ont même supprimé la fonction de zoom, pour être sûr que plus personne ne lise les journaux sur Gallica à part les gros titres... Je peux essayer de faire quelque chose, si vous me laissez jusqu'à la fin du week-end: un djVu sans couche OCR (parce que ça je ne sais pas encore maîtriser), ça irait ? — Khardan (d) 22 février 2024 à 18:46 (UTC)[répondre]
@Khardan Pourquoi pas, mais avec la découpe et tout, cela représente beaucoup de travail, fais-toi un petit test pour voir ce que cela donne en rapport du temps passé avant de te lancer, car je crains que cela un très gros investissement en temps pour un seul texte. Cunegonde1 (d) 22 février 2024 à 19:00 (UTC)[répondre]
@Cunegonde1 @Le ciel est par dessus le toit Je ferai un test sur 5 journaux complet dimanche. J'ai remplacé ton djVu de test par un de mon acabit sur 1 journal (1 page de recap + 6 pages/colonne) . — Khardan (d) 22 février 2024 à 22:17 (UTC).[répondre]
@Khardan Ouaouh, la différence est vraiment impressionnante compte tenu de la qualité du fichier source !
Quels outils utilises-tu pour obtenir ce résultat ? si ce sont des logiciels libres, je suis très preneur des infos.
Pour l'OCR, ce n'est pas grave, je peux télécharger le fichier complet et faire un OCR pas formidable, mais exploitable.
Si tu veux le faire tu peux soit passer par une étape intermédiaire avec un fichier pdf et utiliser ocrmypdf pour faire l'ocr, puis transformer le pdf en djvu avec le logiciel pdf2djvu et la commande "pdf2djvu -o MonFichier.djvu -j0 --fg-colors=black --dpi=600 --lines MonFichier.pdf" sous linux, sinon utiliser le script djvu-ocr.
En tout cas bravo pour ce résultat. Cunegonde1 (d) 23 février 2024 à 06:24 (UTC)[répondre]

@Khardan et @Cunegonde1 Les mêmes textes sont dispo sur Retronews (et je crois qu’il sont téléchargeables pour les abonnés). Notification Ernest-Mtl : peux-tu transmettre tes codes d’accès à Cunegonde1 ? Si oui, je referai la liste des liens en conséquence --Le ciel est par dessus le toit Parloir 23 février 2024 à 08:08 (UTC)[répondre]

@Cunegonde1 @Le ciel est par dessus le toit oui, c'est de RN que j'ai repris ça mais sans abonnement avec une extension Firefox Download all images qui récupère d'un coup toutes les images visibles. Bon faut un peu trier pour ne garder celles utiles avant que cette extension ne fasse son zip. Ensuite je réunis les tuiles avec Image Magick et une commande du genre:
set edition=19081029
magick montage -tile 5x2 -geometry +0+0 191.jpeg 121.jpeg 131.jpeg 141.jpeg 241.jpeg 181.jpeg 151.jpeg 161.jpeg 171.jpeg 251.jpeg Arsene-%edition%-tmp.jpg
ce qui donne l'image de tout le bas que je rabote (pour donner ce que j'ai mis dans la page 1 du fac-similé)
magick Arsene-%edition%-tmp.jpg -crop 2450x840+110+60 Arsene-%edition%.jpg
et que je tranche ensuite en multiple colonnes par :
magick Arsene-%edition%.jpg -crop 400x840x0+0+0 Arsene-%edition%-col.jpg
Je vais voir pour l'OCR si j'arrive à quelque chose — Khardan (d) 23 février 2024 à 10:39 (UTC).[répondre]
@Cunegonde1 @Le ciel est par dessus le toit Pour vous informer, j'en suis à l'étape d'un fichier DjVu complet de ses images mais sans la couche texte; je n'y ai conservé que le texte en colonnes. De plus j'y rajouterai en tête deux pages blanches. J'ai mis ce djVu en remplacement du précédent Fichier djVuKhardan (d) 28 février 2024 à 21:10 (UTC).[répondre]
Bonjour Notification Khardan : Bravo ! pour ton travail. Pour ajouter une couche texte sur un djvu déjà fait, tu peux utiliser le script djvu-ocr de Kipmaster, qui se lance avec la commande perl djvu-ocr.pl MonFichier.djvu (L'installation de Tesseract au préalable est un prérequis). Sur ce fichier, ce n'est pas très bon, mais cela fonctionne sur la plupart des pages, hormis celles qui sont insuffisamment contrastées. Cunegonde1 (d) 29 février 2024 à 06:49 (UTC)[répondre]
@Le ciel est par dessus le toit Je mets la suite de cette discussion (assez technique du coup) dans le fil de discussion de Cunégonde: ► ICI. — Khardan (d) 12 mars 2024 à 21:33 (UTC).[répondre]

Notification Khardan : ton OCR ets plus propre que le texte que nous avons puisque tu as ajouter bon nombre de modèles, du coup j"hésite à faire un Match et Split qui casserait tout ton travail, en fait il faudrait le corriger avant de le transclure sur cette page. --Le ciel est par dessus le toit Parloir 13 mars 2024 à 14:26 (UTC)[répondre]

@Le ciel est par dessus le toit. Je ne pense pas qu'il faille faire le Match&Split. Car effectivement, j'ai mis plein de trucs dans la couche texte (et jusqu'à des <ref>...</ref> qui étaient à insérer comme en Page 34). Je vais rajouter le lien vers le Livre et laisser temporairement le texte actuel; j'y travaillerai sur sa correction vers la fin du mois. — Khardan (d) 13 mars 2024 à 18:40 (UTC).[répondre]
Ok, merci pour la réponse et ton travail impécable Le ciel est par dessus le toit Parloir 14 mars 2024 à 07:06 (UTC)[répondre]