Sujet sur Discussion utilisateur:Hsarrazin

Yann (discussioncontributions)

Bonjour Hélène, Avant d’éventuellement renommer les fichiers que j'ai importés, il faut décider d'une convention, parce que la situation actuelle, c'est le grand bazar... Pour où on commence ?...

Hsarrazin (discussioncontributions)

oui, je suis d'accord, c'est le grand bazar (et c'est rien à côté de la Revue de Paris)...

j'ai d'ores et déjà organisé une catégorie Catégorie:Index_-_MdF, pour éviter de mélanger les facsimile avec les articles...

Je propose un nommage chronologique, qui, sans indiquer les changements de série, permet de mettre en place des liens avec modèles, similaire à la RDDM, qui est impeccable...

-> Aide:Conventions_de_nommages_des_œuvres#Cas_particulier_des_Revues_en_séries

La date exacte de parution est superflue au nommage, du moment que l'année et le numéro permettent de différencier/organiser les fichiers... les données précises seront dans la page d'index... - je propose donc

  • "Mercure de France - Année (sur 4 chiffres) - tome XX.djvu",
  • "Mercure de France - Année (sur 4 chiffres) - tome XX, n°Y.djvu (quand il y a plusieurs numéros dans un tome)

ça te paraît possible ?

PS : ayant déjà bossé sur la RDP, je veux bien participer à l'effort, surtout s'il faut reprendre des pages corrigées, derrière...

Yann (discussioncontributions)

OK, mais je préfère "Mercure de France, Année (sur 4 chiffres), tome XX" avec des virgules. OK ?

Hsarrazin (discussioncontributions)

j'avais proposé avec tirets, pour éviter d'avoir à renommer 6 fichiers qui sont avec tirets -> mais si c'est toi qui renommes, c'est toi qui choisis ...

ça serait bien, pour référence ultérieure, d'indiquer le choix de nommage en haut de la catégorie, comme j'ai fait pour Catégorie:Index_Revue_de_Paris (oui, je sais, le travail n'est pas terminé) -> il s'agit de fichiers avec pages et articles derrière, donc plus galère à renommer que des fichiers neufs...

Hsarrazin (discussioncontributions)

Au fait, pour ta question sur le DjVu, bon nombre de nos outils spécialisés (Match/Split, Hocr, et quelques autres, Extract pour récupérer la couche texte, etc.) ne fonctionnent QUE sur le Djvu, pas sur le PDF...

est-ce un assez bon argument pour toi ?

Yann (discussioncontributions)

Si très bien. Je n'ai pas édité ici pendant longtemps, et 1. je ne me souviens plus des détails, 2. les choses avaient peut-être évoluées depuis. Dans certains cas, la couche texte du PDF (créée par HathiTrust) est meilleure que celle que je peux faire avec FineReader.

Au fait, il y a, je pense, quelquefois une confusion entre tome, volume et numéro. Ex. : Livre:Mercure de France, v. 1, 1672-1674, Slatkine reprint, 1982.pdf. Hathitrust dit que c'est le volume 1 (?), qui en fait contient les tomes 1 à 6. File:Mercure de France, v. 29, 1899.pdf et File:Mercure de France - Janvier-Mars 1899, Tome 29.djvu. C'est quoi la vérité ?

Hsarrazin (discussioncontributions)

Concernant l'OCR, je ne "refais" pas l'ocr d'un pdf qui en a un bon... je fais une conversion pdf to djvu avec Convertio ou pdf2djvu (outils en ligne)...

je n'ai pas testé sur de la typographie ancienne...

Hsarrazin (discussioncontributions)

Concernant la numérotation :

alors en fait, malgré le même titre, 1672-74 et 1899 sont deux publications portant le même titre, mais organisées différemment...

-> pour le Mercure Galant, d'ailleurs, la mise en page est bizarre : 4 paes par image ? comment on va pouvoir traiter ça ??

normalement, on utilise la numérotation telle qu'elle figure sur la page de titre... - personnellemnt, je me fie à la Bnf, pas à Hathi Trust...

-> voilà la numérotation du Mercure Galant, selon la BNF (FR-BNF 32814363x) - le mode de numération peut changer pas mal dans le temps... -> et HT a raison, les tomes 1 à 6 de 1672 constituent le volume 1 de la Revue.

-> pour le MdF de 1899 (donc la série Moderne, qui commence en 1890), voilà la numérotation (FR-BNF 34427363f) - normalement, un nommage Année, tome devrait suffire...

Hsarrazin (discussioncontributions)

sur le Mercure Galant, je suis allée tester l'OCR... il est plutôt de qualité, mais ne prend pas les pages dans le bon ordre... j'ai reconstitué l'ordre en maintenant un blanc entre les pages...

Page:Mercure de France, v. 1, 1672-1674, Slatkine reprint, 1982.pdf/260

il va sans doute falloir prévoir un modèle permettant d'indiquer le numéro de page du MG, et pas celui de l'édition Slatkine...  :(

-> peut-être un truc du genre Modèle:Verset

Yann (discussioncontributions)

A mon avis, il faut redécouper ce fichier, mais je n'ai pas réussi à le faire. Voir mon message sur le Scriptorium.

Hsarrazin (discussioncontributions)

alors, la bonne nouvelle, c'est qu'il y a les 6 scans de l'édition originale 1672, 1673 et 1674 sur Gallica

la mauvaise, c'est qu'ils sont non océrisés, par contre...

-> d'un autre côté, ce sont toujours des amateurs de livres anciens qui s'attaquent à ce genre de bouquins

Yann (discussioncontributions)

Super ! Parce que je n'avais vu que la version que l'on ne peut pas télécharger sans payer. Je vais importer ces fichiers plutôt que les scans de Hathitrust. D'ailleurs, il faut commencer par mettre de côté les versions de RetroNews avec un "watermark" affreux.

Hsarrazin (discussioncontributions)

je n'ai pas vu les Retronews... -> perso, je passe par le catalogue...

Yann (discussioncontributions)

J'ai commencé a renommer en suivant ta proposition ("Mercure de France - Année (sur 4 chiffres) - Tome XX.djvu"), car cela évite effectivement de renommer plusieurs livres. Pour l'édition originale 1672, 1673 et 1674 sur Gallica, on ne peut pas télécharger de fichiers PDF. C'est bien ce que j'avais vu... Il faut les récupérer page par page, et créer des fichiers PDF ensuite.

Hsarrazin (discussioncontributions)

ok... t'as viré celui de Slatkine, du coup ? ou tu l'as renommé ?

la mise en page était un peu ch... mais l'ocr d'excellente qualité (en tout cas sur la page où j'ai testé...

Hsarrazin (discussioncontributions)

oh, merdre ! désolée.. j'avais pas vu ça ! :(

mmmmh, "Droits  : conditions spécifiques d'utilisation (sous convention 999)" -> ça me dit quelque chose... c'est une convention de numérisation

Yann (discussioncontributions)

J'ai supprimé l'index de Slatkine. On pourra toujours le recréer si nécessaire.

J'ai fait une ligne de commande pour récupérer ces fichiers sur Gallica. Ça prend un peu plus de temps, mais ça va le faire.

Exemple : curl.exe https://gallica.bnf.fr/iiif//ark:/12148/bpt6k1524058c/f[1-300]/full/full/0/native.jpg -o "#1.jpg"

Hsarrazin (discussioncontributions)

ah, tu as les moyens techniques de faire quelque chose qui me prendrait au moins 3 heures (par volume)... -> c'est chouette

Yann (discussioncontributions)
Yann (discussioncontributions)
Répondre à « Renommage Mercure de France »