Discussion utilisateur:Seb35

La bibliothèque libre.
Sauter à la navigation Sauter à la recherche

Bienvenue sur la Wikisource francophone


Wikisource est un projet collaboratif de la fondation Wikimedia visant à la mise à disposition du patrimoine écrit. La version francophone a vocation à accueillir les textes en langues françaises, y compris anciens français et la plupart des langues régionales.

Image logo
▷ Qu’est-ce que la Wikisource ; qu’est-ce qu’elle n’est pas ; comment fonctionne-t-elle : pour trouver des réponses à ces questions, une visite sur Qu’est-ce que Wikisource et Introduction à Wikisource vous est proposée.

Image logo
▷ Avant toute contribution, lisez le Guide du nouveau contributeur, les Conventions typographiques et Conventions de nommages des œuvres.
Si vous souhaitez insérer un nouveau texte, n’oubliez pas d’indiquer la source de celui-ci, ou mieux, un lien vers un fac-similé.
Vous devez également respecter le droit d’auteur.

Image logo
▷ Pour tout problème, un lien vers l’aide est disponible dans le menu de gauche et le Memo à l’usage des (nouveaux) contributeurs rassemble les principaux « trucs et astuces ».
Vous pouvez aussi demander de l’aide à la communauté des Wikisourciens sur le Forum des nouveaux ou le Scriptorium, ou en temps réel sur le chat IRC, ou encore en demandant à être parrainé.

Image logo
▷ Vous pouvez indiquer, sur votre page utilisateur, les langues que vous parlez, vos centres d’intérêt et/ou une brève description. Vous pouvez aussi l’utiliser pour organiser vos outils personnels, vos contributions, etc. Vous pouvez vous entraîner à utiliser les outils en vous créant une sous-page de brouillon à cet effet en cliquant ici. Un mode d’emploi est disponible sur la syntaxe Wiki.
Sur les pages de discussions, pensez à signer vos contributions en cliquant sur l’icône Signature icon april 2018 - 2.png de la barre d’outils.


Bonne continuation parmi nous, Seb35 !

Les contributeurs de Wikisource
--Zephyrus 17 mai 2006 à 15:50 (UTC)
Merci Zephyrus :-) J'aime bien l'image à droite. Seb35 17 mai 2006 à 16:21 (UTC)

Programme de rêve[modifier]

Bonjour Seb35,

Tu imagines sans peine la joie que tu crées ici avec cette page !

--Zyephyrus 28 mars 2010 à 07:18 (UTC)

Est-ce que ton script enlève les marges blanches qui entourent le texte, ou faut-il traiter les images pour les détourer auparavant ? --Zyephyrus 28 mars 2010 à 11:49 (UTC)

Livre BnF[modifier]

Merci. La qualité du scan de la BNF laisse à désirer...

Pyb 29 mars 2010 à 14:41 (UTC)

Effectivement, et je viens de regarder avec l'original en png, mais il n'y a pas de dégradation entre le png et le djvu, c'est bien la qualité originelle qui laisse à désirer. ~ Seb35 [^_^] 30 mars 2010 à 08:50 (UTC)

Conversion png vers djvu[modifier]

Bonjour, j'ai vu sur la page Utilisateur:Seb35/BnF tes scripts de création automatique de djvu.

  • Connais-tu l'option "trim" de l'outil convert, qui permet de détecter et de supprimer automatiquement les marges ?
  • Connais-tu l'outil "unpaper" ? C'est un programme très puissant, qui permet lui aussi de détecter et de supprimer automatiquement les marges d'un document, mais aussi de pivoter les pages pour que le texte soit bien droit, enlever les bandes noires qui apparaissent souvent sur les bords, nettoyer les pages (petites taches ou autres...) et beaucoup d'autres choses. Tout cela étant bien sûr réglable de façon très fine (par exemple jusqu'à quel niveau de blanc une portion de la page est considérée comme une marge...). A découvrir ici : unpaper.

Sans doute connais-tu déjà ces solutions, cela m'intéresse de savoir ce que tu en penses. Zaran (Discuter) 5 avril 2010 à 08:58 (UTC)

Voici un exemple de djvu découpé automatiquement avec l’option trim (tu peux comparer avec la version précédente dans l’historique). Zaran (Discuter) 14 avril 2010 à 22:31 (UTC)

Titre de colonne[modifier]

Bonjour Seb35,

Y a-t-il un décalage dans les titres de colonnes par rapport à leur contenu ? Si oui, saurais-tu corriger cela ? Merci de ton aide ! --Zyephyrus 16 avril 2010 à 12:08 (UTC)

Oui, désolé, j'ai rectifié et ai ajouté qq remarques au début. ~ Seb35 [^_^] 16 avril 2010 à 15:20 (UTC)

Upload BnF ?[modifier]

Bonjour,

Où en est l'upload des fichiers ? Que reste-il à faire ? Peut-on aider ? Cordialement, Yann (d) 13 juin 2010 à 08:39 (UTC)

Il y a plusieurs raisons pour lesquelles un livre serait dans le domaine public avec un « auteur » mort il y a moins de 70 ans. Une des possibilités est que ce soit le directeur d'une publication collective (un dictionnaire par ex.). Dans ce cas, c'est la date de publication qui compte. Il faut donc vérifier quel rôle il a dans la publication, ce qui est difficile sans avoir le document. Je pense qu'il faut donc mettre les fichiers sur Commons. On pourra vérifier ensuite les quelques cas suspects. Il y a en très peu de toute façon. Désolé de répondre si tard. Ma connexion est intermittente. Yann (d) 19 juin 2010 à 16:12 (UTC)
J'ai vérifié : il n'y a que deux auteurs morts après 1939. Pour le troisième auteur mentionné, il s'agit probablement d'une erreur de date. Il n'y a pas d'auteurs correspondants dans le catalogue de la BnF. Yann (d) 19 juin 2010 à 16:56 (UTC)

Bonjour, Merci pour l'upload des fichiers sur Commons. J'ai plusieurs questions : Wikisource:Scriptorium/Juillet 2010#Petits problèmes. Est-ce possible d'avoir une liste des fichiers sans OCR ? Cordialement, Yann (d) 14 juillet 2010 à 14:33 (UTC)

Je ne vais pas trop avoir le temps aujourd'hui de lire le scriptorium et toutes les questions associées, mais pour la liste des fichiers sans OCR, c'était la colonne X sur la liste des livres (liens en bas de la liste actuelle), que j'ai épuré pour retirer les colonnes inutiles mais je n'aurai pas dû retirer la colonne X ; je verrai demain pour fusionner la liste actuelle (avec les liens vers les auteurs) et l'ancienne colonne X. ~ Seb35 [^_^] 16 juillet 2010 à 10:48 (UTC)

création de pages par bnfbot[modifier]

bonjour,

Quel est l’intérêt de créer des pages avec ton robot ? Est-ce que tu as lu la discussion sur http://fr.wikisource.org/wiki/Wikisource:Scriptorium/Mai_2010#Utilisateur:BnFBoT ThomasV (d) 21 juillet 2010 à 14:57 (UTC)

Oui, je suis pas mal le scriptorium en ce moment. Je suis en train d'initialiser les lettres de la marquise de Sévigné à la demande de Zyéphyrus, et seulement ces livres. [1]. ~ Seb35 [^_^] 21 juillet 2010 à 15:10 (UTC)
je ne suis pas d’accord avec la demande de Zephyrus.
il me semble que les améliorations apportées au texte par ton robot sont entièrement programmables en javascript, non ?
ThomasV (d) 21 juillet 2010 à 15:12 (UTC)
Je n’ai pas compris ce que tu veux dire, Thomas. Quel est l’inconvénient de ce que fait Seb et pourquoi est-il préférable que ce soit programmé séparément en javascript ? (où, et par qui ?) --Zyephyrus (d) 21 juillet 2010 à 15:19 (UTC)


Je propose que le robot de Seb fasse une petite pause jusqu’à ce que toutes les pages qu’il a déjà créées aient été corrigées ; Zephyrus, tu t’en occupes ? ThomasV (d) 21 juillet 2010 à 15:25 (UTC)
j’ai bloqué ton robot, en attendant une réponse de ta part. Je pense que la création massive de pages que personne ne va corriger dans l’immédiat est une erreur. ThomasV (d) 21 juillet 2010 à 15:33 (UTC)
Zen, rester calme... donc non, c'est maintenant ou jamais, on doit rendre le serveur d'ici une semaine.
Pour du JS, pourquoi pas mais ça n'existe pas encore.
D'autre part, ce n'est pas une création "massive", c'est 10 livres.
Bon, je vous laisse discuter, vous me dites si je le relance ou pas dans la semaine qui suit. ~ Seb35 [^_^] 21 juillet 2010 à 15:46 (UTC)

Il ne me paraît pas souhaitable de décider quoi que ce soit avant de savoir de quoi il s’agit. Sans avoir compté les livres, sans avoir compris que le bot est là pour peu de temps, sans avoir observé la différence entre un OCR excellent et un OCR moins bon. Je ne suis pas d’accord pour supprimer Madame de Sévigné sous prétexte que c’est trop gros ; cette raison me paraît stupide et dangereuse ; ce texte là tout particulièrement ne dérange personne. Même s’il dérangeait quelqu’un ce ne serait pas une raison pour le supprimer. Je ne suis pas d’accord non plus pour que des décisions de suppression de textes soient prises avec légèreté par des gens qui se posent en experts à propos de certains textes auxquels visiblement ils ne comprennent pas grand chose, et qui n’ont pas compris non plus que les textes ne viendront pas tout seuls si on ne commence pas par les y mettre, même en mauvais état.

Je pense qu’il faut que nous trouvions un garde-fou contre la suppression intempestive des textes. Thomas, toi qui es si fort et si capable, ne pourrais-tu inventer quelque chose pour mettre les textes à l’abri des mouvements d’humeur ? --Zyephyrus (d) 21 juillet 2010 à 16:43 (UTC)

Seb: il n’y a pas d’urgence, on peut toujours faire tourner un robot sur un autre serveur si c’est nécessaire ; inutile donc d’effrayer Zephyrus en lui disant que le robot est là pour peu de temps, et que c’est maintenant ou jamais. Les bonnes décisions ne se prennent pas sous la pression.
Zephyrus, je ne vois pas de rapporte entre le problème que tu évoques (la suppression de textes) et celui dont il est question ici (la création de centaines de pages brutes d’ocr, demandée par toi visiblement). Peux-tu être plus clair, et surtout, expliquer si tu as l’intention de corriger les pages ainsi créées ?
ThomasV (d) 21 juillet 2010 à 17:08 (UTC)
Pour le temps, oui et non. On doit rendre le serveur dans une semaine, c'est sûr ; on le faire tourner sur une autre machine, oui, c'est juste que ça aurait été plus simple sur celui-ci vu que tout marche bien et qu'il faudrait alors enregistrer tous les textes en les targézipant, les transférer, etc. (et ça fait non compressé tout de même 2ko/page x 400 pages x 1057 bouquins = 850 Mo).
Je fais remarquer à l'assemblée, le cas échéant, que l'OCR du tome 1 des Lettres est l'OCR de Wikisource, alors que le tome 4 est l'OCR de la BnF.
Rq : j'ai pas compris non plus l'histoire des suppressions.
~ Seb35 [^_^] 21 juillet 2010 à 17:39 (UTC)
Je fais remarquer également que, même si BnFBoT n'initialise pas les pages, une version non-wikifié de l'OCR de la BnF se trouve également dans la couche texte des DjVu (j'avais déjà dis ça mais je préfère le répéter). ~ Seb35 [^_^] 21 juillet 2010 à 17:49 (UTC)
Thomas, je veux dire que les textes qu’on ne met pas sont des textes supprimés. Le bot de Seb ayant été arrêté, les textes qui étaient en train d’être déposés ne le sont pas, ils sont donc supprimés de la bibliothèque de Wikisource.
Je comprends ta réaction devant certains milliers de pages brutes illisibles qu’on ne peut appeler des textes[1] ; à mon avis un texte dans l’état où Seb le dépose est par contre une très bonne acquisition pour Wikisource, c’est pourquoi je lui demandais de continuer.
Sur la page de discussion de François Jacob j’avais écrit : « Pour emporter un seul livre sur une île déserte, ce que je me lasserais le moins de lire et de relire serait les lettres de Madame de Sévigné. » Est-ce une bonne idée de s’engager à ne corriger qu’une seule œuvre de bout en bout en excluant du même coup tout ce qu’on pourrait apporter d’autre ? Cela me paraît discutable. Mais si je dois me borner à une seule, ce sera sans doute celle-là !
Ai-je répondu à tes questions ? --Zyephyrus (d) 21 juillet 2010 à 17:55 (UTC)
Zephyrus : il ne s’agit pas d’ajouter un texte, car le texte est déjà présent dans le djvu. Il s’agit uniquement d’y ajouter du formatage (retours à la ligne entre les paragraphes, sauts de ligne). C’est une amélioration minime, et qui pourrait être effectuée en javascript (c’est à dire sans créer les pages à l’avance avec un robot). Le problème c’est qu’une fois les pages créées par un robot, il devient impossible d’utiliser une version du fichier dont l’OCR serait meilleure, car la couche texte n’est plus accessible (sauf si on programme un robot avec des droits de sysop pour effacer les pages créées, ce qui est complpiqué, nécessite des droits, et entraînerait la perte des pages corrigées à la main mais pas marquées comme telles). ThomasV (d) 22 juillet 2010 à 08:46 (UTC)
Je peux relancer sur les Lettres ? ~ Seb35 [^_^] 22 juillet 2010 à 08:17 (UTC)
Seb: Je suis très content de la création des pages d’index par ton robot (même si c’est loin d’être parfait, il y aurait des choses à revoir). Mais je pense quue la création automatique de pages a plus d’inconvénients que d’avantages. Et je ne suis pas le seul contributeur à avoir émis des réserves sur ce sujet, cf le scriptorium. Pourquoi, dès lors qu’on t’a dit non pour 500000 pages, penses tu que la réponse devrait être différente pour 5000 pages ?
ThomasV (d) 22 juillet 2010 à 08:32 (UTC)
qualité de l'init : c'est bien puisque la qualité est bonne que je suis d'accord de lancer sur les Lettres. VIGNERON m'avait également demandé pour deux livres de Jean d'Abundance [2] [3], je n'avais pas regardé précédemment la qualité de l'OCR mais ai stoppé le bot sur le deuxième livre où l'OCR est à la ramasse (et donc où il est plus "préjudiciable" à Wikisource d'initialiser des pages exécrables qui de toutes façons seront à réécrire entièrement).
Qui est contre l'initialisation par un bot ? pour les 500 000 pages, j'émets également des réserves.
Pour 5000 pages de bonne qualité, qui est contre ? en tous cas Zyéphyrus est pour, je suis pour dans la mesure où la qualité globale ("une page au hasard") ne baissera pas sensiblement grâce à la bonne qualité (il me semble qu'il y a aussi une fulltitude de page roses out there). J'ajouterais qu'il est intéressant d'expérimenter une initialisation de page prenant en partie en compte la mise en forme wikitexte, pour pouvoir juger sur pièce plus tard si c'est effectivement intéressant, voir les points à améliorer, etc. ~ Seb35 [^_^] 22 juillet 2010 à 09:09 (UTC)
Je crois qu’il y a un gros malentendu entre toi et Zephyrus. Tu proposes de créer ces pages afin d’y ajouter du formatage absent de la couche texte des djvu. Mais ce n’est pas du tout pour cette raison que Zephyrus te dit oui. Zephyrus, comme tu peux le voir plus haut, est pour la création de pages car il considère que si elles ne sont pas créées les textes sont en grand danger d’inexistence. (et je refuse d’entrer dans un débat pareil; c’est une ineptie).
Il est vrai qu’il existe énormémént de pages initialisées par des robots sur fr.ws. Nous avons arrêté cette pratique depuis qu’il est devenu possible de lire la couche texte des djvu. Merci de respecter cette décision.
D’autre part, j’ai l’impression que tu penses que c’est pour éviter d’afficher de l’ocr de mauvaise qualité que je suis contre. Ce n’est aps la raison principale. La raison principale, c’est qu’on se ferme une porte pour l’avenir. Je répète ce que j’ai écrit plus haut : une fois les pages créées par un robot, il devient impossible d’utiliser une version du fichier dont l’OCR serait meilleure, car la couche texte n’est plus accessible (sauf si on programme un robot sysop pour effacer les pages créées, ce qui est complpiqué, nécessite des droits, et entraînerait la perte des pages corrigées à la main entre temps).
ThomasV (d) 22 juillet 2010 à 09:24 (UTC)
Malentendu : je sais pas, en tous cas ça fait un bout de temps que je répète que le bot n'ajoute que de la mise en forme, y compris sur cette page (commentaire du 21 juillet 2010 à 17:49 (UTC))
Ta raison principale : oui, c'est vrai. Deux objections, une à court terme et une "philosophique".
  1. Il serait possible d'ajouter un petit bout de code dans Proofreadpage pour permettre de relire la couche texte même après la création d'une page, par exemple en ajoutant un paramètre dans l'URL "&action=edit&textlayerPreload", et ajouter un bouton dans la barre d'outil qui appelle cette URL, c'est une proposition ; ou alors (mieux et complémentaire) d'ajouter un bout de code dans l'API MediaWiki permettant d'obtenir la couche texte d'une page, indépendamment du statut "créé ou non" de la page
  2. Quel est la motivation de pouvoir récupérer la couche texte d'un DjVu quand la qualité d'une page est "supérieure" ? Les couches textes sont toujours de qualité inférieure ou égale à celle de la page (surtout étant donné qu'il n'y a pas d'écriture page WS -> couche texte). Je dis ça en ayant en tête les multiples détails qu'on a amélioré dans les DjVuS et qui au final sont quasi-imperceptibles, je veux dire qu'il faut aussi savoir se donner une limite à la qualité : on peut toujours faire mieux, mais dans ce cas on n'a jamais fini.
    Quand à une amélioration sensible de la qualité de l'OCR, je trouve que les échelles de temps sont trop différentes pour devoir tenir compte pleinement de ce paramètre, du moins sur des "petites" échelles en nombre de livres (temps amélioration d'un OCR >> (très supérieur) relecture d'un livre)
~ Seb35 [^_^] 22 juillet 2010 à 10:25 (UTC)
Ajouter un tel choix dans Proofreadpage rendrait l’utilisation beaucoup plus compliquée : à chaque fois qu’on rencontrerait une page non corrigée, il faudrait se poser la question de comparer sa qualité à la couche texte…
Le temps que l’on met à relire un livre peut être très long; nous avons beaucoup de pages qui attendent d’être corrigées depuis des années. Si Zephyrus dit qu’il va faire quelque chose, ça ne veut pas dire qu’il va le faire tout de suite, ni qu’il va tenir parole (cf son comportement avec les Fables de La Fontaine). Et même sans tenir compte de Zephyrus, rien ne dit qu’il ne va pas s’écouler dix ans entre la création des pages d’un livre, et leur relecture par un être humain.
En dix ans, bien des choses peuvent changer, qui conduiraient à avoir une couche texte de meilleure qualité que la page créée aujourd’hui : 1. La qualité des logiciels l’OCR peut augmenter. 2. Sans considérer aucune amélioration de la technologie OCR, il se peut aussi qu’on mette la main sur un autre scan de la même édition qui soit de meilleure qualité, ce qui permettrait à l’OCR de produire de meilleurs résultats (Par exemple nous avons constaté que certains scans en provenance de la BnF sont des doublons de livres que nous avions déjà, qui venaient de archive.org, et que les scans de archive.org sont en général de bien meilleure qualité.) 3. Il est probable que d’autres aspects du logiciel qui charge la couche texte évoluent, sans qu’il soit possible de prévoir précisément quoi. Bref, au vu des échelles de temps dont il est question, il me semble hasardeux de décider aujourd’hui de quoi nous n’aurons pas besoin dans 10 ans (c’est un peu comme quand Bill Gates disait que 640ko de mémoire seraient à jamais suffisants pour un ordinateur personnel).
Si, comme tu le dis, les améliorations que tu as pu apporter à la couche texte sont imperceptibles, est-ce qu’elles valent la peine de se fermer des portes ? Et surtout, pourquoi ne pas les incorporer au javascript ? ça fait plusieurs fois que je te pose cette question et tu n’y as jamais vraiment répondu.
ThomasV (d) 22 juillet 2010 à 11:05 (UTC)
Ce que je dis, c'est avec des "Si", Wikisource serait complètement corrigé demain (adaptation contextuelle de Paris en bouteille), après je suis d'accord qu'il faut doser l'importance des paramètres, c'est cette évaluation qui diffère entre nous deux, et seul le futur pourra trancher (voire le passé en partie en regardant l'évolution des OCR (libres et non-libres) et les pratiques de numérisations).
Que dis-tu de l'aspect "expérimentation de mise en forme" évoqué plus haut ?
Adaptations sur les DjVuS (je n'ai pas dit sur la couche texte des DjVuS), je les liste ici (en partie, je dois en oublier) :
  • découpage des marges blanches (très correcte pour 95% des bouquins) par la plus grande page du livre (ce qui fait que quelques bouquins ayant une seule très grande page pâtissent de cette unique page) ;
  • diminution sensible de la taille des DjVuS (facteur 100) en passant au noir et blanc ;
  • utilisation d'apostrophes typographiques dans tous les textes ;
  • coordonnées de chaque mot, chaque ligne, chaque paragraphe dans la couche texte des DjVuS (contrairement au programme Utilisateur:Kipmaster/djvu-ocr qui positionne tous les mots aux coordonnées 0 0 1 1) ;
  • création d'une couche texte spéciale WS (qui apparamment ne va pas être utile) avec prise en compte des en-têtes, des retours à la ligne qu'il ne faut pas mettre en wikitexte, des paragraphes où il faut laisse une ligne blanche en wikitexte, des césures intra-page qui sont automatiquement correctes
  • retrait des paragraphes vides (sans aucune ligne) qui est une abération de l'OCR BnF et que les DjVuS ne supportent pas
  • prise en compte des fucking character sets, la BnF nous fournissait des ISO-8859-1, et DjVuLibre semble avoir parfois quelques problèmes avec l'UTF-8
Un JS avec les features évoqué ci-dessus serait effectivement souhaitable (même pour les livres non-BnF), mais ne pourrait créer que retirer les césures et supprimer les "retours à la ligne", et encore incorrectement car les OCR ne détectent pas et n'indiquent pas les changements de paragraphe (le retrait). La couche texte du bot exploite pleinement (ça aurait bien sûr pu être encore amélioré) les métadonnées de l'OCR BnF (qui lui indique la mise en forme : en-têtes, paragraphes (et donc distinctions entre les retours à ligne de mise en page et les retours à la ligne paragraphe), et césures (d'ailleurs je sais pas le résultat sur les mots du genre "très-{retour à la ligne}important", si l'OCR BnF considère ça comme une césure).
Rq : pour les 640ko, ça ne m'étonnerait pas que ça ait été, du moins en partie, un argument marketing.
~ Seb35 [^_^] 22 juillet 2010 à 11:45 (UTC)

(conflit d'édit) Quelques précisions :

  • Nous avons bien pris acte il y a deux mois de l'opposition des sourciers à créer des zillions de pages (chose que nous proposions, et n'avons jamais cherché à imposer, que je sache).
  • Nous avons proposé aux Wikisourciers ce service, à la demande et pour une durée limitée, et clairement annoncé comme tel. (Sans doute aurait-il pertinent de manifester ton opposition à ce moment-là, mais bon)
  • A la question « pq ne pas les incorporer en JS », il me semble que nous avions déjà donné des éléments de réponses ici, et .
  • Thomas, tu avais utilisé à un moment une formulation que j'aimais beaucoup, en gros que l'initialisation des pages devait être assumée par l'utilisateur qui allait les corriger. J'ai l'impression qu'on est dans ce cas-là avec la demande de Zephyrus.

En fait, j'ai l'impression que ton opposition est plus forte que cela, me trompe-je ? Que tu souhaites une WS complètement 'verte', avec zéro 'rouge', et que du coup rajouter en masse du rouge, c'est Mal (c'est pas un procès d'intention, j'essaye vraiment de comprendre ta position :-). Si c'est ça, ta position se défend, mais histoire de jouer l'avocat du diable, d'autres diraient qu'un corpus de rouge peut constituer une incitation forte pour transformer le lecteur en correcteur : je lis le texte de la Marquise de Sévigné, je voie une grossière faute d'OCR, j'ai envie de la corriger, le soir j'ai fait trois pages, un mois plus tard j'ai fait un tome. J'ai bien conscience que c'est assez naïf comme vision, mais c'est la base du fonctionnement du Wiki quelque-part...

Jean-Fred (d) 22 juillet 2010 à 12:05 (UTC)

Pas du tout, je suis d’accord avec le fait de créer des pages à la demande si un utilisateur a l’intention de les corriger, et si cet utilisateur y trouve un avantage. Mais ce n’est pas le cas de Zephyrus. Relis ce qu’il a écrit plus haut : il souhaite que ces pages soient créées, non pas pour les corriger, mais parce que sinon il a l’impression que le texte est "effacé", pour reprendre ses mots. Il ne s’est nullement engagé à les corriger. De plus, il faut savoir que Zephyrus est un utilisateur relativement âgé, qui souffre de problèmes de mémoire.
Je n’ai rien contre ajouter du rouge; je répète pour la énième fois que ce qui me dérange, c’est d’imposer aux correcteurs à venir nos choix actuels, et les ocr dont nous disposons actuellement ; il vaut mieux attendre, avant de créer des pages, que quelqu’un ait l’intention de les corriger.
ThomasV (d) 22 juillet 2010 à 12:22 (UTC)
Merci pour tes explications. Mais très sincèrement, aussi fondées que soient tes inquiétudes (car je n'ai jamais douté que si tu es contre, c’est tu as de bonnes raisons pour), on ne − peut pas − savoir ce genre de choses (l’âge, la santé, les motivations cachées, etc.). Nous n'avons aucune raison de ne pas supposer la bonne foi d’un utilisateur qui nous a demandé un service.
Donc au final, tu es d'accord sur le principe ( « créer des pages à la demande si un utilisateur a l’intention de les corriger, et si cet utilisateur y trouve un avantage »), mais il faut évaluer ledit utilisateur au préalable. J'ai bon ? Jean-Fred (d) 22 juillet 2010 à 17:20 (UTC)
Il ne s’agit pas d’évaluer les utilisateur, mais de leur demander pourquoi ils font cette demande. As-tu lu, dans ce qu’a écrit Zephyrus, qu’il a l’intention de corriger ces pages ? pose-lui la question, et demande-lui aussi sous quel délai il compte le faire. Je te souhaite bien du courage… ThomasV (d) 22 juillet 2010 à 17:31 (UTC)
Non, je n'ai rien lu de tel. J'ai pour principe de supposer la bonne foi des contributeurs, et donc que si un sourcier demande l’init d'un bouquin donné, c’est que c’est pour le relire. Mes excuses pour ma naïveté. Jean-Fred (d) 22 juillet 2010 à 18:18 (UTC)
<Thomas>Il ne s’agit pas d’évaluer les utilisateur, mais de leur demander pourquoi ils font cette demande. As-tu lu, dans ce qu’a écrit Zephyrus, qu’il a l’intention de corriger ces pages ? pose-lui la question, et demande-lui aussi sous quel délai il compte le faire. Je te souhaite bien du courage… ThomasV (d) 22 juillet 2010 à 17:31 (UTC)
Je ne sais pas ce que Thomas veut prouver. Voici des faits :
Je n’ai pas besoin de répondre davantage aux délires de certains, cette liste parle d’elle-même. Ceci dit, non, je ne suis pas d’accord pour exiger des contributeurs qu’ils prennent des engagements sur des œuvres et un timing précis, et je compte bien continuer à travailler moi aussi librement, sur ce que je choisis, quand je le choisis, car je trouve, comme Jean-Fred l’a dit ci-dessus, que l’esprit du wiki est là ; je trouve aussi que sa vision n’est pas du tout naïve ; je pense comme lui, n’en déplaise à Thomas, que les liens rouges ont permis et continueront de permettre de constituer en grande partie la richesse de notre bibliothèque. --Zyephyrus (d) 22 juillet 2010 à 18:46 (UTC)
  1. Je te rappelle cependant que j’étais contre leur suppression lorsque ces textes étaient par ailleurs introuvables.

/me distribue le thé à mes humbles invités qui discutent sur ma PDD. 22 juillet 2010 à 21:50 (UTC)

Pas d’accord ; nous avons eu une discussion, au terme de laquelle il a été convenu que celui qui demande l’initialisation des pages d’un livre prenne ses responsabilité vis à vis de ce livre. Ce que tu exiges ("ce que je choisis, quand je le choisis") va à l’encontre de cette décision. Si on créé les pages de ces dix livres, qu’est ce qui t’empêchera d’en demander ensuite dix autres, et puis encore vingt autres, et ainsi de suite, sans qu’aucun n’ait été corrigé entre temps ? Je souhaite que tu t’engages à travailler sur ces livres, et à ne pas demander d’autres créations de pages avant que celles-ci n’aient été corrigées. ThomasV (d) 22 juillet 2010 à 19:42 (UTC)
<mode wiki-strict-1984>Je suis également pour l'écriture d'une extension MediaWiki qui interdise à Zyephyrus d'éditer d'autre livres tant que les Lettres de la marquise de Sévigné ne sont pas finies</mode déconne>
Franchement, je comprends pas tout : tu reconnais toi-même que les pages des Lettres sont de bonne qualité et tu veux enchainer Zyephyrus à les corriger dans l'heure qui suit pour qu'elles passent de vert terne à vert flashy.
Encore une fois, que fais-tu des arguments "expérimentation" et "attractivité de nouveaux contributeurs" ? (lire ci-dessus)
~ Seb35 [^_^] 22 juillet 2010 à 21:47 (UTC)
Je viens de passer quelques heures à réfléchir. Soit, une fois de plus, Thomas, je te ferai confiance. Je m’engage à travailler sur ces livres (bien entendu, un des objectifs étant de trouver la meilleure OCR possible si pour certains tomes elle s’avérait défectueuse) et ne demanderai pas d’autres créations de pages avant que celles-ci n’aient été corrigées. Je préciserai d’ici quelques jours ce que je crois pouvoir adopter personnellement, et proposer à d’autres, comme plan de travail. Je compte aussi terminer, avec ou sans aide, les Fables de La Fontaine édition Barbin et leur modernisation. --Zyephyrus (d) 22 juillet 2010 à 22:52 (UTC)
les arguments "expérimentation" et "attractivité" n’ont pas à être discutés sur cette page ; cette discussion a déjà eu lieu dans le scriptorium. La seule question qui mérite d’être discutée est de savoir si vous êtes en train de respecter la décision qui a été prise à ce moment là, ou bien si vous êtes joyeusement en train de vous asseoir dessus. Zephyrus vient de s’engager à ne pas demander d’autres créations de pages avant d’avoir fini ces livres; je pense donc que tu peux créer les pages de ces 10 livres (même si je trouve que 10 d’un coup c’est un peu limite). ThomasV (d) 23 juillet 2010 à 02:55 (UTC)
Quand tu dis qu'on ne respecte pas la décision qui a été prise, tu parles de quoi ?
  • que Toi, Andre315 et Zaran ne voulaient pas des 500 000 pages ? jusque là je suis aussi d'accord.
  • et/ou que Tu ne veux pas que les Lettres (5000 pages) soient initalisées ?
Je suis désolé si j'ai mal suivi, mais il ne me semble pas que la Communauté ait opposé un quelconque veto sur la deuxième après que j'ai proposé d'initialiser à la demande certains livres. Tu as des NOMS ? particulièrement sur la deuxième question ?
~ Seb35 [^_^] 23 juillet 2010 à 14:11 (UTC)
Si tu peux les initialiser maintenant que Thomas a donné son feu vert et que j’ai pris l’engagement de concentrer mes efforts sur ces lettres, Seb, ce serait pratique d’avoir toute la série car cela permet de suivre le système de renvois des éditeurs d’une lettre à l’autre de façon beaucoup plus efficace (vive l’informatique !). Merci, à beaucoup de titres, Seb et Jean-Frédéric, de votre comportement dans toute cette affaire, et merci, Thomas, d’avoir éclairé le chemin à suivre. --Zyephyrus (d) 24 juillet 2010 à 22:40 (UTC)
Une dernière mise au point car je ne peux laisser passer un tel malentendu : Thomas a écrit ci-dessus :Si Zephyrus dit qu’il va faire quelque chose, ça ne veut pas dire qu’il va le faire tout de suite, ni qu’il va tenir parole (cf son comportement avec les Fables de La Fontaine) (…) 22 juillet 2010 à 11:05 (UTC)</> Le début de la phrase est peut-être mérité mais certainement pas sur les Fables de La Fontaine, un projet où beaucoup de wikisourciens ont participé mais où il me semble bien que j’ai été la seule personne à le porter de bout en bout. J’ai beaucoup travaillé notamment avec Yann, puis Philippe et Laos, puis Thomas lors de la construction de son modèle {{modernisation}}, et cela fait longtemps, depuis le départ de Philippe, que j’y consacre une part de mon temps sans aucune commune mesure avec celle qu’y ont consacrée (à partir de cette date) les autres contributeurs. Je prierai donc Thomas de ne pas formuler ses critiques de façon à donner l’impression que j’aurais abandonné ou oublié La Fontaine. Merci. --Zyephyrus (d) 25 juillet 2010 à 06:17 (UTC)

création des pages d'index[modifier]

il reste pas mal de problèmes avec les pages d’index créées par ton robot : voir ce diff : [4]

  • le champ année est effacé lors de l’édition, car tu as oublié un accent aigu dans le nom de la variable.
  • il manque un numéro de page pour la vignette
  • l’avancement est toujours à "C", même quand il n’y a pas de couche texte

Visiblement tu n’as pas suffisament testé ton robot avant de le lâcher dans la nature. Peux-tu corriger ces problèmes? ThomasV (d) 22 juillet 2010 à 10:16 (UTC)

Ok. Cela dit, parler de « tu n’as pas suffisament testé ton robot avant de le lâcher dans la nature » me semble un tantinet mesquin. Jean-Fred (d) 22 juillet 2010 à 12:05 (UTC)
Une erreur un peu grave a été de ne pas vérifier si la page existait déjà, je me suis dit qu'il faudrait que je repasse sur les création d'index de BnFBoT pour vérifier quand les pages étaient existantes, mais je ne l'ai pas encore fait
  • Champ année : désolé, on a dû prendre exemple sur un mauvais exemple ou une faute de frappe (Errare humanum est)
  • Numéro de page : pas possible, seul un humain peut chercher la première page correcte (d'autant que la plupart des pages 1 sont des histoires de microfilm)
  • Oui, ça aurait pû être appréciable
Il y a des erreurs, c'est vrai, on a cependant une grosse partie de correcte, grâce à l'aide en particulier de VIGNERON qui nous a conseillé en IRL. ~ Seb35 [^_^] 22 juillet 2010 à 12:27 (UTC)

@Seb : J’espère que tu ne prends pas mes critiques comme de la mesquinerie. Il me semble normal de signaler les problèmes quand il y en a. Pour les vignettes, tu peux utiliser la première page du djvu ; c’est mieux que de ne rien mettre du tout, car ça permet aux pages d’index d’avoir toutes le même format, et à commons de savoir que le fichier est utilisé. ThomasV (d) 22 juillet 2010 à 12:35 (UTC)

Je m'excuse pour ce mot déplacé (sincèrement). Tes critiques sont évidemment pertinentes et bienvenues. C'est juste que, comme tout le monde, je trouve dommage de devoir repasser sur des erreurs qu'on aurait pu ne pas faire, si on nous avait fait ces critiques il y a deux mois lorsque nous l’avons demandé. Tant pis, ya rien de gravissime semble-t-il, et tout est rectifiable. Mais tu comprendras que c'est pas super agréable de s'entendre dire qu'on a pas testé, alors que si. Jean-Fred (d) 22 juillet 2010 à 12:44 (UTC)
Désolé, mais je suis assez sollicité de partout, et je n’ai pas le temps de prendre part à toutes les discussions. Je n’ai pas dit que vous n’avez pas testé, juste pas suffisament.
ThomasV (d) 22 juillet 2010 à 12:48 (UTC)

Livre:Hatin - Histoire politique et littéraire de la presse en France, tome 1.djvu[modifier]

Salut,

Peux-tu créer les pages de ce tome (et tous les autres tomes, si cela ne te demande pas trop de temps. Sinon j'attendrai, j'ai déjà de quoi faire avec le premier tome Clin d'œil) ? Merci d'avance. Pyb (d) 25 juillet 2010 à 18:45 (UTC)

Retour[modifier]

Salut :) Effectivement je reviens sur une face où j'userais surement moins mon énergie dans des débats stériles :) Shaihulud (d) 29 juillet 2010 à 19:51 (UTC)

OCR[modifier]

Salut, voici quelques remarques sur l'OCR après avoir travaillé sur les textes de la BNF.

  1.  » est remplacé par ))
  2. Il manque de nombreux : et ;

PS : merci pour le passage du bot sur le livre consacré à la presse. Pyb (d) 12 août 2010 à 18:35 (UTC)

Intervention d'IP à conserver ?[modifier]

Bonsoir Seb35,

Est-ce que cet ajout d’un anonyme est quelque chose de sérieux, le sais-tu ? Aurons-nous des stats, est-ce toi qui as mis ce lien ou es-tu au courant de ce dont il s’agirait ?--Zyephyrus (d) 4 octobre 2010 à 19:19 (UTC)

Oui, c'est moi, je n'étais pas connecté sur cet ordinateur. Je suis en train de préparer des stats, je vérifie mes trucs et je montrerai ce soir ce que je calcule et surtout voir s'il y a des trucs que j'oublie. ~ Seb35 [^_^] 4 octobre 2010 à 19:46 (UTC)

OCR de Livre:Gautier - Quand on voyage.djvu[modifier]

Bonjour, je voulais savoir s'il y a une version de l'OCR disponible (autre que d'aller chercher sur la bnf) ? Je crois que tu es le mieux placé pour savoir ? S'il n'y a pas une version améliorée de l'OCR quelque part ? Par avance merci de ta réponse. J'aurai été pour que l'on mette l'OCR dans les pages, cela incite les gens à corriger, cela permet aussi de voir ce qu'il ont apporté comme correction, cela permet un meilleur référencement de texte sur internet, ... il y a sans doute aussi des désavantages Sapcal22 (d) 5 octobre 2010 à 20:52 (UTC)

Merci pour le lien. Il n'y a effectivement pas d'OCR pour ce texte. Sapcal22 (d) 6 octobre 2010 à 20:43 (UTC)

La Parfaite connoissance...[modifier]

Hello Seb' Sourire !

Je n'ai pas pu répondre avant car nous avons de gros problèmes de connexion internet ces temps-ci.

Le livre de Saunier est effectivement très intéressant. Se replonger quelques siècles en arrière en médecine (qui plus est, vétérinaire :)) est toujours passionnant et étonnant.
Pour le coup, j'ai l'impression de tomber sur une médecine faite de petites décoctions douteuses de grand-mère (ou plutôt, arrière-arrière-arrière-arrière-…) ! J'aimerais bien connaître le taux de succès de ses traitements en général… En même temps, il faisait avec ce qu'il avait sous la main à cette époque. Et les humains n’étaient parfois pas logés à une meilleure enseigne (fer rouge et tutti quanti).
Vive le progrès quand même !

J’ai vu sur ta PU que tu étudiais à Rennes, ma sœur aussi (doctorante en archéo) !

Bonne soirée (ou plutôt Kenavo !),
AnneJea (d) 25 octobre 2010 à 20:06 (UTC)

Wikisource:Dialogue BnF/Stats[modifier]

Bonjour, Il semble qu’il aurait dû y avoir une version en janvier 2011 ?… Yann (d) 22 février 2011 à 17:11 (UTC)