Wikisource:Des formats variés pour Wikisource

La bibliothèque libre.
Aller à : navigation, rechercher
Idées et projets
    Légende des icônes : état d’avancement des projets et des portails
   00%.svg   En projet     25%.png   Commencé     50%.png   En cours     75%.png   Avancé     Relu et corrigé   Terminé  







Projet n° 22 – Formats de sortie pour Wikisource

Projet Formats - Répondre aux demandes de différents formats pour Wikisource


Extension epub[modifier]

Transclusion

Source : Discussion utilisateur:Tpt


Bonjour tous et Tpt, Hsarrazin (d · c) m'a proposer de prendre contact avec toi. En effet, j'arrive tout juste sur WS et je m'éclate à faire (et à baliser le texte) du Livre:Shakespeare - Œuvres complètes, traduction Hugo, Pagnerre, 1873, tome 12.djvu . Hsarrazin (d · c) m'a donné un lien pour tester le générateur ePub (http://wsexport.wmflabs.org/tool/book.php). Il y a certes encore du boulot, le code est alourdi et à première vu, je n’ai pas vu de CSS (celui de Hsarrazin (http://fr.wikisource.org/wiki/Utilisateur:Hsarrazin/test#Ma_feuille_de_style_perso) a l'air bien pour une couv, reste à faire le rest, je me propose d'aider). Comme je lui disais, je code généré par InDesign 5.5 est le plus court que je connaisse (je n’ai pas trop testé Calibre car c'est mon métier de mettre en page sur InDesign !) et le plus efficace en terme de notes et TdM. Si tu as besoin de tester des choses (car pour coder, je connais un peu le php, mais je n’ai fait qu'une formation de 4 mois sans trop de pratique depuis).
Il me semble donc que le code généré est inexploitable, c'est donc une version alpha ! Ne peut-on pas simplement extraire le texte et sa feuille de style et mettre le CSS au lieu de généré du xmlns="http://www.w3.org/1999/xhtml" à tout bout de champ ? Qu'en est-il de la limite de 300 Ko par fichier dans l’ePub ?
Ah, il y a autre chose : votre cas par cas est loin dans ce cahier des charges. Je pense qu'il faut simplement rester… simple : générer la couv, l'intro, les métas données, le texte, un CSS standard (pour l’instant), une TdM, le © de licence GNU quelque chose. Si on veut générer un livre d'un des tomes (comme celui que je fais), il faut savoir que les notes sont mises en fin de tome avant l'annexe. Dans une page nous auront — lors de la génération de la pièce Henry V, par exemple — le début des notes du livre suivant (Henry VI), en effet, dans le papier, le texte ne sépare pas les notes pour telle ou telle pièce de Shakespeare. Ce § en trop devrait existé.
Voilà, donc je me proposerais bien pour aider, mais n'étant pas un grand codeur (je sais programmer depuis… 30 ans déjà ! ça passe vite, mais bon pas en mode fast ! Donc si besoin de faire une CSS, ce sera largement dans mes cordes.
--Matisk (d) 19 février 2012 à 14:36 (UTC)
En effet, le xhtml généré n’est pas génial mais on est obligé de faire avec ce que l’on a, à savoir ce que Mediawiki nous propose. « au lieu de généré du xmlns="http://www.w3.org/1999/xhtml" » je ne vois pas que tu veux dire, le format epub est basé sur du xhtml valide, la précision du namespace est obligatoire. Pour Shakespeare, c’est un cas particulier. l’exportateur se veux générique et fonctionne pour toutes les Wikisource. Le microformat est justement là pour gommer les disparités ainsi que les css spécifiques à chaque langues (Mediawiki:Epub.css pour fr). Au sujet de ces derniers, je viens de m’apercevoir d’une régression qui empêchait l’inclusion de cette feuille de style. C’est maintenant réparé. Pour l’aide sur les CSS, j’accepte ton aide avec grand plaisir. Si tu connais git, le dépôt est là pour toi !Tpt (d) 19 février 2012 à 15:32 (UTC)

Tests de WSexport[modifier]

J'ai fait hier soir quelques tests en sortie Epub. J'ai testé le résultat avec le visualiseur de Calibre, Adobe Digital Reader sur PC, et un Sony PRS-850 (avec Adobe Reader Mobile). Quelques résultats à problèmes certains (il y en a d'autres que je n'ai pas pu encore cerner):

  • L’Ingénieux Hidalgo Don Quichotte de la Manche (wiki avec chapitres ; quelques chapitres du début sont en mode page)
    • Calibre : OK (tous les chapitres sont présents dans la table des matières avec le libellé; le libellé du chapitre n'est pas dans le texte)
    • Adobe sur PC : OK id
    • Sony Reader : "Page error" à l'ouverture.

Je vais continuer les tests.

Suggestion : Ajouter sur la page de titre (la 2e après l'image) la date et l'heure de création. Quand on fait de tests répétitifs sur le même ouvrage, on finit par ne plus être sûr de ce qu'on regarde.

--Wuyouyuan - discuter 30 décembre 2011 à 03:48 (UTC)
Je crois avoir trouvé la différence entre les chapitres avec image qui plantent et ceux qui donnent un bon résultat: si l'image est dans une page transcluse, tout va bien. Si elle est appelée directement depuis le chapitre, ça plante. Un exemple : Nouvelles asiatiques/Becque/La Vie de voyage.
Hypothèse: le "Page error" des ouvrages en wiki sur Sony Reader proviendrait de la présence d'une première page, destinée à recevoir l'image du Livre:, et qui ne contient rien. --Wuyouyuan - discuter 30 décembre 2011 à 05:23 (UTC)


Bonjour Tpt,
  • Je fais mes tests sur deux autres outils que Wuyouyan, à savoir le epubreader de Firefox et Sigil (application d'édition d'epub), qui me permet de les remanier facilement, en particulier en leur ajoutant "ma" feuille de style perso (que je te livre Utilisateur:Hsarrazin/feuille_de_style sans aucun droit d'auteur) - elle me permet d'harmoniser tous les epubs, quelle que soit leur provenance…, ce qui, avec ma liseuse Cybook Opus nous fait 6 outils de test : penses-tu que nous pourrions envisager de mettre en place des indicateurs "testé avec Calibre,", "testé avec epubreader", etc. ?
  • en faisant des tests hier soir, j'ai constaté que la pratique consistant à "masquer" les chapitres dans les pages (soit avec Noinclude, soit dans l'entête), le titre apparaissant dans la boîte de navigation, donne des résultats assez pénibles à lire, car on "perd" le passage d'un chapitre à l'autre. sur cet ouvrage, j'ai remis en place les titres de chapitres, et revu la transclusion… le résultat est beaucoup plus satisfaisant : ça fait partie des caractéristiques qu'il faudrait tester pour un bon "export" :)
  • J'ai vu que tu as passé en metadonnées les données d'éditeur et de date (ou de recueil ou revue d'origine des textes) - penses-tu qu'il serait possible de les ajouter (sans trop charger) sur la page de titre ? - la date d'export (comme suggéré par Wuyouyuan) serait également une bonne idée :)
  • Penses-tu qu'il serait possible d'intégrer au début (ou à la fin) de chaque epub, une page de "non copyright" - indiquant que cet ebook provient de Wikisource-fr et ses conditions d'utilisation et de diffusion (libres) (à rédiger et soumettre au Scriptorium - je n'ai pas réussi à trouver sur le site de page équivalente…), un peu comme le fait Gutenberg, et éventuellement, à la fin, un petit encadré à partir de l'Infoédit (idem), afin de "créditer" les contributeurs ?
  • est-il possible de désigner comme page principale une page qui n'est pas dans l'espace Principal (une page Utilisateur par ex.) ? - car je voudrais faire des tests, sans parasiter l'espace principal…
  • dernier point : sur la page d'accueil du moteur [1] il y a une faute à "naime" au lieu de "name" - tu as dû être influencé par "mainspace" Mort de rire - serait-il possible "aussi" d'indiquer le texte en français ? - et d'autre part, le moteur indique de choisir le wikisource (en ou fr) : cela signifie-t-il qu'on peut "exporter" de tous les WS ?
Merci !merci pour tout --Cordialement, Hélène (d) 30 décembre 2011 à 08:16 (UTC)
Oui Le coup des titre de chapitre est en effet génant, je pense comme toi que cela doit faire partie des conditions qui sont avant tout à faire respecter. Je te laisse mettre à jour les conditions.
Pour l’ajout des métadonnées dans la page de titre je vais faire cela tout de suite. Si quelqu’un pouvait faire un design propre pour cette page de titre sur Wikisource, je me ferai un plaisir de l’intégrer à l’exportateur.
Pour la page de "non copyright" Pyb est en train d’y travailler.
Pour les problèmes d’images je vais regarder cela. Si vous puviez lister les livres à problèmes, ce serai génial comme base de travail et de test. Tpt (d) 30 décembre 2011 à 09:53 (UTC)
Pour le design de la page de titre, je sais très bien le faire en xhtml avec css (donc pour epub), mais je suis incapable de le reproduire en Wiki… veux-tu mon code ? Utilisateur:Hsarrazin/test - je vais essayer d'en faire une "mise en forme" visible… mais je ne garantis rien :S --Cordialement, Hélène (d) 30 décembre 2011 à 10:27 (UTC)




Démarrage du projet[modifier]

Motivation[modifier]

Transclusion

Source : Wikisource:Scriptorium/Juillet 2010

Possesseur d'un iPhone j'ai découvert hier soir cette nouvelle application qui permet d'acheter des livres électroniques pour les consulter sur iPhone, iPod et iPad. Mais j'ai surtout été surpris par la présence dans la bibliothèque en ligne de nombreux livres du projet Gutenberg. Je pense que ce serait un bon moyen de promotion pour wikisource de diffuser les livres qui ont été validés sur cette plateforme. Je ne connais pas les conditions que pose Apple, mais pour avoir feuilleté plusieurs livres de Gutenberg, plusieurs commentaires se plaignaient du nombre de coquilles présentes. J'ai oublié de préciser, les livres Gutenberg sont bien sûr gratuits.

Qu'en pensez-vous ? Serait-il possible d'envisager une collaboration avec Apple pour mettre à disposition les livres validés de wikisource ? Aristoi (d) 7 juillet 2010 à 13:22 (UTC)

Je ne sais pas quels sont les avis des uns et des autres, ni quels sont les obstacles éventuels à une telle collaboration, mais en ce qui me concerne ce serait avec grand plaisir. --Zyephyrus (d) 7 juillet 2010 à 13:42 (UTC)
Excellente idée. Quelques questions : les livres sont gratuit mais l’application aussi ? sinon par curiosité, combien de personnes ont un iPhone ? En dehors des conditions de Apple, il y a aussi la technique, qui pourrait développer cela ? Y a-t-il vraiment besoin d’une collaboration avec Apple (je crois que non mais sans certitude). Cdlt, VIGNERON * discut. 7 juillet 2010 à 22:07 (UTC)
Les livres sont gratuits, l'application est gratuite (il faut avoir mis à jour le système d'exploitation du téléphone cependant, pour l'iOS4). De plus l'iPhone n'est pas le seul appareil pour pouvoir lire les livres, l'iPad et le Ipod Touche le permettent aussi. Une rapide recherche google nous indique que l’été dernier il y avait 1,7 millions d'iPhone en France. Ensuite, niveau technique je n'ai aucune idée de ce qui serait nécessaire ; cependant il est dit que les livres peuvent être au format pdf ou eBook. Je n'ai pas réussi à trouver le moyen d'uploader de nouveaux livres ni les conditions d'Apple. Aristoi (d) 8 juillet 2010 à 07:26 (UTC)

C'est en effet un très bon projet de pourvoir lire les texte de wikisource sur les smartphone en général. Pour cela je vois deux solution : soit convertir les textes de wikisoure dans un format d'ebook comme l'w:epub (utilisé par iBooks, les w:Kindle ce qui implique d'avoir une version stable du texte et qui n'est donc envisageable que pour les livres validés ; soit faire des applications wikisource sur iPhone, android, blackberry... qui mettrai les page html de wikisource en version mobile et qui les sauvegarderai. Mais pour cela, il faudrait créer un système beaucoup plus normalisé de présentation des textes. Tpt (d) 9 juillet 2010 à 09:57 (UTC)

Je pense qu'on peut beaucoup élargir cela. Il faut pouvoir créer des fichiers à la demande dans plusieurs formats (PDF, ePub, etc.), qui peuvent ensuite être téléchargés. Cela motiverait grandement la validation. Yann (d) 9 juillet 2010 à 12:28 (UTC)
Créer un projet : n° 22, Des formats variés pour Wikisource ? J’aimerais bien moi aussi répondre à une variété de demandes plutôt qu’une seule.--Zyephyrus (d) 9 juillet 2010 à 13:08 (UTC)


Formats existants[modifier]

Pour information, Internet Archive est probablement le site qui propose le plus de formats :

  • lecture en ligne (Read Online, le seul format que l’on maitrise déjà sur WS Clin d'œil)
  • PDF (existe déjà sur WS mais pas fonctionnel) / PDF Noir et blanc (donc plus léger)
  • EPUB
  • DAISY (Digital Accessible Information SYstem, norme ouverte)
  • Kindle (?)
  • w:Fichier texte .txt (Full Text)
  • DjVu (existe déjà via Commons, envisager la possibilité d’y intégrer le texte validé ?)

Il existe une multitude d’autres formats :

Ces formats existent avec de nombreuses variations de codages : ascii, utf8, utf16, utf32, latin1, latin9, etc.

Il faudrait commencer par faire un tri. Produire un pdf correct potable me semble le plus important et urgent (sachant qu’il existe des outils ensuite pur convertir de pdf vers les autres formats cela pourrait être une solution de bricolage en attendant mieux). Cdlt, VIGNERON * discut. 13 juillet 2010 à 06:51 (UTC)

Ne serait-il pas urgent aussi de produire des articles explicatifs sur Wikipédia concernant tous ces termes ? Il semble qu’une partie des liens que je viens d’ajouter n’aboutissent pas à des articles, cela me paraît étrange. --Zyephyrus (d) 13 juillet 2010 à 07:33 (UTC)
Oui aussi ;) Je m’en charges. Déjà je viens de corriger un peu la liste. Cdlt, VIGNERON * discut. 13 juillet 2010 à 10:17 (UTC)
On discutait à Wikimania avec Bastien (employé WMFR) et Ash Crow, et on trouvait que le format ePub serait vraiment pratique pour la diffusion des textes WS. ~ Seb35 [^_^] 17 juillet 2010 à 20:53 (UTC)

Est-ce que tous les formats de cette liste sont compatibles avec la politique de rejet des formats propriétaires définie sur Meta ? Sont-ils tous accessibles gratuitement, et le resteront-ils ? --Zyephyrus (d) 22 septembre 2010 à 19:29 (UTC)

Non, la plupart de ces formats sont fermés et/ou propriétaires et/ou payant. Mais on n’a pas le choix, certains matériels n’acceptent que tel ou tel format, il faut aussi s’adapter aux besoins.
Après, cela n’a rien à voir. D’abord, la politique que tu donnes en lien est juste un essai et pas une politique validée. Ensuite, les livres sous format ePub et autres ne seraient pas téléchargé sur le site (cela serait un travail de titan) mais générés sur demande (comme le PDF actuellement − quand il fonctionne).
Cdlt, VIGNERON * discut. 11 décembre 2010 à 10:57 (UTC)

L'important est de bien distinguer le fond (c'est-à-dire le texte lui-même, et son formatage) de la forme (le format de fichier). Il faudrait que les textes soient dans un format qui permette de convertir facilement dans tous les formats. Pour le format de sortie à privilégier, PDF me semble mauvais car il fixe le rendu (sur un téléphone, les PDF sont généralement illisibles). Les formats type ePUB sont bien plus adaptés. ePUB me semble un bon candidat pour le moment, mais il faut penser à l'avenir et donc n'être pas entièrement lié à ePUB. Cela vaudrait sûrement le coup de discuter avec les développeurs de fbreader.

Essai au format epub[modifier]

Comme je trouve ce projet plutôt intéressant, j'ai voulu voir quelles étaient les difficultés pour convertir vers un format lisible par beaucoup de liseuse : le epub.

J'ai commencé un programme en Java pour convertir une monographie simple en epub. L'idée est de partir de la version page qui est la seule à avoir une version normalisée de l'information sur un livre via le modèle Proofreadpage_index_template (titre, auteur, page couverture et sommaire). Basé sur cette information, je récupère les pages transcluses référencées dans la table des matières pour former l'ouvrage.

Le résultat est lisible sous le plugin epubreader pour Firefox , mais des difficultés apparaissent avec le rendu : - les pages doivent être du XHTML : on retrouve le souci des id de pagenum Wikisource:Scriptorium/Novembre_2010#Bogue_de_conformit.C3.A9_HTML_et_XML_dans_MediaWiki:Proofreadpage_pagenum_template - les CSS complexes sont mal prises en compte dans Adobe Digital Editions (ADE), en particulier les lettrines ... Je suis donc obligé de faire pas mal de "corrections/simplifications" des fichiers xhtml renvoyés, et je suis sur que je n'ai pas encore vu tous les modèles.

En tout état de cause, j'ai déposé un premier exemple, issu (au hasard :-) de La Mare au Diable, sur Mare au Diable.epub pour avoir vos avis (le format epub ne semble pas être autorisé pour les versements dans Wikisource). Toto256 (d)

Je viens de télécharger et de convertir en .PDF avec Calibre. Ca produit un PDF en format variable. Les lettrines ont disparu, et il y a des alinéas de trop dans les pages de table des matières. On a quelque chose de tout à fait utilisable. Si j'ai bien compris, l'outil pour EPUB génère le fichier à partir de la table des matières de l'ouvrage. Cela vaudrait la peine d'essayer en exploitant un "texte entier" (au hasard Odes en son honneur/Texte entier). Et aussi un texte avec des notes Deux Mémoires de Henri Poincaré sur la Physique Mathématique. En dernier lieu, voir ce que ça donne pour un monument compliqué comme Essai sur l’inégalité des races humaines. J'ai l'impression que ce genre d'outil va obliger les contributeurs à penser "ouvrage convertissable" quand ils conçoivent la présentation de leur travail. Jusqu'ici, la nullité (sur Wikisource) de l'outil de conversion en PDF avait empêché d'y réfléchir; l'idée du "texte entier" étant une espèce de consolation. --Nyapa (d) 10 décembre 2010 à 01:33 (UTC)
Bonjour. Pour générer des epub en quelques secondes j'utilise writer2epub qui est une extension OpenOffice. À partir de la page texte entier du document Wikisource je sélectionne le texte, fais un copier/coller vers OpenOffice et l'extension génère automatiquement le fichier epub. Les italiques et gras sont conservés, la table des matières est générée à partir des titres de chapitres. --Bgeslin (d) 10 décembre 2010 à 12:52 (UTC)
Bgeslin c’est la deuxième fois que tu réussis à proposer des solutions efficaces et vraiment simples (à ma portée, c’est tout dire)  ; si tu continues je pourrai te mettre un jardin de roses comme précédemment à Kipmaster quand il a créé le classement des index.  :-) Merci, encore une fois ! --Zyephyrus (d) 10 décembre 2010 à 13:22 (UTC)

Quelques informations utiles :

  • sur les projets Wikimedia, seul les formats libres peuvent être importer, donc en ce qui nous concerne Djvu, PDF et TIFF multipage (commons:Commons:Formats de fichiers pour la liste complète)
    • mais (sauf erreur) on n’a pas besoin d’importer un fichier donc on peut très bien faire de l’epub ou autre
  • actuellement, il existe une extension pour générer des PDFs : mw:Extension:PDF_Writer.
    • cette extension a été crée par PediaPress et se base sur le WikiTexte (et non sur le rendu XHTML 1.0 des projets Wikimedia). L’avantage est que PediaPress propose ensuite un service d’impression, l’inconvénient est que cela ne fonctionne pas sur Wikisource.

Cdlt, VIGNERON * discut. 11 décembre 2010 à 11:17 (UTC)

Bonjour, je suis content d'avoir relancé le débat, à défaut de proposer une solution simple.
Quelques remarques :
  • je ne vois pas en quoi le format EPUB n'est pas un format libre : à ma connaissance, la spécification est librement disponible, il n'y a pas de brevet associé (il s'agit d'XML, XHTML et de ZIP ...). Il devrait être possible de mettre à disposition ces fichiers qui sont lus par la plupart des liseuses.
  • quelque soit la manière de les obtenir, je trouve qu'il faudrait un processus pour pouvoir demander leur génération et offrir une bibliothèque des ces documents. Si Wikisource souhaite être plus connu, il faut valoriser le travail de ces bénévoles en fournissant des livres utilisables directement (que ce soit en PDF ou en epub).
  • au final, comme généralement, l'objectif ne me semble pas être tant de résoudre un souci technique (on voit qu'il y a au moins 2 façons de faire et très probablement beaucoup plus) que de s'accorder sur une façon de faire pour produire un ensemble de fichiers répertoriés des oeuvres qui sont dans un état abouti.
Faut-il espérer pouvoir monter quelque chose dans le cadre de wikisource ou doit-on imaginer qu'il s'agit d'un service externe ? Toto256 (d) 11 décembre 2010 à 15:23 (UTC)
  • Je n’ai pas dit que EPUB n’était pas libre (et tu n’as pas dit que j’avais dit que… bref arrêtons là). Pour le moment, EPUB n’est pas dans la liste des formats acceptées, cela peut probablement assez facilement changer (ou pas, à voir).
  • exactement, il nous faut un processus automatique; par contre je ne vois pas ce que tu nommes « une bibliothèque » exactement ?
  • si le souci est technique (les méthodes proposés ci-dessus ne fonctionne pas très bien et uniquement pour produire quelque fichier à la main, là on parle de milliers de livres, cela devra forcément passez par un processus automatique).
Les deux ne me semble pas incompatible : on peut faire un truc tout seul dans notre coin qui sera utilisé par un service externe, on peut utiliser un service externe que l’on utilisera tout seul dans notre coin, etc. Ceci dit, il me semble important de travailler à minima avec toutes les wikisources et éventuellement avec les devs de Mediawiki et des PediaPress.
Cdlt, VIGNERON * discut. 12 décembre 2010 à 12:54 (UTC)

epub EST un format LIBRE Wikipedia !! Ce qui n'est parfois pas libre, ce sont les DRM Adobe, rajoutées par certains éditeurs. Personnellement, je fabrique des epub "à la volée" soit avec OpenOffice (quand j'ai un document Word), soit avec Calibre ou Sigil quand j'ai un HTML, depuis plus d'un an. Le travail est propre, et surtout peut être retravaillé très facilement. Un autre outil "en ligne" qui propose une API pour les webmestres Dotepub - rapide et simple, à condition d'avoir un document en une page, avec une feuille de style bien construite. En tout cas, je mets mon expérience des fichiers Epub à la disposition des Wikisourciens, car c'est justement dans cet objectif que j'ai commencé à explorer Wikisource à l'origine. --Hsarrazin (d) 27 février 2011 à 22:56 (UTC)

Format pdf[modifier]

Voir ici. --Zyephyrus (d) 17 janvier 2011 à 17:30 (UTC)

Des conversions manuelles[modifier]

Sur le site [2], je propose des ebooks dans un certain nombre de formats depuis un peu plus d’un an. Ils sont générés à partir d’un format XML que j’ai défini, à mi-chemin entre HTML et TEI. La semaine dernière, j'ai regardé comment passer de wikisource à mon format et de là aux ebooks. Pour l’instant, je pars du dump XML de wikisource et j’utilise awk et emacs pour faire le gros du travail sous contrôle manuel (environ une heure pour un premier jet d’un livre simple). J’ai fait les quatre premiers des Rougon-Macquart, et le résultat avant relecture est à [3] (publié seulement pour le bénéfice de cette discussion). --Eric Y Muller (d) 18 janvier 2011 à 03:58 (UTC)

Exemple de présentation sur liseuse[modifier]

Voir ici. --Zyephyrus (d) 22 mars 2011 à 09:07 (UTC)

Recette pauvre pour fabriquer un ebook a partir d une page affichee de Wikisource[modifier]

Principe: On extrait du wiki un fichier HTML qu'on fait traiter par un générateur d'ebooks. Pas de copier-coller, ou manipule des fichiers entiers.

Pratique: On part de l'affichage "imprimable" d'un fichier "texte entier" de l'ouvrage à traiter, et on élimine le code HTML en trop avant de l'envoyer au générateur d'ebooks.

Outils: Firefox (j'ai la version 4), Calibre (j'ai la version 0.7.54), et Notepad.exe


Sur Firefox
  • afficher la page "texte entier" et passer à l'affichage "impression"
  • sauvegarder le fichier HTML


sur Notepad
  • Ouvrir le fichier HTML avec Notepad (partir du fichier et choisir "ouvrir avec ...." ; en partant de Notepad, on a des problèmes de codage des caractères accentués).
  • Eliminer les lignes de code HTML après la 3e (dernière ligne conservée " <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> " ) jusqu'à " <!-- /jumpto --> <!-- bodytext --> " qu'on conserve.
  • Eliminer les lignes de code HTML à partir de "<!-- NewPP limit report [...] " jusqu'à la fin.
  • Rétablir les balises " </head><body> " après les trois premières lignes et " </body></html> " à la fin. (important: sinon Calibre s'égare parfois).
  • Sauvegarder le fichier en .HTML et UTF-8 (ça se fait tout seul).
  • ouvrir ce fichier avec Firefox pour vérifier que ça marche. On a un affichage avec liens en bleu, taille des caractères, centrages etc. mais sur toute la largeur de la page


technique altenative : obtenir directement la version « brute » de la page. Pour cela :


sur Calibre
  • ajouter le fichier HTML, qui devient le .ZIP de Calibre, point de départ pour les conversions.
  • ajuster les métadonnées (titre et auteur) pour ne pas égarer le résultat.
  • ajuster les instruction de conversion (page setup, structure detection, table of contents)
  • demander la conversion en EPUB. C'est presque instantané.
  • visualiser le résultat (sommaire, circulation)
  • générer les autres formats désirés.


Commentaires

La "qualité" du résultat dépend de la page traitée. C'est fait pour une page "texte entier".

Ce procédé permet de conserver la circulation intérieure du document quand on l'a définie explicitement, en particulier l'accès aux notes. La mise en forme "imprimable" conserve les liens et les ancres dans le HTML sans que cela apparaisse à l'affichage.

21/06/2011 : Essais systématiques sur des ouvrages existants avec plus ou moins de réaménagement. Voir la Catégorie:Liseuse. Les fichiers sont stockés sur mon compte Dropbox, espace public. Les indications sur la technique de génération sont dans la page de discussion.

La Légende de la mort en Basse-Bretagne d'Alexandre Le Braz, premier texte important entièrement aménagé pour la génération d'ebooks, tout en restant lisible en ligne sans curiosités.


Utilisation des restes

Le fichier HTML qui a servi à la génération peut être repris avec une version récente de Word ou Open-Office pour toutes sortes d'usages, notamment la génération de fichiers PDF mieux formattés que la sortie PDF de Calibre qui est décevante pour l'instant.

--Wuyouyuan - discuter 21 juin 2011 à 09:22 (UTC)

Comme tu me l’as demandé, j’ai fait une série d’essais, avec les résultats suivants :
Les formats que tu fournis tout préparés ont fonctionné sans problème. \o/ et merci !
La marche à suivre ci-dessus : je n’ai pas réussi à l’appliquer sans doute à cause de différences de versions de Firefox (la mienne est antérieure). Le fichier ouvert avec Notepad ne contenait ni jumpto ni bodytext, cela aurait été long et hasardeux de retrouver des équivalents dans les métadonnées.
Néanmoins j’ai pu téléverser le fichier sur le Kindle qu’on m’a offert : j’ai utilisé Mobi Creator et créé un fichier .prc, puis ai pu continuer avec Calibre sans problème.
Calibre offre dans son menu la possibilité de supprimer un fichier dans la liseuse, mais ceci n’a pas fonctionné : le fichier antérieur périmé est toujours sur la liseuse, à côté de la nouvelle version.
Merci encore, Wuyouyuan, de tout ce que tu fais ! --Zyephyrus (d) 3 juillet 2011 à 10:17 (UTC)

Quelques remarques[modifier]

Pour transformer un ouvrage se trouvant sur wikisource vers un autre format il est plus simple d'avoir le texte entier sur une seule page : il pourrait être souhaitable que le très pratique modèle <pages index="livre.djvu" header=1 /> permette optionnellement de créer automatiquement le lien Texte entier (car actuellement on ne sais trop où le placer).

Ensuite si le texte sur une seule page est bien structuré, le résultat est meilleur. L'emploi des balises wiki de chapitrage (== Chapitre ==) permet d'avoir un texte hiérarchisé. Les == sont transformées en balise HTML <H2> par MediaWiki ce qui permet ensuite aux logiciels de conversion vers un autre format de les interpréter comme Chapitre et de pouvoir générer une table des matières automatiquement. Le problème est que les contributeurs les utilisent peu, voir les effacent, car le style attaché ne correspond pas forcément au rendu voulu pour coller à la mise en page de l'ouvrage d'origine.

Une autre pratique consiste à placer les titres de chapitre, de poèmes, ou des nouvelles réunies en un volume, entre balises NOINCLUDE pour éviter la redondance avec le titre déjà présent dans le pavé de navigation juste au dessus. Le problème est alors que lorsqu'on génère la page entière il n'y a pas d'intertitres non plus. Et c'est peu exploitable.

Pour exporter correctement les texte vers un autre format il faut donc que des métadonnées (hiérarchisation, titres de sections, etc...) ne soient pas perdues en route. On pourrait imaginer les choses comme ceci : en mode rédaction des éléments sont tagués comme tels (titre de chapitre, de sous chapitre, etc), indépendamment du style utilisé ; lors de la transclusion une option permet d'afficher ou non l'élément (par exemple masquer le titre du chapitre, si le contributeur le souhaite...). La différenciation structure/forme permettrait ensuite de pouvoir générer une page d'export complète et hiérarchisée, tout en laissant une grande liberté à chacun.--Bgeslin (d) 17 avril 2011 à 15:55 (UTC)

Je pense que c'est une mauvaise idée d’ajouter des == dans les pages. Pour obtenir une table des matières, il faut utiliser celle de l’index, comme le fait la commande <pages>. Yann (d) 17 avril 2011 à 20:01 (UTC)
Le problème est que nos sommaires sont souvent inadaptés aux liseuses, les sommaires sont souvent présentés dans une colonne à gauche assez étroite et nous avons des sommaires ou chaque entrée est très longue.

Suivi du projet[modifier]