Utilisateur:Sapcal22/éditions

La bibliothèque libre.
  1. Supprimer les blancs (espaces) en doublon
  2. Conserver dans le mode page les retours à la ligne comme dans l'image, c'est plus facile à corriger par l'utilisateur suivant, c'est plus facile à enlever automatiquement qu'à remettre, c'est le format de base Gutenberg (si j'ai bien compris) ... de plus en transclusion ils n'apparaissent plus.
  3. Supprimer la première ligne (qui correspond au titre de l'ouvrage (on peut aussi la mettre entre balises noinclude)
  4. Transforme les ' en ’ (apostrophe droite en courbe, pour pouvoir mettre ensuite les italiques sans problème)
  5. Vérifier que des ‘ ou des ` n'essaient pas de se faire passer pour des ’
  6. Autres caractères souvent fautifs : · & % ~…
  7. Les mots coupés en deux en fin de phrase ou de page, je remonte la fin du mot et je garde l'espace à la fin. Je regroupe en fin de page aussi le mot sur la page précédente car aujourd'hui, le mode page ne recolle pas les deux morceau du mot et en fonction de la largeur de la page on peut se retrouver avec le mot coupé en deux. --> utiliser {{tiret|bou|ture}} et {{tiret2|bou|ture}}
  8. Marquer les paragraphes par un return (Entrée, saut de ligne)
  9. Les oeu, oe :œu -> de manière systématique et oe au cas par cas attention à la casse Œ. Dans les livres sur la poésie, on réalise les oeu puis seulement les mots les plus courant oeil,
  10. Les accents : A->À , O->Ô , Ca->Ça et plus difficile à repérer Eglise, Etats, Etre,
  11. Transformer les ... en …
  12. Vérifier qu'il ne reste pas des 1 (pour des l). Il suffit d'utiliser sinon une police qui distingue bien.
  13. Les erreurs d'OCR classiques Gomme-Comme, Celtes-Cettes,...
  14. Ajouter des espaces devant ; : ! ? » (il me semble que le mode page remplace l'espace par l'insécable   qui convient, certains contributeurs utilisent le ??à retrouver??
  15. Vérifier qu'un dialogue commence par —, qu'une incise c'est – et un mot composé -
  16. Corriger si nécessaire les mots que le correcteur orthographique de firefox désigne en rouge (mais attention conserver les accents du texte même si cela a changé depuis). Ajouter les noms propres dans le dictionnaire s'ils reviennent tout le temps dans le livre pour corriger plus facilement).
  17. Mettre les italiques, si elles tiennent sur la ligne les 2', sinon la balise i qui permet de mettre sur plusieurs lignes. idem pour les gras
  18. Mettre les sup et small pour Mrs, Mme…, les petites capitales avec {{sc|le texte}} pour par exemple le xixe siècle
  19. Lorsque la page commence par un changement de paragraphe , ajouter un <br/> car il y a un return de supprimé à l'enregistrement, bug connu
  20. Je supprime les return en trop en fin de page (mis pour distinguer les pages brut d'OCR les unes des autres)
  21. Choisir le niveau de correction
  22. Vérifier les tirets : "- ", les modèles tiret et tiret2... si le 2 est oublié, il manque un mot.
  23. un tiret ne doit pas avoir d'espace après ou avant...
  24. M, au lieu de M.
  25. quelle / qu’elle...
  26. trouver des lettres isolées, comme le s ou le d (apostrophe manquante)
  27. .—» «— les espaces manquantes

À regarder dans google :

  • cas ou -> cas où
  • ses veux -> ses yeux ***
  • taudis -> tandis ***
  • ainé -> aîné ? maitre -> maître ? chaine -> chaîne ? Épitre -> Épître ?
  • dé -> de ?
  • de ton -> de tous :-(

Liste des mots que l'OCR corrompt de manière courante :

  • substitution :
    • cette -> celle ou celte ; Dame -> Darne ; étude -> élude... ; toule -> toute
    • Us -> ils
    • môme -> même
    • clans -> dans
    • tète -> tête
    • gela -> Cela
    • taudis -> tandis
    • étalent -> étaient (sur 200-220 items trouvés -> environ 40 corrections)
    • fols -> fois
    • ligure -> figure
    • malin -> matin
    • paria, parier -> parla, parler
    • prés -> près
    • lls, ll, IIs



  • Édition intégrale / abrégée exp :1, 2
  • Édition originale : dernière revue par l'auteur.
  • Édition adaptée : en général raccourcie de nombreux passages pour la rendre accessible à un public donné...
  • Édition modernisée : au sens wikisource (et plus largement?), le texte ancien est retranscrit dans un français moderne. Mais il conserve les phrases (et même la versification). Une modernisation doit pouvoir se faire quasiment de manière automatique via un dictionnaire. Cette automatisation n'est possible que pour un français assez proche du moderne et donc pas celui du moyen age. Il semble qu'une modernisation ne devrait pas donner lieu à des droits d'auteurs mais que dans le doute une édition modernisée puisse être refusé sur ce critère (rechercher dans tout un texte s'il y a un travail original...).
  • Traduction : traduction fidèle, le sens est gardé au plus prêt du texte initial, d'une langue à l'autre sans pour autant rester dans le mot à mot.
  • Traduction adaptée : des passages sont supprimés, des idées de base de l'auteur sont sciemment détournées... Il n'existe sans doute pas de traduction qui ne soit un tant soit peu adaptée. Il faut définir un degré d'adaptation qui lui enlève le titre de traduction. exp : Raison et Sensibilité