Aide:Match et Split

La bibliothèque libre.
Aller à : navigation, rechercher

Vous êtes ici : accueil >Aide >Publier un livre >Match et Split


AVERTISSEMENT : La commande match n’est pas infaillible ! Il est donc nécessaire de vérifier la découpe entre les commandes match et split, et de corriger les erreurs qui peuvent s’y trouver. C’est pour cette raison que la procédure match & split se fait en deux étapes plutôt qu’une seule.

Aide : Manuel de Wikisource

Qu’est-ce qu’un Match et Split ?[modifier]

Match et Split (détection des pages et découpage d’un texte) consiste à automatiser en partie le découpage d’un texte pour le placer en vis-à-vis des images d’un livre (un fac-similé).

L’objectif de cette automatisation partielle est de gagner du temps : si l’on dispose d’un texte relativement correct ou de bonne qualité, et que l’on veut le corriger à l’aide d’un fac-similé, il n’est pas nécessaire de découper et de recopier manuellement le texte page par page. Un robot fait cette opération et il ne reste plus qu’à s’occuper de la relecture.

Explications : vous devez disposer de trois éléments.

1. Un texte A qui semble correct mais qui n’est pas dans l’espace « Page ».

2. Des images (fac-similés) de toutes les pages d’un livre prêtes pour la correction en mode Page (texte et image côte à côte), mais le texte B extrait des fac-similés comporte trop de coquilles pour être lisible. On veut donc avoir le texte A à la place du texte B dans l’espace « Page » avant de le corriger.

3. Ce texte B qui fait face aux images doit être quand même un peu lisible : il faut en effet que le robot qui procédera au « Match » (pas au sens sportif du terme mais au sens d’appariement) ait suffisamment de repères pour qu’il soit capable de répartir, à la place du texte B illisible, le texte A qui est déjà correct.

Un texte A à découper, édité seul dans l’espace principal :

…outre que la cavalerie réglée est devenue beaucoup plus nombreuse, à commencer par le Prince le dénombrement de les écuries excède de beaucoup celles de ses prédécesseurs ; on avoit quelques chevaux de main, mais à cela près, on n’en nourrissoit point d’inutiles. Une grande Dame de ce pays-ci, à qui je vis des chevaux de remise, me répondit : ce n’est pas quil n’y en ait 70 dans nos écuries, mais il n’y en a point qui ait pû aller aujourd’hui. Quand Bassompiere rencontra cette lingere du pont-neuf, dont il fait une singuliére histoire, il n’avoit qu’un cheval entre ses jambes : c’étoit l’homme le plus brillant de son temps ; aujourd’hui le plus pauvre allant en fiacre, en occupe deux. Il est à remarquer encore que les chevaux répandus alors dans les campagnes où leurs maîtres habitoient, engraissoient de leur fumier la prairie…

etc.

Up arrow right.svg
match et split
Down arrow right.svg
Le texte A lisible est découpé et placé vis-à-vis des images des pages correspondantes…
… et remplace dans l’espace « Page » le texte B illisible qui a été extrait du fac-similé.

Description[modifier]

Les commandes « match » et « split » permettent de transférer un texte vers l’espace page, de manière semi-automatique. Le fichier DjVu correspondant au texte que l’on va transférer doit contenir lui aussi une couche texte d’ocr, même si la qualité en est médiocre.

Le transfert est effectué par un robot, qui répond à votre navigateur[1]. Pour pouvoir l’utiliser, vous devez activer la case correspondante dans vos préférences de compte, dans la section Édition de l’onglet gadgets :

\square Commandes interactives Match et Split (utilise le robot Phe-Bot)

Déroulement[modifier]

Le robot s’utilise en deux temps :

  1. détection des pages (match) ;
  2. découpage (split).

La file d’attente des tâches en cours de ce robot est consultable ici.

Préparation du texte[modifier]

Avant toute chose, il convient de s’assurer que le texte que l’on va importer correspond à l’édition du livre. Si le texte ne correspond pas et que vous n’avez pas le texte de la bonne édition, c’est à vous de voir si l’import vous fera tout de même gagner du temps pour la correction et si les différences entre les versions ne rendent pas impossible le découpage du texte par le robot. Si vous n’avez pas l’intention de corriger le texte, il ne faut pas importer une édition différente.

Avant d’effectuer un match, il peut être judicieux d’effectuer certaines transformations : faire la typographie (guide typographique) et la mise en forme du texte si nécessaire (mise en forme). Cela évite de devoir faire ces corrections page par page.

Déplacez les catégories, les interwikis et tous les éléments étrangers au texte se trouvant en fin de page vers le début de la page (avant le __MATCH__ que vous aurez inséré) pour éviter qu’ils se retrouvent dans la dernière Page:.

Match[modifier]

Syntaxe[modifier]

Avant de commencer, il faut insérer au début du texte à transférer (en général dans l’espace principal) un marqueur __MATCH__ qui indique au robot où se trouve le fac-similé correspondant à la première page dans l’espace « Page ».

La syntaxe est :

==__MATCH__:[[Page:xxx.djvu]]==


où « Page:xxx.djvu » est le nom de la page où commence votre texte.

Ce marqueur est générable par le bouton Template button.png de la barre d’outil (ancienne version) ou par les balises

==__MATCH__:[[]]==


que vous trouverez dans les outils fournis sous la fenêtre d’édition (Edittools).

Exemple[modifier]

Au début de la page Les Fausses Confidences, juste avant le texte à transférer dans l’espace « Page » :

==__MATCH__:[[Page:Marivaux - Théâtre, vol. II.djvu/124]]==

PERSONNAGES

  • ARAMINTE, fille de Madame Argante.
  • DORANTE, neveu de Monsieur Remy.
  • MONSIEUR REMY, procureur.
  • MADAME ARGANTE.
  • ARLEQUIN, valet d'Araminte.
  • DUBOIS, ancien valet de Dorante.
  • MARTON, suivante d'Araminte.
  • LE COMTE.
  • Un domestique parlant.
  • Un garçon joaillier.

La scène est chez Madame Argante.

suite du texte…

Vous pouvez voir ici l’insertion de MATCH au début du texte. Le nom de page « Page:Marivaux - Théâtre, vol. II.djvu/124 » indique au robot qu’il doit commencer à la page 124 du livre Livre:Marivaux - Théâtre, vol. II.djvu qui correspond au fichier Fichier:Marivaux - Théâtre, vol. II.djvu.

Une fois la page sauvegardée, le marqueur __MATCH__ devient un lien et il suffit de cliquer dessus pour appeler le robot :

__MATCH__:Page:Marivaux - Théâtre, vol. II.djvu/124

Résultat[modifier]

Au bout d’un certain temps, l’affichage va s’actualiser, et vous verrez que des liens vers les pages de l’espace « Page » ont été introduits dans le texte. Un onglet « split » apparaît également au-dessus de la page du texte. Si cette actualisation ne se fait pas, vous pouvez recharger vous-même la page.

Préparation avant le split[modifier]

Entre les deux étapes, il est conseillé de vérifier le travail du robot : vérifier que les débuts de pages sont à la bonne place, que des références <ref>…</ref> ou des modèles n’ont pas été coupés en deux par une limite de page et surtout vérifier qu’un « no match » n’apparaît pas dans le texte.

no match[modifier]

« no match », s’il est présent, indique la position où le robot a perdu la synchronisation avec le texte. Dans ce cas il faut refaire un __MATCH__ à cette position avec le bon numéro de page. La présence d’un « no match » peut aussi indiquer que la version du texte ne correspond pas à l’édition du scan.

Split[modifier]

Le split est l’étape de l’import du texte dans les pages : le robot va transférer le texte selon le découpage qui a été fait à l’étape précédente.

Pour cela il suffit de cliquer sur l’onglet split qui apparaît quand le robot a terminé la première étape. L’opération peut être plus ou moins longue selon le nombre de pages à créer/modifier et dans le cas où d’autres contributeurs auraient lancé avant vous un découpage. Vous pouvez consulter la file d’attente des tâches en cours pour voir si le robot a commencé le découpage de votre texte.

Lorsque l’import est terminé, le robot procède à la transclusion, c’est-à-dire qu’il remplace tout ce qui se trouve après __MATCH__ par la balise <pages index /> qui permet d’afficher dans une page un texte qui se trouve dans l’espace « Page ».

Pour notre exemple ci-dessus, nous obtiendrons :

<pages index="Marivaux - Théâtre, vol. II.djvu" from=124 to=236 />

qui se trouve dans Les Fausses Confidences.

Pour configurer cette balise, vous pouvez consulter Aide:Transclusion.

Remarques[modifier]

  • Afin de préserver les paragraphes, un <nowiki /> est ajouté au début de chaque page commençant par une ligne vide.
  • match détecte la présence du tag <poem> et l’ajoute en début et fin de page
  • split écrase les pages qui existent déjà, si elles sont non corrigées et non transcluses. Si la première ou la dernière page de la liste existe déjà et qu’elle est transcluse, split considère qu’il s’agit d’un début de chapitre en milieu de page, et crée deux sections sur la page.
  • Lors d’un M/S par chapitre d’un livre, il faut absolument éviter de faire une double transclusion de type Texte entier avant d’avoir fini tous les splits, sinon, il peut y avoir un problème pour la reconnaissance des sections.

Voir aussi[modifier]



  1. ajax