Sujet sur Discussion utilisateur:Tpt

import des données du modèle Book, quand il est alimenté depuis Wikidata...

13
Hsarrazin (discussioncontributions)

Bonsoir Tpt,

j'ai importé ce soir File:Taché - Forestiers et voyageurs, 1884.djvu sur Commons, en le liant à son élément wikidata Forestiers et voyageurs (Q90714136), mais en voulant créer la page d'index, je me suis aperçue que les champs alimentés par wikidata ne sont pas importés dans la page d'index.

Je ne termine donc pas l'import, pour te laisser la possibilité de voir ce qui se passe.

Merci pour ton aide :)

Tpt (discussioncontributions)

Bonjour Hélène, c'est tout simplement car le convertisseur du modèle Book vers les pages d'index ne fonctionne pas avec les données issues de Wikidata. Il faudrait mettre cela en place (ou, mieux, avoir des pages d'index et un modèle d'en-tête qui marchent avec Wikidata).

Hsarrazin (discussioncontributions)

oui, je me doutais d'un truc comme ça...

pour mettre en place des pages d'entête qui marchent (aussi) avec wikidata, ça serait bien, à terme... mais les principales personnes qui importent des fichiers ne touchent même pas àWD avec des pincettes (je pense à Ernest en particulier)

Pour le moment, j'en suis toujours à faire le ménage du gigantesque passif que nous avons en termes de "élément wikidata" pour chaque livre, modèle Book sur Commons, lié à l'élément wikidata... et c'est du boulot qui ne PEUT PAS être automatisé, ou très peu, car la saisie dans wikidata suppose que chaque part de la description (auteur, éditeur, etc. ait un élément)...

Ton super script ws2sw.js est une aide énorme.... mais ça ne marche que pour les bouquins qui sont transclus avec header (et il y a encore des milliers de cas de transclusion avec {{page}}.

ça avance, mais j'aimerais qu'on soit un peu plus nombreux à se partager ce travail (pour lequel je vérifie systématiquement l'existance d'une notice BNF ou Sudoc afin de limiter les erreurs...

Il reste aussi encore des centaines d'auteurs (probablement plus avec les revues, à identifier et créer, et l'outil d'import d'autorités de Dicare n'est plus opérationnel depuis une quinzane :(

Je te souhaite une bonne santé et une bonne continuation... (et si tu as un petit peu de temps pour penser à l'import depuis Book/wikidata, ça serait génial... sinon, tant pis).

Bises

Tpt (discussioncontributions)

Merci beaucoup pour tout ton boulot d'importation dans Wikidata. C'est génial que tu avance dessus. Ce serait super effectivement s'il y avait d'autre personne pour t'aider.

Au niveau de Book Wikidata, que dirais-tu plutôt de faire en sorte que les pages d'index en mode "visualisation" et le header template affiche les données de Wikidata ? Cela serait probablement autant de travail que de faire l'import depuis book/Wikidata et éviterais de dupliquer l'information.

Je compte m'atteler ce week-end à avancer (et j'espère finir) le code pour faire enfin marcher les liens inter-langues avec Wikidata via les éditions/oeuvres.

Bon week-end et bonne santé à toi aussi !

Hsarrazin (discussioncontributions)

le produit de mes cogitations... ça a pris un peu de temps car (1 : je télétravaille ; 2. j'essaie de voir comment optimiser mon boulot au fur et à mesure que je le fais...)

oui, ça serait bien, si on pouvait avoir pour chaque page d'Index un champ Wikidata, où on mettrait le QID... -> mais certaines données ne sont pas sur wd... la source, par exemple...

et ça marcherait bien pour les "nouveaux" bouquins.... mais la reprise pour les anciens reste un boulot de fou...

penses-tu qu'il soit possible de créer un champ Wikidata... sur lequel serait calé le fait que le bouquin EST catalogué dans wikidata (et plus le fait que le "titre" ait un lien wikidata ; car ça donne des faux positifs, et aussi des faux négatifs)...

si le champ est renseigné, toutes les données possibles seraient affichées.

Mais je me pose la question de "afficher" ou "importer"... car on a la question de la gestion des liens (Auteur, espace principal, séries, etc.)

car il n'est pas envisageable d'imposer aux contributeurs qui importent des bouquins de créer l'élément wikidata avant... ni même après.... il y a bien trop peu de wikisourciens qui sont capables de le faire, ou qui souhaitent le faire ^^

et surtout, si on veut en venir à bout, il faudrait une catégorisation efficace des bouquins pour lesquels il FAUT créer/chercher un élément wikidata... car avec les problèmes actuels de Petscan, la recherche par croisement de critères est devenue totalement impossible...

par ailleurs, il y a sur Commons des milliers de fichiers qui utilisent encore un modèle Information et pas le modèle Book, donc ces fichiers devraient être mis à jour aussi...

autrement dit :

  1. créer un champ wikidata pour mettre le QID
    1. le cas échéant, ce QID pourrait être importé du fichier Commons correspondant
    2. ET/OU reporté sur le fichier Commons correspondant (comme ça on ne fait le boulot qu'une seule fois)
  2. créer une catégorie "Page d'index sans QID dans le champ wikidata" pour facilement trouver TOUS les bouquins à traiter (au départ, TOUS, bien sûr).
  3. reprendre tous les bouquins qui font partie de la liste Catégorie:Livres_avec_un_lien_Wikidata (qui correspond au fait que le titre a un lien wikidata, ce qui n'est pas du tout la même chose pour les recueils, les journaux, etc.
  4. compléter ces livres là le plus vite possible avec le QID
  5. compléter avec le QID des bouquins dont le fichier Commons a un QID
  6. reprendre tout le reste...

Je me pose aussi la question s'il serait plus commode de partir des plus anciens fichiers, ou des plus récents.... je pense que traiter chronologiquement est la seule façon de ne rien oublier...

autre questionnement... comment faire fonctionner les liens Auteurs... y compris, le cas échéant, les liens rouges d'Auteurs à créer

j'espère que ces cogitations te seront utiles...

on devrait peut-être faire une sous-page du projet Wikidata pour traiter de cette question ?


Qu'en dis-tu ?

Tpt (discussioncontributions)

Bonjour Hélène. C'est un super plan ! Je vais faire un prototype et je reviens vers toi. J'espère qu'on pourra dans la suite se passer quasi complètement du champ Wikidata quand il sera possible d'accéder aux données structurées de Commons depuis les modules Lua de Wikisource.

Hsarrazin (discussioncontributions)

oui, mais pour le moment, je ne vois pas comment faire sans...

et puis, juste un champ wikidata, c'est moins lourd que tous ces champs doublonnés....

PS : il faut aussi penser au cas des fs qui ne sont PAS sur Commons, pour des questions de copyright - notre modèle Book n'est pas à jour, et n'affiche même pas l'élément wd... (enfin, je lui ai fait une petite bidouille pour l'afficher, mais il ne récupère rien... - voir par ex. Fichier:Alain_-_Système_des_Beaux-Arts.djvu)

j'ai créé à la volée

Tpt (discussioncontributions)

En effet, il y a ces fichiers qui ne sont pas sur commons.

Un autre point a considérer : si on importe automatiquement les données de Wikidata dans l'espace index, il faut faire de même avec le modèle d'entête (header=1). Et là une ambiguïté se pose : si la page où l'entête est affichée est elle même connecté à une entrée Wikidata, faut-il afficher les données de l'entrée vers laquelle pointe la page d'index ou les données de l'entrée liée à la page ?

Hsarrazin (discussioncontributions)

normalement, quand j'importe les données dans wikidata, je commence par faire le ménage de la page d'index et des headers pour qu'ils soient homogènes et propres, avec le maximum de données directement fournies par la page d'Index, mais on a toujours tout un tas de cas particuliers...

pour les pages de l'espace principal, alors là, on a plusieurs cas...

  • ceux où l'élément qui est lié à la page est le même que celui mentionné dans la page d'index (c'est le cas pour les pages principales des ouvrages qui ne sont pas des recueils, et pour les petits ouvrages transclus en une seule page, sans sommaire) - donc les données devraient être les mêmes... normalement - sous réserve que Book récupère correctement les données de wikidata, ce qui n'est pas encore totalement le cas... (par ex, les sous-titres)
  • les sous-pages de type chapitre... qui utilisent les mêmes données de header que le volume, à l'exception de la pagination ;-> celles-là ne devraient pas avoir d'élément wikidata, sauf exception...
  • les pages de périodiques ou de recueils, qui sont "publiées" dans le volume, qui lui est lié à un autre élément ; celles-là, pour toutes sortes de raisons, peuvent poser des problèmes... -> j'aurais tendance à dire que l'élément wikidata directement lié devrait prendre le pas sur les données de l'Index, exactement comme on peut forcer la valeur des paramètres dans le header... - (et peut-être prévoir des catégories pour mettre en évidence les divergences...)

dans tous les cas, si on récupère les données de wikidata dans le header, il faudra pouvoir conserver la possibilité de forcer des données locales...

je ne suis pas sûre qu'il faille utiliser wikidata pour afficher le header, pour le moment... déjà, une fois qu'on aura mis à plat tous les Index, ça sera pas mal... je ne sais pas à combien de milliers on en est, mais on dépasse largement les 14000 (et il y a plus de 20000 djvu en français sur commons).

mais s'il faut définir un ordre de priorité je dirais : les données de la page d'Index par défaut > si les données de l'élément wikidata direct sont différentes, elles prennent le pas > s'il y a des paramètres locaux en dur, ils prennent le pas...

je crois que sur Commons, des dizaines de catégories de maintenance ont été mises en place pour mettre en évidence les divergences... mais compte tenu du nombre de nous sommes, est-ce vraiment gérable sur wikisource ?

autre point, qui n'est actuellement PAS DU TOUT géré par le modèle Book : les paramètres comme Auteur ou Editeur, avec une valeur liée à un autre élément, et un qualifier "indiqué comme" qui correspond à la valeur à afficher (comme dans [[lien X|valeur affichée]]). -> ex : Sur_la_mémoire -> l'auteur est [[Auteur:Alain]] mais la signature qui s'affiche est "E. Chartier".

Il faudra bien sûr les récupérer correctement, sinon c'est vraiment pas la peine de s'enquiquiner à aller les documenter...

mais dans l'immédiat, je dirais qu'il faut s'occuper des Index, et continuer à gérer les header à partir des index comme ils le sont déjà, c'est à dire la valeur par défaut ou la valeur forcée

puis, dans un 2e temps, on verra s'il y a des différences avec ce qui vient de l'élément wikidata lié...

Tpt (discussioncontributions)

Bonjour Hélène,

J'ai fait un premier jet de l'importation des données depuis Wikidata. Les pages d'index ont un nouveau champ pour l'identifiant Wikidata et le "index template" et le "header template" sont tout les deux mis à jour. Si un identifiant Wikidata est donné, les données depuis Wikidata sont utilisés si aucune donnée n'est présente sur Wikidata. L'importation depuis Wikidata est faite depuis Module:Index_data qui est utilisé par Module:index template et Module:header template. Il n'y a pour l'instant aucune catégorie de tracking sauf Catégorie:Livres avec un identifiant Wikidata pour les pages ayant un identifiant Wikidata (et donc où l'importation est active). Voici un exemple de page d'index et [page de l'espace principal associée].

Hsarrazin (discussioncontributions)
Tpt (discussioncontributions)

La raison est Special:Diff/10832334. Le header template ne récupère pas pour l'instant les données de Wikidata (j'ai codé une première version mais cela rendais le rendu de certaines pages trop lourd et j'ai donc revert avant de voir comment corriger le problème).

Hsarrazin (discussioncontributions)

Merci !!

Répondre à « import des données du modèle Book, quand il est alimenté depuis Wikidata... »