Wliquidata, base de données libre collaborative pour la connaissance

2022/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Nous connaissons tous la Wikipédia, une encyclopédie libre qui se forme parmi les utilisateurs du monde entier et que la Wikimedia Foundation gère et promeut. Cependant, cette fondation dispose d'autres projets d'intérêt moins connus et axés sur la génération conjointe de connaissances libres : Commons pour matériel imaginaire et audiovisuel, Wictionary pour dictionnaires, Wikibooks, Wikisource, Wikiversity… La plus récente est Wliquidata, une base de données libre pour la connaissance. Bien qu’il existe depuis 2012, il a fleuri ces dernières années et a apporté beaucoup de choses intéressantes.
Ed. -

Wliquidata est une base de données libre et collaborative pour la connaissance. Mais, contrairement à Wikipedia, qui est une collection d'articles de texte et d'autres ressources graphiques, Wliquidata est une collection d'informations structurées composée d'enregistrements avec peu et peu de champs. Cette base de données contient les dates et lieux de naissance des personnes, ainsi que les numéros des villes et autres données. Et on conserve des relations, comme les fraternités entre personnes, les provinces auxquelles elles appartiennent et leurs territoires, les relations taxonomiques des espèces de faune et de flore sauvages.

Une autre grande différence avec la wikipedia est qu'il n'y a pas une pour chaque langue. Il n'y a qu'une seule Wliquidata multilingue. Ensuite, chaque unité de données peut avoir son nom et sa description dans autant de langues que vous le souhaitez.

Structure du wliquidata

Toutes sortes de données et leurs relations sont stockées dans les fichiers. Mais en réalité, il n'existe que trois types de données: éléments, propriétés et expressions.

Les données de type élément servent à exprimer des personnes, des villes, des chansons, des espèces de papiers, des concepts abstraits, etc. Chacun d'eux a un identifiant Wíquidos, composé du caractère Q et d'un numéro. Par exemple, l'élément Q1 représente l'univers et vous pouvez accéder à https://www.wliquidata/wiki/Q1; l'élément Q12256717 fait référence aux frères Elhuyar; l'élément Q47588 fait référence à Euskal Herria... De plus, chaque élément peut avoir un nom ou une étiquette, une description et plusieurs alias ou d'autres dénominations pour chaque langue.

Les propriétés montrent, au contraire, le type d'informations et de ressources que les éléments peuvent avoir. Par exemple, la propriété P31 est utilisée pour indiquer le type d'élément et il existe des propriétés pour indiquer la date de naissance ( P569), pour indiquer qu'elle fait partie de quelque chose ( P361), pour l'auteur ( P51 )…

Enfin, les expressions ajoutent des informations aux éléments en les reliant à une propriété à une valeur ou à un autre élément. Par exemple, presque tous les éléments ont une expression avec la propriété P31 (type) qui les relie à leur type; presque toutes les personnes ont l'expression P569 (date de naissance)... Par exemple, une expression peut être Q937 (Einstein) – P31 (type) – Q5 (personne), ou Q937 (Einstein) – P569 (date de naissance) – 1879/03/14, respectivement, indiquent qu’Einstein est une personne et est née à cette date.

La combinaison de ces trois types de données permet d'obtenir toutes les informations sur n'importe quoi. Wliquidata possède actuellement quelque 7 000 propriétés, près de 100 millions d'éléments et environ 1,4 milliard de déclarations.

Aussi des informations lexicographiques

Bien qu'à l'origine de Wliquidata, c'était seulement cela (éléments, propriétés et expressions), de nouveaux types de données ont été ajoutés pour enregistrer également des informations lexicographiques. Ses identifiants commencent par “L” et définissent les langues, les mots et les catégories (par exemple, le mot en basque “neuf” de la catégorie “nom” est L74178). Un lexem peut prendre différentes formes, il existe un type de données de forme qui est identifié en ajoutant à celui du lexem un identifiant commençant par “F”. En plus de la forme elle-même, vous pouvez enregistrer les traits grammaticaux et toutes les expressions souhaitées. Enfin, les Lexées peuvent également avoir des acceptions différentes, et pour les conserver, il existe un type de données de significations.

Avec cette structure, on peut former des lexiques de n'importe quelle langue. De plus, si les significations sont associées aux concepts de Wíquidos, on peut établir des relations interlinguistiques et donc former des dictionnaires bilingues entre quelques langues.

Bénéfices, milliers

Et pour quoi une telle base de données pourrait-elle valoir? Pourquoi pas! L'utilisation offre des milliers d'options et d'opportunités. Tout utilisateur peut télécharger Wliquidata et l'utiliser pour ce qu'il veut. Sur l’interface Web, vous pouvez effectuer des recherches simples, mais en plus des recherches habituelles, vous pouvez également effectuer des consultations dans le langage SPARQL, qui permettent de poser des questions complexes et intéressantes comme le « nombre de ministres enfants d’un ministre par pays ».

Et que ce soit via l'API ou via le téléchargement, vous pouvez réaliser des programmes pour tirer parti de l'information. Par exemple, sur Wikipedia elle-même, les infotablos (tables avec des informations qui apparaissent à droite au début de certains articles) ne sont pas édités manuellement, il existe plusieurs programmes écrits qui peuvent être utilisés à cette fin dans les articles Wikipedia avec une seule ligne. Le programme prendra les informations de Wíquita et complétera le tableau et, si les informations sont modifiées ou mises à jour dans Wíquida, elles apparaîtront automatiquement dans la table des infotelles de l'article sans avoir à modifier la mise à jour. Ce nouveau système d’Infotaul a été développé par l’Amical Wikimedia Catalana et l’Association Culturelle Basque de Wikilaris (EWKE). La société CodeSyntax utilise également Wliquidata pour poser des questions dans un jeu de questions interrogatives une fois par jour.

Comme on l'a dit, il existe une seule base de données Wliquidata, qui contient des informations dans toutes les langues. Ainsi, comme pour l'euskera, il est indispensable que Wikipedia soit le plus développé possible en euskera, la présence de noms et de descriptions et d'informations lexicographiques en euskera aussi dans les Wíquidos est très importante. À Elhuyar, pour le compte de l'EWKE et en collaboration avec eux, nous avons mené deux projets. D'une part, nous avons écrit les définitions du Dictionnaire Enzymatique de la Science et de la Technologie d'Elhuyar en 6.500 éléments scientifiques et technologiques. D'autre part, en 2019, nous avons inclus les 10 000 noms les plus utilisés du Dictionnaire de l'étudiant d'Elhuyar, 65 formes de chacun et leur acception et définitions. Avec ce travail, l'euskera est devenu la sixième langue en nombre de lexas ou de racines, la seconde en nombre de formes de mots et la première en nombre d'expressions. Avec les augmentations qui ont eu lieu, nous sommes aujourd'hui 9ème en Espagne, près de 23.000, mais nous restons dans les secondes formes, près de 1.250.000, et nous sommes les premiers, expressivement, avec près de 3000.

Il s'agit donc d'un projet très intéressant, Wliquidata, qui est déjà très utile et qui, à l'avenir, à mesure qu'il se développe, sera encore plus utile.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia