Wliquidata, base de datos libre colaborativa para el conocimiento
2022/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Wliquidata es una base de datos libre y colaborativa para el conocimiento. Pero, a diferencia de Wikipedia, que es una colección de artículos de texto y otros recursos gráficos, Wliquidata es una colección de información estructurada formada por registros con pocos y breves campos. En esta base de datos se recogen las fechas y lugares de nacimiento de las personas, así como los números de ciudades y otros datos. Y se conservan relaciones, como las hermandades entre personas, las provincias a las que pertenecen y sus territorios, las relaciones taxonómicas de las especies de
Otra gran diferencia con la wikipedia es que no existe una para cada idioma. Al ser sólo datos, sólo hay una Wliquidata multilingüe. Posteriormente, cada unidad de datos puede tener su nombre y descripción en tantos idiomas como desee.
Estructura de la wliquidata
En los wíquidos se almacenan todo tipo de datos y sus relaciones. Pero en realidad sólo existen tres tipos de datos: elementos, propiedades y expresiones.
Los datos de tipo elemento sirven para expresar personas, ciudades, canciones, especies de papeles, conceptos abstractos, etc. Cada uno de ellos tiene un identificador en Wíquidos, compuesto por el carácter “Q” y un número. Por ejemplo, el elemento Q1 representa el universo y se puede acceder a https://www.wliquidata/wiki/Q1; el elemento Q12256717 hace referencia a los hermanos Elhuyar; el elemento Q47588 hace referencia a Euskal Herria... Además, cada elemento puede tener un nombre o etiqueta, una descripción y varios alias u otras denominaciones para cada idioma.
Las propiedades muestran, por el contrario, el tipo de información y de recursos que pueden tener los elementos. Por ejemplo, la propiedad P31 se utiliza para indicar el tipo de elemento y hay propiedades para indicar la fecha de nacimiento ( P569 ), para indicar que forma parte de algo ( P361 ), para la autoría ( P51 )…
Por último, las expresiones añaden información a los elementos relacionándolos con una propiedad a un valor u otro elemento. Por ejemplo, casi todos los elementos tienen una expresión con la propiedad P31 (tipo) que los relaciona con su tipo; casi todas las personas tienen la expresión P569 (fecha de nacimiento)... Por ejemplo, una expresión puede ser Q937 (Einstein) – P31 (tipo) – Q5 (persona), o Q937 (Einstein) – P569 (fecha de nacimiento) – 1879/03/14, respectivamente, indican que Einstein es una persona y que nació en esa fecha.
La combinación de estos tres tipos de datos permite obtener toda la información sobre cualquier cosa. En la actualidad, Wliquidata tiene unas 7.000 propiedades, casi 100 millones de elementos y unas 1.400 millones de declaraciones.
También información lexicográfica
Aunque en el origen de Wliquidata era sólo eso (elementos, propiedades y expresiones), se añadieron nuevos tipos de datos para guardar también información lexicográfica. Sus identificadores empiezan por “L” y definen los idiomas, las palabras y las categorías (por ejemplo, la palabra en euskera “nueve”, de la categoría “nombre”, es L74178). Un lexema puede adoptar diferentes formas, existiendo un tipo de dato de formas que se identifica añadiendo al del lexema un identificador que empieza por “F”. Además de la propia forma, puede guardar rasgos gramaticales y cuantas expresiones desee. Por último, los lexemas también pueden tener diferentes acepciones, y para conservarlos hay un tipo de datos de significados.
Con esta estructura se pueden formar léxicos de cualquier lengua. Además, si los significados se asocian a los conceptos de Wíquidos, se pueden establecer relaciones interlingüísticas y, por tanto, formar diccionarios bilingües entre cualquier par de lenguas.
Utilidades, miles
¿Y para qué podría valer una base de datos de este tipo? ¡Para qué no! El uso ofrece miles de opciones y oportunidades. Cualquier usuario puede descargar Wliquidata y utilizarla para lo que quiera. En el interfaz web se pueden realizar búsquedas simples, pero además de las búsquedas habituales, también se pueden realizar consultas en el lenguaje SPARQL, que permiten realizar preguntas complejas e interesantes como el “número de ministros hijos de un ministro por país”.
Y bien a través del API o bien a través de la descarga, se pueden realizar programas para aprovechar la información. Por ejemplo, en la propia Wikipedia, en la actualidad los infotablos (tablas con información que aparece a la derecha al inicio de algunos artículos) no se editan manualmente, hay varios programas escritos que pueden utilizarse para ello en los artículos de Wikipedia con una sola línea. El programa tomará la información de Wíquita y completará la tabla y, en caso de que la información se modifique o actualice en Wíquida, aparecerá automáticamente en la tabla de infotelas del artículo sin tener que cambiar la actualización. Este nuevo sistema de Infotaul fue desarrollado por la Amical Wikimedia catalana y la Asociación Cultural Vasca de Wikilaris (EWKE). La empresa CodeSyntax también utiliza Wliquidata para elaborar preguntas en un juego de preguntas interrogativas de una vez al día.
Como se ha dicho, existe una única base de datos Wliquidata, en la que se puede incluir información de todos los idiomas. Así, como para el euskera es imprescindible que la Wikipedia esté lo más desarrollada posible en euskera, la presencia de nombres y descripciones e información lexicográfica en euskera también en Wíquidos es muy importante. En Elhuyar, por encargo del EWKE y en colaboración con ellos, hemos llevado a cabo dos proyectos. Por un lado, escribimos las definiciones del Diccionario Enciclpedico de la Ciencia y la Tecnología de Elhuyar en 6.500 elementos científicos y tecnológicos. Por otro lado, en 2019 incorporamos los 10.000 nombres más utilizados del Diccionario del Alumno de Elhuyar, 65 formas de cada uno y su acepción y definiciones. Con este trabajo, el euskera se convirtió en la sexta lengua en número de lexemas o raíces, la segunda en número de formas de palabras y la primera en número de expresiones. Con los incrementos que se han producido, ahora somos noveno en lexemas, cerca de 23.000, pero seguimos siendo en las segundas formas, cerca de 1.250.000, y somos los primeros, expresivamente, con casi 3000.
Se trata, por tanto, de un proyecto muy interesante, Wliquidata, que ya es muy útil y que en el futuro, a medida que vaya creciendo, será aún más útil.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia