Dades, dades de felicitació

“Donar i donar dades, hem d'alimentar al monstre nosaltres mateixos?”, em va preguntar una vegada un amic. A més de la simple pregunta, em va semblar una demanda: en realitat volia dir-me “en quines andes, amb l'excusa d'alimentar la intel·ligència artificial, menyspreant el treball dels creadors”. La idea de la intel·ligència artificial com un monstre també tenia importància en la pregunta.

I em va donar què pensar. La meva amiga em va dibuixar clarament les dues parts, en una d'elles l'emissor de dades, en l'altra els consumidors de dades que estem en la recerca i desenvolupament de la denominada intel·ligència artificial creativa (AAS, d'altra banda). Per a evitar bretxes entre les dues parts, és convenient aclarir en què consisteixen els rols i les perspectives de les unes i les altres.

L'autor és el propietari de l'obra que ha creat, sigui com sigui el seu format, i els drets d'autor no són susceptibles d'alienació. L'autor decideix si publicar o no i, en cas afirmatiu, com fer-ho. En el cas que s'opti per la posada a la disposició d'una editorial, s'estableixen els drets d'explotació mitjançant contracte amb l'editorial, que conté les condicions de les autoritzacions de reproducció, distribució i venda de l'obra. Fins aquí res nou.

Aquestes obres, anomenem-los dades, són imprescindibles en el desenvolupament de l'AAS. Els gegants tecnològics van començar a recopilar sistemàticament textos, àudios i vídeos per a quan ens adonem d'això, i aquesta recollida no ha cessat des de llavors. És increïble com s'ha massificat la recollida de dades. La recollida de dades es realitza en qualsevol moment i des de qualsevol lloc durant la succió intensiva.

Existeix una gran confusió quant a la legalitat i legitimitat d'aquesta recaptació. Per a començar, si es publiquen amb llicència oberta, suposem en la web, estan disponibles i, per tant, disponibles. En aquests casos, el desenvolupador de models lingüístics podrà utilitzar i publicar aquestes dades, tret que el titular dels mateixos indiqui el contrari. En canvi, si es publica amb llicències més restrictives, es pot denegar la reedició per un tercer. Però la pregunta és, poden entrenar-se els models lingüístics amb aquestes dades?

Hi ha raons de pes per a dir que sí. De fet, els models lingüístics no reprodueixen, distribueixen o venen les dades tal qual. Utilitzen les dades. Això, sent rigorós, no és un plagi o una còpia. Aquí hi ha una innovació radical portada per l'AAS. Fins ara només érem les persones les que utilitzàvem les dades per a vestir-nos, i per això es diu que des del moment en què es publiquen les dades es converteixen en coneixement col·lectiu. Doncs bé, els models lingüístics fan precisament això, aprofitar aquest coneixement per a construir el model matemàtic que contenen. Per tant, no sembla existir objecció legal evident sobre aquest tema. Aquest enfocament té força entre els investigadors i desenvolupadors en el camp de l'AAS.

Però aquí cal destacar que l'ús tecnològic d'aquest coneixement col·lectiu té tant de valor econòmic, com s'ha de gestionar tot això? Darrere d'això està, per descomptat, la qüestió de la distribució de beneficis, la qual cosa requereix el reconeixement del treball dels autors i proveïdors de dades. Com? És un assumpte complex, massa complex per a abordar-lo en aquest petit interval.

El que és clar és que la solució no és posar límits i obstacles al coneixement col·lectivitzat, a les dades que s'han publicat. Aquest comportament atempta contra les dades i el coneixement obert i, en última instància, perjudica les llengües petites i d'escassos recursos.

Les llengües com el basc necessiten facilitar l'ús de les dades, i optar per la via de les llicències obertes, perquè el que els bascos hem creat en basc quedi també recollit en els serveis i productes tecnològics. El que realment necessitem és que aquests productes es facin també en basc, en un llenguatge potent.

Hem esmentat autors, editorials, recol·lectors i desenvolupadors, però els usuaris també són aquí, i en l'era de l'AAS els usuaris no són només usuaris, sinó que també són donants de dades. Quan fem consultes, quan acceptem o rebutgem les respostes, estem informant. La primera tasca és ser conscient d'això i la segona és actuar amb responsabilitat.

El meu amic em parlava de la por d'alimentar al monstre. La responsabilitat i el reconeixement dels creadors són necessaris, sí, però la por paralitzadora i la negació de dades no ens portarà cap benefici als bascos.

Buletina

Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian

Bidali