Texto redactado en euskara y traducido automáticamente por Elia y sin posterior revisión. VER ORIGINAL

Datos, datos de felicitación

“Dar y dar datos, ¿tenemos que alimentar al monstruo nosotros mismos?”, me preguntó una vez un amigo. Además de la simple pregunta, me pareció una demanda: en realidad quería decirme “en qué andas, con la excusa de alimentar la inteligencia artificial, menospreciando el trabajo de los creadores”. La idea de la inteligencia artificial como un monstruo también tenía importancia en la pregunta.

Y me dio qué pensar. Mi amiga me dibujó claramente las dos partes, en una de ellas el emisor de datos, en la otra los consumidores de datos que estamos en la investigación y desarrollo de la denominada inteligencia artificial creativa (AAS, por lo demás). Para evitar brechas entre las dos partes, es conveniente aclarar en qué consisten los roles y las perspectivas de unas y otras.

El autor es el propietario de la obra que ha creado, sea cual sea su formato, y los derechos de autor no son susceptibles de enajenación. El autor decide si publicar o no y, en caso afirmativo, cómo hacerlo. En el caso de que se opte por la puesta a disposición de una editorial, se establecen los derechos de explotación mediante contrato con la editorial, que contiene las condiciones de las autorizaciones de reproducción, distribución y venta de la obra. Hasta ahí nada nuevo.

Estas obras, llamémosles datos, son imprescindibles en el desarrollo de la AAS. Los gigantes tecnológicos empezaron a recopilar sistemáticamente textos, audios y vídeos para cuando nos percatamos de ello, y esta recogida no ha cesado desde entonces. Es increíble cómo se ha masificado la recogida de datos. La recogida de datos se realiza en cualquier momento y desde cualquier lugar durante la succión intensiva.

Existe una gran confusión en cuanto a la legalidad y legitimidad de esta recaudación. Para empezar, si se publican con licencia abierta, supongamos en la web, están disponibles y, por lo tanto, disponibles. En estos casos, el desarrollador de modelos lingüísticos podrá utilizar y publicar dichos datos, a menos que el titular de los mismos indique lo contrario. En cambio, si se publica con licencias más restrictivas, se puede denegar la reedición por un tercero. Pero la pregunta es, ¿pueden entrenarse los modelos lingüísticos con estos datos?

Hay razones de peso para decir que sí. De hecho, los modelos lingüísticos no reproducen, distribuyen o venden los datos tal cual. Utilizan los datos. Esto, siendo riguroso, no es un plagio o una copia. Ahí hay una innovación radical traída por la AAS. Hasta ahora solo éramos las personas las que utilizábamos los datos para vestirnos, y por eso se dice que desde el momento en que se publican los datos se convierten en conocimiento colectivo. Pues bien, los modelos lingüísticos hacen precisamente eso, aprovechar ese conocimiento para construir el modelo matemático que contienen. Por tanto, no parece existir objeción legal evidente al respecto. Este enfoque tiene fuerza entre los investigadores y desarrolladores en el campo de la AAS.

Pero ahí hay que destacar que el uso tecnológico de este conocimiento colectivo tiene tanto valor económico, ¿cómo se debe gestionar todo esto? Detrás de esto está, por supuesto, la cuestión de la distribución de beneficios, lo que requiere el reconocimiento del trabajo de los autores y proveedores de datos. ¿Cómo? Es un asunto complejo, demasiado complejo para abordarlo en este pequeño intervalo.

Lo que está claro es que la solución no es poner límites y obstáculos al conocimiento colectivizado, a los datos que se han publicado. Este comportamiento atenta contra los datos y el conocimiento abierto y, en última instancia, perjudica a las lenguas pequeñas y de escasos recursos.

Las lenguas como el euskera necesitan facilitar el uso de los datos, y optar por la vía de las licencias abiertas, para que lo que los vascos hemos creado en euskera quede también recogido en los servicios y productos tecnológicos. Lo que realmente necesitamos es que esos productos se hagan también en euskera, en un lenguaje potente.

Hemos mencionado a autores, editoriales, recolectores y desarrolladores, pero los usuarios también están ahí, y en la era de la AAS los usuarios no son solo usuarios, sino que también son donantes de datos. Cuando hacemos consultas, cuando aceptamos o rechazamos las respuestas, estamos informando. La primera tarea es ser consciente de ello y la segunda es actuar con responsabilidad.

Mi amigo me hablaba del miedo a alimentar al monstruo. La responsabilidad y el reconocimiento de los creadores son necesarios, sí, pero el miedo paralizador y la negación de datos no nos traerá ningún beneficio a los vascos.