}

Boom de la inteligencia artificial creativa

2023/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Seguro que a todos nos resultan familiares los nombres de Stable Diffusion, LaMDA, Midjourney, GPT, DALL-E, Bard y, sobre todo, el de ChatGPT, que en los últimos meses apenas se habla de nada, no sólo en el mundo de la tecnología, sino también en los medios de comunicación, redes sociales y sociedad en general. Todos son sistemas de inteligencia artificial creativa capaces de producir textos largos, respuestas estructuradas a preguntas e imágenes. El sector ha realizado un avance realmente sorprendente en el último año, hasta el punto de ofrecer resultados realmente útiles e incluso sorprendentes para muchos casos, y cada vez son muchos los ámbitos en los que se están aplicando más estos sistemas. Conozcamos mejor qué es la inteligencia artificial creativa, cómo funciona, qué posibilidades ofrece y qué riesgos conlleva.

Ed. Family Stock/Shutterstock

Las personas que trabajamos con las tecnologías del lenguaje y del habla hemos trabajado sobre todo en la parte de análisis o comprensión, es decir, en sistemas que proporcionan una salida más corta de una entrada: clasificación de textos, síntesis, extracción de entidades o de terminología… O también en los que proporcionan un resultado de una extensión similar, transformado en otro medio o código: análisis, corrección o traducción de textos, conversión de texto a habla, transcripción de audio, etc. Pero en los sistemas que generan una salida más larga o trabajada que la entrada, es decir, en la subárea de generación automática de textos (NLG, Natural Language Generation), hemos trabajado muy poco porque la tarea es mucho más difícil y no se obtenían los resultados adecuados. Lo mismo ha ocurrido en otros ámbitos de la inteligencia artificial, como las imágenes o los vídeos, en los que se hacía un análisis de las imágenes para detectar objetos presentes o para describir la imagen, pero la creación de imágenes apenas existía. Es decir, la llamada inteligencia artificial creativa estaba o parecía poco desarrollada.

Un verano de inteligencia artificial creativa

Y en primer lugar y desde la nada, en el último año se ha producido una explosión de sistemas de producción de textos largos, imágenes o respuestas estructuradas a preguntas. Diversas compañías y organizaciones, más allá de la publicación de artículos científicos sobre sus investigaciones, han abierto el uso de los sistemas desarrollados o han mostrado sus resultados al gran público, constatándose que la calidad de las inteligencias artificiales creativas era muy elevada. Ejemplos de estos sistemas abiertos o mostrados son los instrumentos de creación de imágenes Stable Diffusion, Midjourney y DALL-E, las herramientas de creación de texto GPT y LaMDA y las botas de respuesta de preguntas ChatGPT y Bard. No era casualidad que todos se abrieran en un tiempo (casi en rampa) tan similar. Claro que querían sorprender a la gente con los resultados y generar el anhelo del instrumento, además de adelantarse a la competencia o demostrar que no se están quedando atrás. Pero todas estas pruebas realizadas por la gente han servido, sin duda, para afinar sus sistemas, detectar fallos en casos reales, detectar y limitar en lo sucesivo usos inadecuados, etc.

El principal causante de esta explosión es OpenAI, que es el DALL-E, GPT y ChatGPT. OpenAI es una empresa sin ánimo de lucro, fundada en 2015, en la que Elón Muskiz, Microsoft, etc. contribuirán al desarrollo de la inteligencia artificial, a la colaboración con otros agentes y a la libre realización de sus desarrollos. Sin embargo, M no está en esta empresa, desde 2019 trabaja con el ánimo de conquistar, poco a poco Microsoft ha puesto más dinero y ha conquistado el poder hasta que, en la práctica, la mayoría de los desarrollos no los hacen libres (GPT Microsoft puede aprovecharlo exclusivamente). Además de OpenAI está Google con LaMDA y Bard.

DALL-e produce imágenes. Ed. Diego Thomazini/Shutterstock

Base: Grandes modelos de lenguajes

La mayoría de estos sistemas se basan en modelos de lenguajes grandes (LLM, Large Language Models). Los grandes modelos de lenguajes, como casi todos los sistemas de inteligencia artificial actuales, son un tipo de red neuronal profunda. Se entrenan con los textos para una tarea, en principio muy sencilla: predecir la siguiente palabra de un fragmento, según las probabilidades de los textos observados durante el entrenamiento. Pero al ser redes extremadamente grandes (con millones o miles de parámetros) y entrenarse con ingentes cantidades de textos (miles de millones de palabras), absorben gran parte de la sintaxis y semántica del lenguaje, así como un gran conocimiento general del mundo. Y si la longitud de palabra de las frases que acepta en la entrada es bastante grande y encadenando de nuevo la palabra predispuesta en la salida, pueden surgir textos largos. Este GPT o LaMDA son las LLM para formar un texto largo con un inicio de texto.

Además, estos grandes modelos de lenguajes pueden adaptarse a otras tareas mediante el proceso de fine-tuning. Así, ajustados a un par de preguntas pueden entrenarse para actuar como chatbot y, si la longitud de la entrada es suficientemente grande, pueden incluirse como entradas sus respuestas previas, formando una conversación completa, recordando y refinando las respuestas anteriores si se le requiere. Y eso son ChatGPT y Bard. O bien, ajustándolo a las imágenes y sus descripciones, dando un texto se puede conseguir un sistema de creación de imágenes, que en definitiva es DALL-E. También se puede conseguir que una LLM se utilice para otras tareas sin necesidad de ajustarse o reentrenar mediante prompt engineering o ingeniería de frases de entrada. Por ejemplo, si le damos un texto y le especificamos “Es el tema de este texto anterior”, haría una clasificación de textos; o un resumen de texto si incluimos “Es un resumen del texto anterior”; o una traducción si le pedimos “Traducir a no sé qué” inglés.

Las AES mencionadas están entrenadas con textos en algunas lenguas, por lo que son capaces de comprender y responder a las preguntas que se les plantean en ellas y de realizar una traducción automática entre ellas a través del prompting (eso sí, la cantidad de textos en todas las lenguas no es la misma, y en algunas de ellas funciona muy bien pero en otras no). Más bien, en el entrenamiento se le ha proporcionado un código compuesto por varios lenguajes de contenido, y también es capaz de escribir programas. Y GPT-4 también acepta las imágenes como introducción para dar respuestas o argumentaciones sobre ellas.

ChatGPT no siempre da respuestas correctas. En el mismo diálogo puede decir una cosa y lo contrario.

Así, la última versión de ChatGPT contiene 175.000 millones de parámetros, está entrenada con 500.000 millones de palabras en 95 idiomas y la extensión de palabras que admite en su introducción es de 32.000 palabras. Y realmente da muy buenos resultados, a menudo sorprendentes: largos, lingüísticamente correctos y bien estructurados. Y las respuestas siempre son muy verosímiles y las expulsa con toda seguridad. Sin embargo, a menudo, las respuestas no siempre son correctas, completas o óptimas.

En definitiva, ChatGPT no es una inteligencia artificial global o dura (AGI, Artificial General Intelligence o Strong AI), es decir, una inteligencia real capaz de “entender” (clasificar los hechos de forma estructurada) y razonar sobre ellos, ni un intento de conseguirlo. Como se ha dicho, la palabra sólo se conforma en función de la probabilidad, generalmente muy bien, debido al gran número de textos que se le han dado para aprender. Pero en esos textos de entrenamiento hay ficción, información errónea, contradicciones… y puede responder a partir de ellos, mezclar cosas muy diferentes… Como se dice en el lenguaje técnico, puede “alucinar”. Y como chatbot trata de responder a todas las preguntas para que el usuario se sienta satisfecho, puede acertar cuando le falta información, adaptar la respuesta a las palabras concretas de la pregunta (ahora diciendo una cosa y luego lo contrario, incluso en la misma conversación si se le anima)… ¡Y eso sin ser consciente de que todo es verdad o mentira, o que se está inventando! Algunos han argumentado que nosotros también lo hacemos y que nuestro cerebro funciona así, pero los expertos tienen claro que no es así.

Una carrera loca para ponerse donde esté

En cualquier caso, tanto Microsoft como Google han entrado en una carrera alocada, cada cual ha puesto su asistente virtual (ChatGPT y Bard, respectivamente) antes disponible en sus herramientas (buscadores, programas ofimáticos, etc.). Claro, esto lo hacen con la intención de aumentar la cuota de usuari@ y quitársela un poco al otro. La gente también está ansiosa por empezar a utilizarlo.

Pero no sé si esto es realmente útil para los buscadores. Y es que, en realidad, los buscadores funcionan bien para búsquedas navegacionales (que tienen por objeto conocer la dirección de la página web de una persona o entidad) y transaccionales (que tienen por objeto comprar algo). En los primeros el resultado más adecuado suele estar entre los primeros, detectamos y seleccionamos rápidamente y en los segundos queremos analizar todas las alternativas. ¿Nos fiaríamos de la única solución que nos da un omnisciente chatbot? Además, no pueden proporcionar información actualizada, ya que los datos de entrenamiento de estos temas estarán obsoletos en cuanto finalice el entrenamiento y se publique el nuevo sistema (los datos de ChatGPT se remontan a septiembre de 2021). Y muchas herramientas basadas en bases de datos y algoritmos relativamente simples funcionan perfectamente: para llevarlas a un sitio con GPS, para comprar billetes de avión... No tiene sentido sustituirlos por otros como ChatGPT o Bard (y probablemente no los sustituirán, si se detecta que se ha hecho una pregunta de este tipo, se derivarán a sistemas clásicos).

Pueden ser más adecuadas para las búsquedas informacionales (cuando buscamos información sobre algo), ya que en lugar de analizar una lista de respuestas una a una, nos dará una respuesta directa y nos ahorrará trabajo. Pero no se podrá saber si la información es correcta o completa sin asumir ese trabajo… Y si los usuarios dejan de entrar en las páginas web de resultados, ¿cómo se mantendrá progresivamente sin visitar el ecosistema actual de webs y medios de comunicación?

En realidad, más que el público generalista para buscar información o preguntar cosas, estos instrumentos de inteligencia artificial creadora son más útiles para los que tienen que hacer la creación y, en lugar de sustituir buscadores, tiene más sentido crear otros instrumentos o servicios para esas tareas.

Tantos riesgos como ventajas

En cualquier caso, muchas de las personas y sectores que tienen que escribir textos o hacer imágenes ya han empezado a utilizarlos o están haciendo adaptaciones para utilizarlos cuanto antes: profesores, escritores, periodistas, dibujantes, alumnos, científicos… Pero hay que tener claro que empezar a utilizarlos sin ser conscientes de las ventajas y los riesgos y sin reflexionar sobre cómo y para qué.

Por un lado, el riesgo de confiar directamente en la respuesta que proporcionan estos chatbots, es decir, de publicar información errónea o enviarla al evaluador. Las personas que estamos trabajando en el desarrollo de sistemas de traducción automática debemos ir dibujando lo que siempre decimos, que hay que revisarlo antes de publicarlo o utilizarlo. Evidentemente, en muchos casos no se va a hacer porque eso exige un poco de conocimiento y de trabajo, y hay alumnos que prefieren arriesgar que aprender o escribir, algunos creadores que ganan tiempo, algunos editores que ahorran dinero… Otras veces no se hará porque piensan que los sistemas de inteligencia artificial son infalibles (como ocurre actualmente con algunos sistemas de traducción automática).

En el ámbito educativo, hay quienes dicen que no se pueden evitar estos sistemas y que hay que enseñar a los alumnos a aprovecharlos bien, pero también hay una preocupación por las consecuencias que puede tener no trabajar una competencia como la escritura en los resultados académicos o en los aprendizajes.

Más allá de las consecuencias a nivel personal, esto puede llevar a la larga a la proliferación de contenidos mediocres, erróneos, similares o deliberadamente falsos en redes o medios de comunicación. Y dado que los futuros sistemas de inteligencia artificial se alimentarán y entrenarán con estos contenidos, el propio sistema también puede provocar un empeoramiento (similar al empeoramiento genético que provoca la endogamia).

Microsoft (Open AI) y Google entran en una carrera loca. Ed. JRdes/Shutterstock

Por otro lado, está claro que puede suponer una pérdida importante de puestos de trabajo. Hay sectores preocupados y/o enfadados, especialmente los dibujantes están entusiasmados, teniendo en cuenta que seguramente para entrenar este sistema AA que les puede quitar el trabajo han utilizado sus dibujos sin respetar el copyright y ilegalmente… Y lo mismo ocurre con los generadores de texto. Algunos reclaman una legislación que permita auditar con qué datos se han entrenado estos sistemas.

Además, este tipo de sistemas facilitan la creación de contenidos falsos que parecen veraces (además de crear texto e imagen, también existen sistemas que pueden producir audio y vídeo) y exigen sistemas o mecanismos de detección de los mismos (como marcas de agua ocultas), lo cual es técnicamente muy difícil.

También hay preocupaciones medioambientales, porque estos gigantescos sistemas consumen una ingente cantidad de energía para entrenar y usar. El uso y la expansión masiva de este tipo de sistemas no parece que sean las mejores en el contexto de la emergencia climática en que nos encontramos.

Por último, todos estos sistemas están influenciados negativamente por el desarrollo de los R.D.T. de Estados Unidos, que se han visto claramente con las herramientas existentes (ofimática, traducción automática, altavoces inteligentes, buscadores…), sesgos multi-nivel (sexo, raza, idioma, cultura…), pérdida de privacidad, pérdida de soberanía tecnológica, concentración de la riqueza en unas pocas manos…

En algunas lenguas grandes funciona muy bien, pero en las lenguas pequeñas no lo hace tanto.

Para saber más sobre estos riesgos y daños, es muy recomendable seguir a Emily Bender y a Timnit Gebru, que son los encargados de advertirlos.

¿Y el euskera, qué?

Ya hemos comentado que ChatGPT es multilingüe pero no de forma equilibrada. Por supuesto, el inglés es el idioma que mejor funciona (sesgo lingüístico mencionado), en otras lenguas grandes funciona muy bien, pero en las lenguas pequeñas no tanto. ChatGPT tiene euskera y se puede decir que funciona bastante bien, pero todavía tiene camino de mejora. Y el conocimiento de la cultura o temas vascos no es el que necesitaría (sesgo cultural mencionado). Si el uso del ChatGPT se hace cotidiano o habitual, será otro ámbito que perderá el euskera, ya que, como en otros muchos ámbitos, los vascos lo utilizaremos en castellano, francés o inglés si así funciona mejor, y piense en qué puede influir esto, especialmente si lo hacemos en educación.

En lugar de dedicar el ChatGPT a una esperanza incierta o exigente de un futuro mejor en euskera, el camino es desarrollar este tipo de tecnologías de otra manera o de forma local. Y es que, aunque ChatGPT estuviese muy bien en euskera, los citados daños derivados de la propiedad de las multinacionales tecnológicas (falta de privacidad, concentración de riqueza, dependencia tecnológica…) seguirían ahí.

En este sentido, existen iniciativas para desarrollar los CME de forma diferente y liberar los sistemas desarrollados, como por ejemplo, GPT-J, EleutherAI -fundados por la empresa sin ánimo de lucro, o el BLOOM, desarrollado conjuntamente por muchos investigadores de todo el mundo. Ambos reivindican unos resultados similares a los de GPT o ChatGPT. Sin embargo, el GPT-j es bastante más pequeño en tamaño y no tiene euskera en los datos de entrenamiento, mientras que el BLOOM es del tamaño del GPT y en los datos de entrenamiento tiene poco euskera. Por lo tanto, es de suponer que ambos no funcionarán muy bien en euskera.

Y es que cuando los gigantes introducen el euskera en sus herramientas, lo hacen de forma genérica y con un esfuerzo mínimo, es decir, utilizando datos que se pueden obtener fácilmente, sin analizar la calidad o sin hacer un esfuerzo manual especial para obtener mayores cantidades, confundiendo con todos los demás datos y dejándolos en muy pequeña proporción. Por el contrario, los agentes locales en numerosas ocasiones hemos demostrado que, haciendo un esfuerzo por obtener o producir datos de calidad en euskera en gran cantidad, desarrollando herramientas sólo para el euskera, y haciendo un desarrollo específico para tareas específicas en lugar de un único instrumento válido para todos, somos capaces de obtener resultados muy buenos para el euskera (a menudo mejores que los de los gigantes tecnológicos), por ejemplo en el ámbito de la traducción y/o la transcripción automática.

El conocimiento de la cultura y temas vascos no es bueno.

En el centro de trabajo Orai NLP Teknologia en el que yo trabajo, que forma parte de Elhuyar, estamos trabajando en el ámbito de las inteligencias creativas GPT o ChatGPT para el euskera, pero no es tarea fácil, por un lado, las exigencias de las estructuras gigantescas y crecientes para almacenarlas, entrenarlas y elaborar los resultados en euskera no están en manos de nadie ni de nadie. Por ello, en la línea de otras lenguas minoritarias o minoritarias, se está investigando para obtener estructuras más pequeñas y con menos datos, instrumentos de este tipo y con resultados similares. ¡A ver si lo conseguimos y luego si todos acertamos a utilizarlo correctamente!

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia