}

Boom da intelixencia artificial creativa

2023/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Seguro que a todos resúltannos familiares os nomes de Stable Diffusion, LaMDA, Midjourney, GPT, DALL-E, Bard e, sobre todo, o de ChatGPT, que nos últimos meses apenas se fala de nada, non só no mundo da tecnoloxía, senón tamén nos medios de comunicación, redes sociais e sociedade en xeral. Todos son sistemas de intelixencia artificial creativa capaces de producir textos longos, respostas estruturadas a preguntas e imaxes. O sector realizou un avance realmente sorprendente no último ano, até o punto de ofrecer resultados realmente útiles e mesmo sorprendentes para moitos casos, e cada vez son moitos os ámbitos nos que se están aplicando máis estes sistemas. Coñezamos mellor que é a intelixencia artificial creativa, como funciona, que posibilidades ofrece e que riscos leva.

Ed. Family Stock/Shutterstock

As persoas que traballamos coas tecnoloxías da linguaxe e da fala traballamos sobre todo na parte de análise ou comprensión, é dicir, en sistemas que proporcionan unha saída máis curta dunha entrada: clasificación de textos, sínteses, extracción de entidades ou de terminología… Ou tamén nos que proporcionan un resultado dunha extensión similar, transformado noutro medio ou código: análise, corrección ou tradución de textos, conversión de texto a fala, transcrición de audio, etc. Pero nos sistemas que xeran unha saída máis longa ou traballada que a entrada, é dicir, na subárea de xeración automática de textos (NLG, Natural Language Generation), traballamos moi pouco porque a tarefa é moito máis difícil e non se obtiñan os resultados axeitados. O mesmo ocorreu noutros ámbitos da intelixencia artificial, como as imaxes ou os vídeos, nos que se facía unha análise das imaxes para detectar obxectos presentes ou para describir a imaxe, pero a creación de imaxes apenas existía. É dicir, a chamada intelixencia artificial creativa estaba ou parecía pouco desenvolvida.

Un verán de intelixencia artificial creativa

E en primeiro lugar e desde a nada, no último ano produciuse unha explosión de sistemas de produción de textos longos, imaxes ou respostas estruturadas a preguntas. Diversas compañías e organizacións, máis aló da publicación de artigos científicos sobre as súas investigacións, abriron o uso dos sistemas desenvolvidos ou mostraron os seus resultados ao gran público, constatándose que a calidade das intelixencias artificiais creativas era moi elevada. Exemplos destes sistemas abertos ou mostrados son os instrumentos de creación de imaxes Stable Diffusion, Midjourney e DALL-E, as ferramentas de creación de texto GPT e LaMDA e as botas de resposta de preguntas ChatGPT e Bard. Non era casualidade que todos abrísense nun tempo (case en rampla) tan similar. Claro que querían sorprender á xente cos resultados e xerar o anhelo do instrumento, ademais de adiantarse á competencia ou demostrar que non se están quedando atrás. Pero todas estas probas realizadas pola xente serviron, sen dúbida, para afinar os seus sistemas, detectar fallos en casos reais, detectar e limitar en diante usos inadecuados, etc.

O principal causante desta explosión é OpenAI, que é o DALL-E, GPT e ChatGPT. OpenAI é unha empresa sen ánimo de lucro, fundada en 2015, na que Elón Muskiz, Microsoft, etc. contribuirán ao desenvolvemento da intelixencia artificial, á colaboración con outros axentes e á libre realización dos seus desenvolvementos. Con todo, M non está nesta empresa, desde 2019 traballa co ánimo de conquistar, aos poucos Microsoft puxo máis diñeiro e conquistou o poder ata que, na práctica, a maioría dos desenvolvementos non os fan libres (GPT Microsoft pode aproveitalo exclusivamente). Ademais de OpenAI está Google con LaMDA e Bard.

DALL-e produce imaxes. Ed. Diego Thomazini/Shutterstock

Base: Grandes modelos de linguaxes

A maioría destes sistemas baséanse en modelos de linguaxes grandes (LLM, Large Language Models). Os grandes modelos de linguaxes, como case todos os sistemas de intelixencia artificial actuais, son un tipo de rede neuronal profunda. Adéstranse cos textos para unha tarefa, en principio moi sinxela: predicir a seguinte palabra dun fragmento, segundo as probabilidades dos textos observados durante o adestramento. Pero ao ser redes extremadamente grandes (con millóns ou miles de parámetros) e adestrarse con inxentes cantidades de textos (miles de millóns de palabras), absorben gran parte da sintaxe e semántica da linguaxe, así como un gran coñecemento xeral do mundo. E si a lonxitude de palabra das frases que acepta na entrada é bastante grande e encadeando de novo a palabra predisposta na saída, poden xurdir textos longos. Este GPT ou LaMDA son as LLM para formar un texto longo cun inicio de texto.

Ademais, estes grandes modelos de linguaxes poden adaptarse a outras tarefas mediante o proceso de fine-tuning. Así, axustados a un par de preguntas poden adestrarse para actuar como chatbot e, si a lonxitude da entrada é suficientemente grande, poden incluírse como entradas as súas respostas previas, formando unha conversación completa, lembrando e refinando as respostas anteriores si requíreselle. E iso son ChatGPT e Bard. Ou ben, axustándoo ás imaxes e as súas descricións, dando un texto pódese conseguir un sistema de creación de imaxes, que en definitiva é DALL-E. Tamén se pode conseguir que unha LLM utilícese para outras tarefas sen necesidade de axustarse ou reentrenar mediante prompt engineering ou enxeñaría de frases de entrada. Por exemplo, si dámoslle un texto e especificámoslle “É o tema deste texto anterior”, faría unha clasificación de textos; ou un resumo de texto se incluímos “É un resumo do texto anterior”; ou unha tradución se lle pedimos “Traducir a non se que” inglés.

As AES mencionadas están adestradas con textos nalgunhas linguas, polo que son capaces de comprender e responder as preguntas que se lles expoñen nelas e de realizar unha tradución automática entre elas a través do prompting (iso si, a cantidade de textos en todas as linguas non é a mesma, e nalgunhas delas funciona moi ben pero noutras non). Máis ben, no adestramento proporcionóuselle un código composto por varias linguaxes de contido, e tamén é capaz de escribir programas. E GPT-4 tamén acepta as imaxes como introdución para dar respostas ou argumentacións sobre elas.

ChatGPT non sempre dá respostas correctas. No mesmo diálogo pode dicir unha cousa e o contrario.

Así, a última versión de ChatGPT contén 175.000 millóns de parámetros, está adestrada con 500.000 millóns de palabras en 95 idiomas e a extensión de palabras que admite na súa introdución é de 32.000 palabras. E realmente dá moi bos resultados, a miúdo sorprendentes: longos, lingüisticamente correctos e ben estruturados. E as respostas sempre son moi verosímiles e expúlsaas con toda seguridade. Con todo, a miúdo, as respostas non sempre son correctas, completas ou óptimas.

En definitiva, ChatGPT non é unha intelixencia artificial global ou dura (AGI, Artificial Xeneral Intelligence ou Strong AI), é dicir, unha intelixencia real capaz de “entender” (clasificar os feitos de forma estruturada) e razoar sobre eles, nin un intento de conseguilo. Como se dixo, a palabra só se conforma en función da probabilidade, xeralmente moi ben, debido ao gran número de textos que se lle deron para aprender. Pero neses textos de adestramento hai ficción, información errónea, contradicións… e pode responder a partir deles, mesturar cousas moi diferentes… Como se di na linguaxe técnica, pode “alucinar”. E como chatbot trata de responder a todas as preguntas para que o usuario senta satisfeito, pode acertar cando lle falta información, adaptar a resposta ás palabras concretas da pregunta (agora dicindo unha cousa e logo o contrario, mesmo na mesma conversación se se lle anima)… E iso sen ser consciente de que todo é verdade ou mentira, ou que se está inventando! Algúns argumentaron que nós tamén o facemos e que o noso cerebro funciona así, pero os expertos teñen claro que non é así.

Unha carreira tola para porse onde estea

En calquera caso, tanto Microsoft como Google entraron nunha carreira aloucada, cada cal puxo o seu asistente virtual (ChatGPT e Bard, respectivamente) antes dispoñible nas súas ferramentas (buscadores, programas ofimáticos, etc.). Claro, isto fano coa intención de aumentar a cota de usuari\ e quitarlla un pouco ao outro. A xente tamén está ansiosa por empezar a utilizalo.

Pero non sei se isto é realmente útil para os buscadores. E é que, en realidade, os buscadores funcionan ben para procuras navegacionales (que teñen por obxecto coñecer a dirección da páxina web dunha persoa ou entidade) e transaccionais (que teñen por obxecto comprar algo). Nos primeiros o resultado máis axeitado adoita estar entre os primeiros, detectamos e seleccionamos rapidamente e nos segundos queremos analizar todas as alternativas. Fiariámonos/Fiariámosnos da única solución que nos dá un omnisciente chatbot? Ademais, non poden proporcionar información actualizada, xa que os datos de adestramento destes temas estarán obsoletos en canto finalice o adestramento e publíquese o novo sistema (os datos de ChatGPT remóntanse a setembro de 2021). E moitas ferramentas baseadas en bases de datos e algoritmos relativamente simples funcionan perfectamente: para levalas a un sitio con GPS, para comprar billetes de avión... Non ten sentido substituílos por outros como ChatGPT ou Bard (e probablemente non os substituirán, se se detecta que se fixo unha pregunta deste tipo, derivaranse a sistemas clásicos).

Poden ser máis axeitadas para as procuras informacionales (cando buscamos información sobre algo), xa que en lugar de analizar unha lista de respostas unha a unha, daranos unha resposta directa e aforraranos traballo. Pero non se poderá saber se a información é correcta ou completa sen asumir ese traballo… E se os usuarios deixan de entrar nas páxinas web de resultados, como se manterá progresivamente sen visitar o ecosistema actual de webs e medios de comunicación?

En realidade, máis que o público xeneralista para buscar información ou preguntar cousas, estes instrumentos de intelixencia artificial creadora son máis útiles para os que teñen que facer a creación e, en lugar de substituír buscadores, ten máis sentido crear outros instrumentos ou servizos para esas tarefas.

Tantos riscos como vantaxes

En calquera caso, moitas das persoas e sectores que teñen que escribir textos ou facer imaxes xa empezaron a utilizalos ou están a facer adaptacións para utilizalos canto antes: profesores, escritores, xornalistas, debuxantes, alumnos, científicos… Pero hai que ter claro que empezar a utilizalos sen ser conscientes das vantaxes e os riscos e sen reflexionar sobre como e para que.

Por unha banda, o risco de confiar directamente na resposta que proporcionan estes chatbots, é dicir, de publicar información errónea ou enviala ao evaluador. As persoas que estamos a traballar no desenvolvemento de sistemas de tradución automática debemos ir debuxando o que sempre dicimos, que hai que revisalo antes de publicalo ou utilizalo. Evidentemente, en moitos casos non se vai a facer porque iso esixe un pouco de coñecemento e de traballo, e hai alumnos que prefiren arriscar que aprender ou escribir, algúns creadores que gañan tempo, algúns editores que aforran diñeiro… Outras veces non se fará porque pensan que os sistemas de intelixencia artificial son infalibles (como ocorre actualmente con algúns sistemas de tradución automática).

No ámbito educativo, hai quen din que non se poden evitar estes sistemas e que hai que ensinar aos alumnos a aproveitalos ben, pero tamén hai unha preocupación polas consecuencias que pode ter non traballar unha competencia como a escritura nos resultados académicos ou nas aprendizaxes.

Máis aló das consecuencias a nivel persoal, isto pode levar a longo prazo á proliferación de contidos mediocres, erróneos, similares ou deliberadamente falsos en redes ou medios de comunicación. E dado que os futuros sistemas de intelixencia artificial alimentaranse e adestrarán con estes contidos, o propio sistema tamén pode provocar un empeoramento (similar ao empeoramento xenético que provoca a endogamia).

Microsoft (Open AI) e Google entran nunha carreira tola. Ed. JRdes/Shutterstock

Doutra banda, está claro que pode supor unha perda importante de postos de traballo. Hai sectores preocupados e/ou enfadados, especialmente os debuxantes están entusiasmado, tendo en conta que seguramente para adestrar este sistema AA que lles pode quitar o traballo utilizaron os seus debuxos sen respectar o copyright e ilegalmente… E o mesmo ocorre cos xeradores de texto. Algúns reclaman unha lexislación que permita auditar con que datos adestráronse estes sistemas.

Ademais, este tipo de sistemas facilitan a creación de contidos falsos que parecen veraces (ademais de crear texto e imaxe, tamén existen sistemas que poden producir audio e vídeo) e esixen sistemas ou mecanismos de detección dos mesmos (como marcas de auga ocultas), o cal é tecnicamente moi difícil.

Tamén hai preocupacións medioambientais, porque estes xigantescos sistemas consomen unha inxente cantidade de enerxía para adestrar e usar. O uso e a expansión masiva deste tipo de sistemas non parece que sexan as mellores no contexto da emerxencia climática en que nos atopamos.

Por último, todos estes sistemas están influenciados negativamente polo desenvolvemento dos R.D.T. de Estados Unidos, que se viron claramente coas ferramentas existentes (ofimática, tradución automática, altofalantes intelixentes, buscadores…), rumbos multi-nivel (sexo, raza, idioma, cultura…), perda de privacidade, perda de soberanía tecnolóxica, concentración da riqueza nunhas poucas mans…

Nalgunhas linguas grandes funciona moi ben, pero nas linguas pequenas non o fai tanto.

Para saber máis sobre estes riscos e danos, é moi recomendable seguir a Emily Bender e a Timnit Gebru, que son os encargados de advertilos.

E o eúscaro, que?

Xa comentamos que ChatGPT é multilingüe pero non de forma equilibrada. Por suposto, o inglés é o idioma que mellor funciona (rumbo lingüístico mencionado), noutras linguas grandes funciona moi ben, pero nas linguas pequenas non tanto. ChatGPT ten eúscaro e pódese dicir que funciona bastante ben, pero aínda ten camiño de mellora. E o coñecemento da cultura ou temas vascos non é o que necesitaría (rumbo cultural mencionado). Se o uso do ChatGPT faise cotián ou habitual, será outro ámbito que perderá o eúscaro, xa que, como noutros moitos ámbitos, os vascos utilizarémolo en castelán, francés ou inglés se así funciona mellor, e pense en que pode influír isto, especialmente se o facemos en educación.

En lugar de dedicar o ChatGPT a unha esperanza incerta ou exixente dun futuro mellor en eúscaro, o camiño é desenvolver este tipo de tecnoloxías doutra maneira ou de forma local. E é que, aínda que ChatGPT estivese moi ben en eúscaro, os citados danos derivados da propiedade das multinacionais tecnolóxicas (falta de privacidade, concentración de riqueza, dependencia tecnolóxica…) seguirían aí.

Neste sentido, existen iniciativas para desenvolver os CME de forma diferente e liberar os sistemas desenvolvidos, por exemplo, GPT-J, EleutherAI -fundados pola empresa sen ánimo de lucro, ou o BLOOM, desenvolvido conxuntamente por moitos investigadores de todo o mundo. Ambos reivindican uns resultados similares aos de GPT ou ChatGPT. Con todo, o GPT-j é bastante máis pequeno en tamaño e non ten eúscaro nos datos de adestramento, mentres que o BLOOM é do tamaño do GPT e nos datos de adestramento ten pouco eúscaro. Por tanto, é de supor que ambos non funcionarán moi ben en eúscaro.

E é que cando os xigantes introducen o eúscaro nas súas ferramentas, fano de forma xenérica e cun esforzo mínimo, é dicir, utilizando datos que se poden obter facilmente, sen analizar a calidade ou sen facer un esforzo manual especial para obter maiores cantidades, confundindo con todos os demais datos e deixándoos en moi pequena proporción. Pola contra, os axentes locais en numerosas ocasións demostramos que, facendo un esforzo por obter ou producir datos de calidade en eúscaro en gran cantidade, desenvolvendo ferramentas só para o eúscaro, e facendo un desenvolvemento específico para tarefas específicas en lugar dun único instrumento válido para todos, somos capaces de obter resultados moi bos para o eúscaro (a miúdo mellores que os dos xigantes tecnolóxicos), por exemplo no ámbito da tradución e/ou a transcrición automática.

O coñecemento da cultura e temas vascos non é bo.

No centro de traballo Orai NLP Teknologia no que eu traballo, que forma parte de Elhuyar, estamos a traballar no ámbito das intelixencias creativas GPT ou ChatGPT para o eúscaro, pero non é tarefa fácil, por unha banda, as esixencias das estruturas xigantescas e crecentes para almacenalas, adestralas e elaborar os resultados en eúscaro non están en mans de ninguén nin de ninguén. Por iso, na liña doutras linguas minoritarias ou minoritarias, está a investigarse para obter estruturas máis pequenas e con menos datos, instrumentos deste tipo e con resultados similares. A ver si conseguímolo e logo se todos acertamos a utilizalo correctamente!

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia