Boom de la intel·ligència artificial creativa
2023/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Segur que a tots ens resulten familiars els noms de Stable Diffusion, LaMDA, Midjourney, GPT, DALL-E, Bard i, sobretot, el de ChatGPT, que en els últims mesos a penes es parla de res, no sols en el món de la tecnologia, sinó també en els mitjans de comunicació, xarxes socials i societat en general. Tots són sistemes d'intel·ligència artificial creativa capaces de produir textos llargs, respostes estructurades a preguntes i imatges. El sector ha realitzat un avanç realment sorprenent en l'últim any, fins al punt d'oferir resultats realment útils i fins i tot sorprenents per a molts casos, i cada vegada són molts els àmbits en els quals s'estan aplicant més aquests sistemes. Coneguem millor què és la intel·ligència artificial creativa, com funciona, quines possibilitats ofereix i quins riscos comporta.
Les persones que treballem amb les tecnologies del llenguatge i de la parla hem treballat sobretot en la part d'anàlisi o comprensió, és a dir, en sistemes que proporcionen una sortida més curta d'una entrada: classificació de textos, síntesis, extracció d'entitats o de terminologia… O també en els quals proporcionen un resultat d'una extensió similar, transformat en un altre mig o codi: anàlisi, correcció o traducció de textos, conversió de text a parla, transcripció d'àudio, etc. Però en els sistemes que generen una sortida més llarga o treballada que l'entrada, és a dir, en la subàrea de generació automàtica de textos (NLG, Natural Language Generation), hem treballat molt poc perquè la tasca és molt més difícil i no s'obtenien els resultats adequats. El mateix ha ocorregut en altres àmbits de la intel·ligència artificial, com les imatges o els vídeos, en els quals es feia una anàlisi de les imatges per a detectar objectes presents o per a descriure la imatge, però la creació d'imatges a penes existia. És a dir, l'anomenada intel·ligència artificial creativa estava o semblava poc desenvolupada.
Un estiu d'intel·ligència artificial creativa
I en primer lloc i des del no-res, en l'últim any s'ha produït una explosió de sistemes de producció de textos llargs, imatges o respostes estructurades a preguntes. Diverses companyies i organitzacions, més enllà de la publicació d'articles científics sobre les seves recerques, han obert l'ús dels sistemes desenvolupats o han mostrat els seus resultats al gran públic, constatant-se que la qualitat de les intel·ligències artificials creatives era molt elevada. Exemples d'aquests sistemes oberts o mostrats són els instruments de creació d'imatges Stable Diffusion, Midjourney i DALL-E, les eines de creació de text GPT i LaMDA i les botes de resposta de preguntes ChatGPT i Bard. No era casualitat que tots s'obrissin en un temps (gairebé en rampa) tan similar. Clar que volien sorprendre la gent amb els resultats i generar l'anhel de l'instrument, a més d'avançar-se a la competència o demostrar que no s'estan quedant enrere. Però totes aquestes proves realitzades per la gent han servit, sens dubte, per a afinar els seus sistemes, detectar decisions en casos reals, detectar i limitar en endavant usos inadequats, etc.
El principal causant d'aquesta explosió és OpenAI, que és el DALL-E, GPT i ChatGPT. OpenAI és una empresa sense ànim de lucre, fundada en 2015, en la qual Elón Muskiz, Microsoft, etc. contribuiran al desenvolupament de la intel·ligència artificial, a la col·laboració amb altres agents i a la lliure realització dels seus desenvolupaments. No obstant això, M no està en aquesta empresa, des de 2019 treballa amb l'ànim de conquistar, a poc a poc Microsoft ha posat més diners i ha conquistat el poder fins que, en la pràctica, la majoria dels desenvolupaments no els fan lliures (GPT Microsoft pot aprofitar-lo exclusivament). A més d'OpenAI està Google amb LaMDA i Bard.
Base: Grans models de llenguatges
La majoria d'aquests sistemes es basen en models de llenguatges grans (LLM, Large Language Models). Els grans models de llenguatges, com gairebé tots els sistemes d'intel·ligència artificial actuals, són un tipus de xarxa neuronal profunda. S'entrenen amb els textos per a una tasca, en principi molt senzilla: predir la següent paraula d'un fragment, segons les probabilitats dels textos observats durant l'entrenament. Però en ser xarxes extremadament grans (amb milions o milers de paràmetres) i entrenar-se amb ingents quantitats de textos (milers de milions de paraules), absorbeixen gran part de la sintaxi i semàntica del llenguatge, així com un gran coneixement general del món. I si la longitud de paraula de les frases que accepta en l'entrada és bastant gran i encadenant de nou la paraula predisposada en la sortida, poden sorgir textos llargs. Aquest GPT o LaMDA són les LLM per a formar un text llarg amb un inici de text.
A més, aquests grans models de llenguatges poden adaptar-se a altres tasques mitjançant el procés de fini-tuning. Així, ajustats a un parell de preguntes poden entrenar-se per a actuar com a bot i, si la longitud de l'entrada és prou gran, poden incloure's com a entrades les seves respostes prèvies, formant una conversa completa, recordant i refinant les respostes anteriors si se li requereix. I això són ChatGPT i Bard. O bé, ajustant-ho a les imatges i les seves descripcions, donant un text es pot aconseguir un sistema de creació d'imatges, que en definitiva és DALL-E. També es pot aconseguir que una LLM s'utilitzi per a altres tasques sense necessitat d'ajustar-se o reentrenar mitjançant prompt engineering o enginyeria de frases d'entrada. Per exemple, si li donem un text i li especifiquem “És el tema d'aquest text anterior”, faria una classificació de textos; o un resum de text si incloem “És un resum del text anterior”; o una traducció si li demanem “Traduir a no sé quin” anglès.
Les AES esmentades estan entrenades amb textos en algunes llengües, per la qual cosa són capaces de comprendre i respondre a les preguntes que se'ls plantegen en elles i de realitzar una traducció automàtica entre elles a través del prompting (això sí, la quantitat de textos en totes les llengües no és la mateixa, i en algunes d'elles funciona molt bé però en unes altres no). Més aviat, en l'entrenament se li ha proporcionat un codi compost per diversos llenguatges de contingut, i també és capaç d'escriure programes. I GPT-4 també accepta les imatges com a introducció per a donar respostes o argumentacions sobre elles.
Així, l'última versió de ChatGPT conté 175.000 milions de paràmetres, està entrenada amb 500.000 milions de paraules en 95 idiomes i l'extensió de paraules que admet en la seva introducció és de 32.000 paraules. I realment dona molt bons resultats, sovint sorprenents: llargs, lingüísticament correctes i ben estructurats. I les respostes sempre són molt versemblants i les expulsa amb tota seguretat. No obstant això, sovint, les respostes no sempre són correctes, completes o òptimes.
En definitiva, ChatGPT no és una intel·ligència artificial global o dura (AGI, Artificial General Intelligence o Strong AI), és a dir, una intel·ligència real capaç de “entendre” (classificar els fets de forma estructurada) i raonar sobre ells, ni un intent d'aconseguir-lo. Com s'ha dit, la paraula només es conforma en funció de la probabilitat, generalment molt bé, a causa del gran nombre de textos que se li han donat per a aprendre. Però en aquests textos d'entrenament hi ha ficció, informació errònia, contradiccions… i pot respondre a partir d'ells, barrejar coses molt diferents… Com es diu en el llenguatge tècnic, pot “al·lucinar”. I com a bot tracta de respondre a totes les preguntes perquè l'usuari se senti satisfet, pot encertar quan li falta informació, adaptar la resposta a les paraules concretes de la pregunta (ara dient una cosa i després el contrari, fins i tot en la mateixa conversa si se li anima)… I això sense ser conscient que tot és veritat o mentida, o que s'està inventant! Alguns han argumentat que nosaltres també ho fem i que el nostre cervell funciona així, però els experts tenen clar que no és així.
Una carrera boja per a posar-se on estigui
En qualsevol cas, tant Microsoft com Google han entrat en una carrera eixelebrada, cadascú ha posat el seu assistent virtual (ChatGPT i Bard, respectivament) abans disponible en les seves eines (cercadors, programes ofimàtics, etc.). Clar, això ho fan amb la intenció d'augmentar la quota d'usuari@ i llevar-la-hi una mica a l'altre. La gent també està ansiosa per començar a utilitzar-ho.
Però no sé si això és realment útil per als cercadors. I és que, en realitat, els cercadors funcionen bé per a cerques navegacionales (que tenen per objecte conèixer l'adreça de la pàgina web d'una persona o entitat) i transaccionals (que tenen per objecte comprar alguna cosa). En els primers el resultat més adequat sol estar entre els primers, detectem i seleccionem ràpidament i en els segons volem analitzar totes les alternatives. Ens fiaríem de l'única solució que ens dona un omniscient bot? A més, no poden proporcionar informació actualitzada, ja que les dades d'entrenament d'aquests temes estaran obsolets quan finalitzi l'entrenament i es publiqui el nou sistema (les dades de ChatGPT es remunten a setembre de 2021). I moltes eines basades en bases de dades i algorismes relativament simples funcionen perfectament: per a portar-les a un lloc amb GPS, per a comprar bitllets d'avió... No té sentit substituir-los per uns altres com ChatGPT o Bard (i probablement no els substituiran, si es detecta que s'ha fet una pregunta d'aquest tipus, es derivaran a sistemes clàssics).
Poden ser més adequades per a les cerques informacionals (quan busquem informació sobre alguna cosa), ja que en lloc d'analitzar una llista de respostes una a una, ens donarà una resposta directa i ens estalviarà treball. Però no es podrà saber si la informació és correcta o completa sense assumir aquest treball… I si els usuaris deixen d'entrar en les pàgines web de resultats, com es mantindrà progressivament sense visitar l'ecosistema actual de webs i mitjans de comunicació?
En realitat, més que el públic generalista per a buscar informació o preguntar coses, aquests instruments d'intel·ligència artificial creadora són més útils per als quals han de fer la creació i, en lloc de substituir cercadors, té més sentit crear altres instruments o serveis per a aquestes tasques.
Tants riscos com avantatges
En qualsevol cas, moltes de les persones i sectors que han d'escriure textos o fer imatges ja han començat a utilitzar-los o estan fent adaptacions per a utilitzar-los com més aviat millor: professors, escriptors, periodistes, dibuixants, alumnes, científics… Però cal haver clar de començar a utilitzar-los sense ser conscients dels avantatges i els riscos i sense reflexionar sobre com i per a què.
D'una banda, el risc de confiar directament en la resposta que proporcionen aquests bots, és a dir, de publicar informació errònia o enviar-la a l'avaluador. Les persones que estem treballant en el desenvolupament de sistemes de traducció automàtica hem d'anar dibuixant el que sempre diem, que cal revisar-lo abans de publicar-lo o utilitzar-lo. Evidentment, en molts casos no es farà perquè això exigeix una mica de coneixement i de treball, i hi ha alumnes que prefereixen arriscar que aprendre o escriure, alguns creadors que guanyen temps, alguns editors que estalvien diners… Altres vegades no es farà perquè pensen que els sistemes d'intel·ligència artificial són infal·libles (com ocorre actualment amb alguns sistemes de traducció automàtica).
En l'àmbit educatiu, hi ha els qui diuen que no es poden evitar aquests sistemes i que cal ensenyar als alumnes a aprofitar-los bé, però també hi ha una preocupació per les conseqüències que pot tenir no treballar una competència com l'escriptura en els resultats acadèmics o en els aprenentatges.
Més enllà de les conseqüències a nivell personal, això pot portar a la llarga a la proliferació de continguts mediocres, erronis, similars o deliberadament falsos en xarxes o mitjans de comunicació. I atès que els futurs sistemes d'intel·ligència artificial s'alimentaran i entrenaran amb aquests continguts, el propi sistema també pot provocar un empitjorament (similar a l'empitjorament genètic que provoca l'endogàmia).
D'altra banda, és clar que pot suposar una pèrdua important de llocs de treball. Hi ha sectors preocupats i/o enfadats, especialment els dibuixants estan entusiasmats, tenint en compte que segurament per a entrenar aquest sistema AA que els pot llevar el treball han utilitzat els seus dibuixos sense respectar el copyright i il·legalment… I el mateix ocorre amb els generadors de text. Alguns reclamen una legislació que permeti auditar amb quines dades s'han entrenat aquests sistemes.
A més, aquest tipus de sistemes faciliten la creació de continguts falsos que semblen veraços (a més de crear text i imatge, també existeixen sistemes que poden produir àudio i vídeo) i exigeixen sistemes o mecanismes de detecció dels mateixos (com a marques d'aigua ocultes), la qual cosa és tècnicament molt difícil.
També hi ha preocupacions mediambientals, perquè aquests gegantescos sistemes consumeixen una ingent quantitat d'energia per a entrenar i usar. L'ús i l'expansió massiva d'aquesta mena de sistemes no sembla que siguin les millors en el context de l'emergència climàtica en què ens trobem.
Finalment, tots aquests sistemes estan influenciats negativament pel desenvolupament dels R.D.T. dels Estats Units, que s'han vist clarament amb les eines existents (ofimàtica, traducció automàtica, altaveus intel·ligents, cercadors…), biaixos multi-nivell (sexe, raça, idioma, cultura…), pèrdua de privacitat, pèrdua de sobirania tecnològica, concentració de la riquesa en unes poques mans…
Per a saber més sobre aquests riscos i danys, és molt recomanable seguir a Emily Bender i a Timnit Gebru, que són els encarregats d'advertir-los.
I el basc, què?
Ja hem comentat que ChatGPT és multilingüe però no de forma equilibrada. Per descomptat, l'anglès és l'idioma que millor funciona (biaix lingüístic esmentat), en altres llengües grans funciona molt bé, però en les llengües petites no tant. ChatGPT té basc i es pot dir que funciona bastant bé, però encara té camí de millora. I el coneixement de la cultura o temes bascos no és el que necessitaria (biaix cultural esmentat). Si l'ús del ChatGPT es fa quotidià o habitual, serà un altre àmbit que perdrà el basc, ja que, com en molts altres àmbits, els bascos l'utilitzarem en castellà, francès o anglès si així funciona millor, i pensi en què pot influir això, especialment si ho fem en educació.
En lloc de dedicar el ChatGPT a una esperança incerta o exigent d'un futur millor en basc, el camí és desenvolupar aquest tipus de tecnologies d'una altra manera o de manera local. I és que, encara que ChatGPT estigués molt bé en basc, els citats danys derivats de la propietat de les multinacionals tecnològiques (falta de privacitat, concentració de riquesa, dependència tecnològica…) seguirien aquí.
En aquest sentit, existeixen iniciatives per a desenvolupar els CME de manera diferent i alliberar els sistemes desenvolupats, com per exemple, GPT-J, EleutherAI -fundats per l'empresa sense ànim de lucre, o el BLOOM, desenvolupat conjuntament per molts investigadors de tot el món. Tots dos reivindiquen uns resultats similars als de GPT o ChatGPT. No obstant això, el GPT-j és bastant més petit en grandària i no té basca en les dades d'entrenament, mentre que el BLOOM és de la grandària del GPT i en les dades d'entrenament té poc basc. Per tant, és de suposar que tots dos no funcionaran molt bé en basc.
I és que quan els gegants introdueixen el basc en les seves eines, ho fan de manera genèrica i amb un esforç mínim, és a dir, utilitzant dades que es poden obtenir fàcilment, sense analitzar la qualitat o sense fer un esforç manual especial per a obtenir majors quantitats, confonent amb totes les altres dades i deixant-los en molt petita proporció. Per contra, els agents locals en nombroses ocasions hem demostrat que, fent un esforç per obtenir o produir dades de qualitat en basca en gran quantitat, desenvolupant eines només per al basc, i fent un desenvolupament específic per a tasques específiques en lloc d'un únic instrument vàlid per a tots, som capaços d'obtenir resultats molt bons per al basc (sovint millors que els dels gegants tecnològics), per exemple en l'àmbit de la traducció i/o la transcripció automàtica.
En el centre de treball Orai NLP Teknologia en el qual jo treballo, que forma part d'Elhuyar, estem treballant en l'àmbit de les intel·ligències creatives GPT o ChatGPT per al basc, però no és tasca fàcil, d'una banda, les exigències de les estructures gegantesques i creixents per a emmagatzemar-les, entrenar-les i elaborar els resultats en basc no estan en mans de ningú ni de ningú. Per això, en la línia d'altres llengües minoritàries o minoritàries, s'està investigant per a obtenir estructures més petites i amb menys dades, instruments d'aquest tipus i amb resultats similars. A veure si ho aconseguim i després si tots encertem a utilitzar-ho correctament!
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia