“És difícil crear un model ètic universal per a les màquines”

Xabier Saralegi Urizar és un investigador d'intel·ligència artificial en l'espai Orai NLP Teknologia, una nova iniciativa tecnològica impulsada per la Fundació Elhuyar. Intenta utilitzar tot el potencial de la digitalització a favor del basc. El seu equip investiga als traductors automàtics, la síntesi de veu i altres tecnologies. També té com a objectiu fer front als comportaments discriminatoris i racistes d'aquestes tecnologies. En definitiva, la creació de màquines més ètiques i humanes.


Les màquines són molt bones en aritmètica. No tant comunicant amb humans. Però també ho fan cada vegada millor. Tenen un gran potencial les tecnologies de la parla?

Sí, tenen. En el camp de la Intel·ligència Artificial existeixen dues disciplines molt complexes però que han cobrat molta força: d'una banda, la vista –reconeixement i processament d'imatges– i, per un altre, el processament del llenguatge natural. Es necessiten algorismes molt complexos per a automatitzar en màquines aquest procés que el cervell humà realitza de manera natural. Per exemple: traducció automàtica, sistemes de preguntes i respostes, sistemes de recapitulació de textos, correctors gramaticals… Però cada vegada estem aconseguint millors resultats.

El vostre objectiu és que les màquines facilitin la comunicació entre humans?

Sí, però no és només això. En definitiva, la major part de la informació que es genera en el món està codificada en el nostre idioma. El big data està en el llenguatge humà i de manera digital. Per tant, aquesta font és la més productiva per a accedir a qualsevol informació. El processament del llenguatge natural és necessari per a esprémer la informació digitalitzada i realitzar diverses anàlisis. D'aquesta manera s'obtindran els beneficis d'aquesta informació.

Però alguna vegada has dit que les màquines són racistes i excloents.

Sí, així és. Perquè les màquines aprenguin el llenguatge humà, s'entrenen amb textos creats per l'home: notícies, novel·les... En aquests textos es veuen els nostres comportaments, reflex de la nostra societat racista i excloent. Per tant, les màquines aprenen comportaments discriminatoris.

En la traducció automàtica, per exemple, es veu molt clar en les professions: en moltes ocasions, l'enginyer les considera directament masculines i la infermera com a dones. El mateix ocorre amb les minories religioses: un sistema que treia sinònims o relacions semàntiques, per exemple, a vegades vinculava a l'Islam amb el terrorisme. Google també va desenvolupar un servei de detecció d'objectes fotogràfics que, en alguns casos, classificava a les persones negres com a goril·la.

Com es pot ensenyar ètica a una màquina?

De fet, el biaix o les actituds excloents provenen dels textos d'entrenament, els quals hem de “netejar-los”. La qüestió és que hi ha moltes minories i molts conflictes ètics que a vegades es creuen entre si. No és viable depurar milions de textos i crear un corpus ètic universal, sense biaixos en cap problema social. És èticament difícil, no sols tecnològicament.

Es poden generar models ètics amb atenció en un problema concret i en això estem. Però els algorismes que creguem per a aprendre les màquines també poden amplificar el biaix inherent als textos. Cal tenir en compte tots dos factors.

Ed. Jon Urbe/Argazki Press
Si les màquines volen comunicar-se i entendre'ns amb els éssers humans, hauran de detectar i comprendre les nostres emocions. És possible?

Ara, sobretot, s'utilitzen models lingüístics neuronals perquè les màquines aprenguin el llenguatge natural, i en aquests models neuronals de llenguatge es tracten de distingir diferents nivells d'abstracció del llenguatge: morfològic, sintàctic, semàntic i pragmàtic. I en això últim entren les emocions. S'ha proposat una escala de sis categories per a detectar emocions: empipament, content, trist... El que passa és que en el llenguatge oral també cal tenir en compte els gestos i l'entonació per a detectar les emocions. Per tant, també es necessita un processament d'imatges. Fa falta una arquitectura neuronal que conjumini tres disciplines: el reconeixement de les imatges, la tecnologia de la parla i la comprensió del llenguatge. En això ja s'està investigant.

És més difícil detectar la ironia. Per a això, el sistema hauria de centrar-se en el global i en el context global, la qual cosa anomenem “coneixement del món”. Per a entendre els acudits, la màquina ha d'aprendre prèviament algunes referències culturals. Integrar tot aquest coneixement del món en xarxes neuronals és molt complex. No existeix una xarxa neuronal que generi bons acudits, per exemple. Però això arribarà també.

Parlen de xarxes neuronals, però en què s'assemblen a les neurones?

Per exemple, el traductor automàtic Elia que hem desenvolupat, quan volem traduir una frase, ha de prendre una frase i anunciar com es diu en un altre idioma. Té, per tant, dues variables: entrada i sortida. Una paraula pot ser introductòria i algunes neurones han de predir com traduir-la. Aquestes neurones funcionen amb bits: reben un número en l'entrada i donen un número en la sortida. En el llenguatge binari, 0 o 1.

És a dir, la qual cosa vostès diuen neurona, és realment una fórmula matemàtica?

Sí, una fórmula. Té una sèrie de valors en l'entrada i es combinen els valors d'entrada perquè el valor surti. Però per a cada paraula d'entrada, es necessiten un munt de neurones connectades entre si. I, com el llenguatge és complex, es necessiten milions de neurones, milions de fórmules matemàtiques connectades entre si. Com les neurones biològiques. D'aquí el nom de les xarxes neuronals. Aquestes arquitectures neuronals poden organitzar-se per capes. D'alguna manera, la morfologia s'aprèn en la primera capa; en la segona, la sintaxi; en la tercera, la semàntica…

I per a donar millors resultats, hem d'anar ajustant aquestes fórmules. Però, com ajusta un milió de fórmules? No es pot fer manualment. Utilitzem algorismes d'optimització fins que s'explori automàticament i es troben els paràmetres que donen els millors resultats en l'entrenament.

Com aprenien les màquines abans d'inventar xarxes neuronals?

Ha tingut una llarga evolució. Al principi s'utilitzaven metodologies basades en les regles del llenguatge: “Si en una frase apareix aquesta paraula en aquesta posició i al costat té un títol…”. Però és un llenguatge complex i hi ha massa regles, per la qual cosa els resultats no van ser bons. Llavors van pensar que el més adequat serien els models estadístics. Els resultats van millorar una mica. en 2010, Mikolov, un investigador de Google, va proposar una tècnica per a representar millor les característiques lingüístiques de les paraules. I van començar a utilitzar xarxes neuronals profundes.

Ed. Jon Urbe/©FotPress

No obstant això, en 2017 i 2018, altres investigadors de Google van proposar sengles innovacions per a millorar l'aprenentatge de la complexitat del llenguatge. Aquestes innovacions han consolidat el paradigma actual: el coneixement d'una llengua es concentra en un model lingüístic neuronal gegant que es pot adaptar per a fer tasques concretes de processament de la llengua. Això ha suposat un boom en les tecnologies lingüístiques.

Com les màquines no tenen capacitat d'abstreure, necessiten un munt d'exemples per a aprendre qualsevol cosa. Això dificulta la creació de tecnologia per a les llengües petites?

Sí, és un gran límit. Estem treballant en un projecte amb el centre HiTZ i Vicomtech per a aconseguir la major base de dades que el basc ha tingut mai. hem aconseguit un corpus de 400 milions de paraules. En anglès, manegen milers de milions.

En l'actualitat, la salut de les llengües també es mesura en l'àmbit digital. Per tant, les polítiques lingüístiques hauran de tenir en compte el desenvolupament de la tecnologia, no?

És clar que l'important per a enfortir la vitalitat digital d'una llengua és crear continguts. Però després necessitem eines digitals per a interactuar en aquest idioma: traductors automàtics, subtitulat automàtic, recomanacions de notícies… Per a consumir continguts, són necessàries les tecnologies de la llengua.

La digitalització ha transformat completament la comunicació. En aquest moment, pot llegir el tuit escrit per un periodista rus en el seu idioma. Però per a això, les llengües necessiten un suport tecnològic. En cas contrari, quedaran fora de joc a curt termini. Per tant, sí que és important que les polítiques lingüístiques tinguin una estratègia digital clara. No obstant això, el basc no té una estratègia molt clara.

En l'entrevista ha esmentat que els principals avanços han vingut de la mà de Google. En aquest context, considera important la sobirania tecnològica?

Al meu entendre, és imprescindible ser sobirà de les tecnologies crítiques per a la supervivència de la nostra llengua. Sobretot, per a poder marcar línies estratègiques i no dependre de ningú. Google ofereix alguns serveis –traductors, cercadors, sistemes de transcripció…– i sovint sento la gent amb por: “Si Google no treu versions en basca, ens quedarem fora!”. Però potser l'important no és que ho faci Google, sinó que nosaltres mateixos siguem capaços de fer-ho. La possessió d'aquest coneixement és, precisament, la independència. Això ens donarà capacitat per a afrontar qualsevol situació sense dependre de grans corporacions.

La majoria de les novetats han estat realitzades per investigadors de Google, però tots han posat a la disposició dels usuaris algorismes i altres recursos. A Euskal Herria hem tret un gran profit d'aquests recursos. Estem treballant en tres grups: Centre HiTZ, Vicomtech i Tecnologies Orai NLP. Per tant, tenim elements per a aconseguir la sobirania tecnològica. Però fa falta un finançament públic sòlid, perquè el mercat mai salvarà a la feble.

Buletina

Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian

Bidali

Bizitza