}

Orai presenta un nou model neuronal per a la intel·ligència artificial en basca

2024/09/12 Elhuyar Zientzia Iturria: Elhuyar aldizkaria

Ed. Wes Cockx & Google DeepMind / Better Images of AI / AI large language models / CC-BY 4.0

Orai, el centre de recerca d'intel·ligència artificial d'Elhuyar, ha desenvolupat el model neuronal lliure més recent per a sistemes d'intel·ligència artificial que exigeixen la comprensió i creació del basc escrit. Batejat amb el nom d'eus-8B, s'utilitzarà per al desenvolupament de bots, traductors automàtics, correctors gramaticals, cercadors, sistemes de creació de continguts...

Segons han confirmat els investigadors d'Oraiko, aquest és el model més avançat per al basc en l'àmbit del model fundacional lleuger, amb menys de 10 mil milions de paràmetres. A més, amb l'objectiu de facilitar el desenvolupament i la recerca de les tecnologies en basca tant en l'àmbit acadèmic com en l'industrial, s'ha posat a la disposició de la ciutadania de manera lliure l'accés a la informació sobre el desenvolupament i l'avaluació de les tecnologies en basca.

Segons han precisat, per al desenvolupament de la Variant eus-8B, s'ha utilitzat com a model basi el model més recent de Meta 3.1-8B (és el model de codi obert de 8 mil milions de paràmetres). Aquest model lingüístic neuronal s'ha creat a través d'algorismes d'aprenentatge automàtic utilitzant una gran col·lecció de textos (15 bilions de paraules), la majoria en anglès, i és molt efectiu en aquest idioma (i en altres llenguatges principals) per a automatitzar tasques que requereixen habilitats lingüístiques (traducció automàtica, resum automàtic, generació de continguts, sistemes de diàleg…). No obstant això, el rendiment en basc és molt limitat.

Com no hi ha una col·lecció de textos en basc gegant i els requisits computacionals per a entrenar des de zero un model semblant per al basc són molt grans, han decidit partir de la Base 3.1-8B, ja que té una base sòlida. L'objectiu ha estat transferir al basc les competències adquirides de milions de textos en anglès mitjançant algorismes d'aprenentatge automàtic i la utilització d'una col·lecció de textos en basc.

Per a això, han utilitzat el corpus Zelai recollit fa uns mesos per Orai, el major corpus en basc amb llicència lliure i d'alta qualitat. Per a millorar la transferència de les competències entre l'anglès i el basc, els textos del Gran Camp s'han combinat amb textos en anglès. D'aquesta manera, els models han aconseguit mantenir el coneixement d'anglès i, al mateix temps, millorar la comprensió del basc, reutilitzant eficaçment l'après per a l'anglès en l'entrenament original”. L'entrenament del model s'ha realitzat utilitzant el sistema Hyperion del centre de supercomputación del Donostia International Physics Center (DIPC).

El model ha estat avaluat en un banc de proves ampli que inclou 11 tasques en basca, en les quals han utilitzat les competències lingüístiques formals (ús correcte de la gramàtica i del diccionari) i funcionals (capacitat de comprensió i ús de la llengua en contextos reals): exàmens escolars, resolució de problemes, qüestionaris sobre diversos temes, anàlisis d'opinió, etc.

Els resultats de l'avaluació demostren que el model de gestió en basc més lleuger disponible en l'actualitat és el que proporciona els millors resultats (menys de 10 mil milions de paràmetres), constituint així un valuós recurs per al desenvolupament de sistemes d'intel·ligència artificial que requereixin les competències lingüístiques en basca. En algunes tasques dona resultats més competitius que els models molt més grans. En qualsevol cas, encara que els resultats estan cada vegada més prop dels d'anglès, el rendiment en basc continua sent molt de menor que el d'anglès.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia