AskHezi, Tecnologies de la parla al servei del basc, l'educació de la infància i la inclusió

2025/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzailea Iturria: Elhuyar aldizkaria

La intel·ligència artificial i les tecnologies del llenguatge i la parla poden tenir usos polèmics, però tenen aplicacions realment útils que no generen cap dubte, com les destinades a les llengües minoritzades i a l'accessibilitat. El projecte AskHezi combina aquestes i moltes altres coses: s'ha desenvolupat un sistema perquè els nens amb problemes motors en l'ús dels teclats puguin escriure en basc a través de la dictadura. En el projecte han col·laborat diverses xarxes de centres educatius de tot el País Basc i el desenvolupament s'ha dut a terme en el centre Tecnologies Orai NLP.

Ed. Orai Tecnologies NLP

És clar que les tecnologies lingüístiques i de parla poden contribuir molt a l'accessibilitat i aportar molt en la inclusió dels grups amb diversitat funcional. Aquestes tecnologies també poden ajudar al basc, sempre que es desenvolupin també per a la nostra llengua. Les tecnologies Orai NLP creades per Elhuyar estan en el cor del centre, el basc i l'accessibilitat, i en aquest apartat de la revista ja hem esmentat anteriorment els treballs que hem realitzat entorn d'aquestes temàtiques: persones amb dificultats de lectura de textos, TTS (Text-To-Speech) o la tecnologia de síntesi de parla, eines que els permeten escoltar en lloc de llegir contingut web.

AskHezi, un projecte per a donar resposta a una necessitat

El servei d'experts, a més de crear subtítols per a un vídeo o àudio, també transcriu directament el que se li diu des del micròfon, és a dir, serveix per a escriure de forma dictada, parlant, i està molt bé en basca. En aquest sentit, des d'alguns centres escolars, procedents de diferents territoris d'Euskal Herria, i, per casualitat, en molt poc temps, van arribar al Centre Orai diverses peticions, perquè els nens i nenes amb problemes de mobilitat a les seves mans poguessin accedir a la redacció de textos i treballs escolars. Per descomptat, vam estar molt contentes amb aquestes peticions, per a què fem si la tecnologia no és per a ajudar al basc, als nens i a la inclusió? Però quan vam fer les proves amb els nens, tots rebem una bufetada: La dictadura d'Aditu no funciona tan bé amb les veus dels nens. De fet, aquestes tecnologies estan basades en xarxes neuronals que es desenvolupen entrenant amb dades, en aquest cas amb àudio transcrit; i les col·leccions d'àudio transcrit que s'utilitzen per a l'entrenament són gravacions d'adults, i les veus infantils no són com les dels adults...

Però també era clar quin podia ser la solució: entrenar el sistema de transcripció automàtica amb les gravacions dels nens. A més, els col·legis estaven disposats a ajudar a aconseguir aquestes gravacions infantils.

Així, en 2022 es va constituir un consorci amb una xarxa de centres dels tres àmbits administratius del País Basc: De la CAB, la Federació d'Ikastoles; d'Iparralde, el Comitè d'Integració de SEASKA; i de Navarra, l'Associació sortzen de centres de la xarxa pública escolar. L'elaboració i coordinació del treball tècnic seria a càrrec d'Orai, i la gestió i les labors administratives de l'associació d'indústries de la llengua Langune. I l'objectiu, com s'ha dit, és desenvolupar un sistema dictatorial que permeti que els nens i nenes puguin escriure en basca.

El projecte va rebre durant dos anys el suport de la convocatòria de Ciutadania de l'Euroregió i un any més de la convocatòria d'Intel·ligència Artificial Aplicada de SPRI. A principis d'aquest any 2025 hem donat per finalitzat el desenvolupament del sistema i el presentem públicament el 20 de març.

Gravacions: una col·laboració increïble

El projecte AskHezi, en poc més de dos anys, ha tingut diverses fases. El més llarg (gairebé igual que el projecte) i que ha requerit una gran participació de tots els membres ha estat el de les gravacions. En ella, Orai va desenvolupar en primer lloc una plataforma web per a poder fer gravacions. Aquesta plataforma permetia que un nen es quedés gravat en llegir una frase i enviar-la a la col·lecció de gravacions.

A continuació, cada membre del consorci va fer la seva difusió en els centres de la seva xarxa i es va aconseguir la participació de mig centenar de centres. En cadascun d'ells, diversos nens, famílies i professors es van mostrar disposats a col·laborar. Els pares i mares van haver de signar documents de consentiment, obligat per la llei de protecció de dades i privacitat. I amb l'ajuda de professors o pares, a vegades en els col·legis i altres a casa, uns 480 nens i nenes van gravar al voltant de 150 frases cadascun. En total es van realitzar més de 70.000 gravacions i es van aconseguir unes 100 hores d'àudio que van servir per a l'entrenament. En aquesta fase tots els membres del projecte han fet un esforç enorme, i els resultats obtinguts han estat molt similars.

Desenvolupament: sistemes de dictat i correcció

Sense esperar al final del procés de gravació, i amb ell -una vegada aconseguit un nombre mínim de gravacions–, iniciem el desenvolupament en el centre Orai. La primera fase va consistir en l'entrenament de models de transcripció automàtica adaptats a les veus dels nens. S'han provat diferents models, com el model modular més clàssic Kaldi i el model integral Whisper end-to-end. En ambdues s'han obtingut millores, és a dir, s'ha aconseguit que les veus dels nens es transcriguin millor, i els resultats del Whisper són millors. Posteriorment, en tots dos casos, s'ha desenvolupat la manera de realitzar la transcripció de manera directa i gairebé en temps real. A més, s'ha inclòs la manera d'escriure números, dates, sigles i similars en la seva forma natural escrita (“2025” i no “dues mil vint-i-cinc”, “PNB” i no “e a jota”...).

El següent que s'ha hagut de fer és implementar un sistema per a poder realitzar correccions. De fet, malgrat haver fet un sistema de dictat automàtic molt bo, sempre cometrà alguns errors i els nens també cometran errors quan estan dictant al sistema. No obstant això, també calia permetre corregir aquests errors mitjançant l'ús del llenguatge verbal, sense fer ús del teclat. En aquest sentit, s'ha implementat el camí per a la comprensió i realització dels comandos de correcció més habituals: “Anar dues paraules a l'esquerra”, “esborrar els cinc caràcters de la dreta”, “seleccionar la frase de l'esquerra”, “copiar”, “desfer”...

Acte de presentació de la plataforma dictatorial AskHezi. Ed. Orai Tecnologies NLP

En qualsevol cas, es va observar que algunes paraules mal transcrites, fins i tot esborrades i reintentades, es transcrivien malament una vegada i una altra (per exemple, alguns noms especials, especialment els estrangers), i l'única manera de resoldre-les ha estat donant-los l'oportunitat de lletrejar-les. Però ens vam adonar que aquests sistemes automàtics es confonien amb la letreción de lletres d'una sola síl·laba (“e”, “be”, “de”, “ge”, “pe”, “et”...). A nosaltres també ens succeeix, i per això quan se'ls dona per telèfon la lletra del document d'identitat se'ls dona el nom de “Bilboko be”, i per això fa temps que es van inventar l'alfabet radiofònic o un altre tipus d'alfabet letreético per a les radiocomunicacions militars. I en el nostre cas també la solució ha estat oferir un alfabet de latreizado, donant-li totes les opcions possibles: cada lletra es pot dir de manera habitual (“a”, “be”, “ce”...), utilitzant l'alfabet internacional d'avions (“alfa”, “bravo”, “charlie”...), utilitzant l'alfabet de latreinado proposat per Xabier Artola (“Llaurava”, “Baiona”........

Tot el sistema AskHezi s'ofereix a través d'una interfície web en la qual, després de prémer el botó d'inici de la gravació, el nen anirà escrivint tot el que diu en una caixa; en qualsevol moment es pot passar a fer correccions o a lletrejar i en qualsevol moment tornar als dics fins a completar el text que volíem escriure.

Desplegament: pendent

El sistema dictatorial desenvolupat al llarg del projecte AskHezi és molt satisfactori per a tots els membres del consorci, i pensem que serà molt útil per als nens amb diversitat funcional, no sols per a nosaltres, sinó també per als pares dels nens i nenes que ho van sol·licitar i tornen a mostrar el seu desig que l'usin com més aviat millor.

No obstant això, aquí està el següent graó. Les tècniques més modernes de la xarxa neuronal s'utilitzen en el sistema de dictat AskHezi i, com sabem, aquest tipus de sistemes tenen grans exigències de recursos. No són fàcils de posar en marxa en els ordinadors normals, sinó que es posen en marxa en servidors potents, i com més usuaris simultanis, més poderosos són els servidors. I aquests criats són molt cars.

Per tant, el repte que tenim ara és veure com podem pagar els costos dels servidors i del seu manteniment, o els servidors de les entitats públiques que podem utilitzar. Estem ensenyant AskHezi als departaments d'educació de les diferents administracions i percebem una molt bon acolliment i actitud. A veure si som capaços de posar en marxa com més aviat millor, mitjançant la col·laboració, el sistema de dictat en basc AskHezi i si és així el que necessiten tots els nens i nenes de tota Euskal Herria i de qualsevol xarxa social.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia