AskHezi, Tecnoloxías da fala ao servizo do eúscaro, a educación da infancia e a inclusión
2025/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzailea Iturria: Elhuyar aldizkaria
A intelixencia artificial e as tecnoloxías da linguaxe e a fala poden ter usos polémicos, pero teñen aplicacións realmente útiles que non xeran ningunha dúbida, como as destinadas ás linguas minorizadas e á accesibilidade. O proxecto AskHezi combina estas e outras moitas cousas: desenvolveuse un sistema para que os nenos con problemas motores no uso dos teclados poidan escribir en euskera a través da ditadura. No proxecto colaboraron varias redes de centros educativos de todo o País Vasco e o desenvolvemento levouse a cabo no centro Tecnoloxías Orai NLP.

Está claro que as tecnoloxías lingüísticas e de fala poden contribuír moito á accesibilidade e achegar moito na inclusión dos grupos con diversidade funcional. Estas tecnoloxías tamén poden axudar ao eúscaro, a condición de que se desenvolvan tamén para a nosa lingua. As tecnoloxías Orai NLP creadas por Elhuyar están no corazón do centro, o eúscaro e a accesibilidade, e neste apartado da revista xa mencionamos anteriormente os traballos que realizamos ao redor destas temáticas: persoas con dificultades de lectura de textos, TTS (Text-To-Speech) ou a tecnoloxía de síntese de fala, ferramentas que lles permiten escoitar en lugar de ler contido web.
AskHezi, un proxecto para dar resposta a unha necesidade
O servizo de expertos, ademais de crear subtítulos para un vídeo ou audio, tamén transcribe directamente o que se lle di desde o micrófono, é dicir, serve para escribir de forma ditada, falando, e está moi ben en eúscaro. Neste sentido, desde algúns centros escolares, procedentes de distintos territorios de Euskal Herria, e, por casualidade, en moi pouco tempo, chegaron ao Centro Orai diversas peticións, para que os nenos e nenas con problemas de mobilidade nas súas mans puidesen acceder á redacción de textos e traballos escolares. Por suposto, estivemos moi contentas con estas peticións, para que facemos si a tecnoloxía non é para axudar ao eúscaro, aos nenos e á inclusión? Pero cando fixemos as probas cos nenos, todos recibimos unha labazada: A ditadura de Aditu non funciona tan ben coas voces dos nenos. De feito, estas tecnoloxías están baseadas en redes neuronais que se desenvolven adestrando con datos, neste caso con audio transcrito; e as coleccións de audio transcrito que se utilizan para o adestramento son gravacións de adultos, e as voces infantís non son como as dos adultos...
Pero tamén estaba claro cal podía ser a solución: adestrar o sistema de transcrición automática coas gravacións dos nenos. Ademais, os colexios estaban dispostos a axudar a conseguir esas gravacións infantís.
Así, en 2022 constituíuse un consorcio cunha rede de centros do tres ámbitos administrativos do País Vasco: Da CAV, a Federación de Ikastolas; de Iparralde, o Comité de Integración de SEASKA; e de Navarra, a Asociación sortzen de centros da rede pública escolar. A elaboración e coordinación do traballo técnico correría a cargo de Orai, e a xestión e os labores administrativos da asociación de industrias da lingua Langune. E o obxectivo, como se dixo, é desenvolver un sistema ditatorial que permita que os nenos e nenas poidan escribir en eúscaro.
O proxecto recibiu durante dous anos o apoio da convocatoria de Cidadanía da Eurorrexión e un ano máis da convocatoria de Intelixencia Artificial Aplicada de SPRI. A principios deste ano 2025 demos por finalizado o desenvolvemento do sistema e presentámolo publicamente o 20 de marzo.
Gravacións: unha colaboración incrible
O proxecto AskHezi, en pouco máis de dous anos, tivo varias fases. O máis longo (case igual que o proxecto) e que requiriu unha gran participación de todos os membros foi o das gravacións. Nela, Orai desenvolveu en primeiro lugar unha plataforma web para poder facer gravacións. Esta plataforma permitía que un neno quedase gravado ao ler unha frase e enviala á colección de gravacións.
A continuación, cada membro do consorcio fixo a súa difusión nos centros da súa rede e logrouse a participación de medio centenar de centros. En cada un deles, varios nenos, familias e profesores mostráronse dispostos a colaborar. Os pais e nais tiveron que asinar documentos de consentimento, obrigado pola lei de protección de datos e privacidade. E coa axuda de profesores ou pais, ás veces nos colexios e outras en casa, uns 480 nenos e nenas gravaron ao redor de 150 frases cada un. En total realizáronse máis de 70.000 gravacións e conseguíronse unhas 100 horas de audio que serviron para o adestramento. Nesta fase todos os membros do proxecto realizaron un esforzo enorme, e os resultados obtidos foron moi similares.
Desenvolvemento: sistemas de ditado e corrección
Sen esperar ao final do proceso de gravación, e con el -unha vez alcanzado un número mínimo de gravacións–, iniciamos o desenvolvemento no centro Orai. A primeira fase consistiu no adestramento de modelos de transcrición automática adaptados ás voces dos nenos. Probáronse diferentes modelos, como o modelo modular máis clásico Kaldi e o modelo integral Whisper end-to-end. En ambas as obtivéronse melloras, é dicir, conseguiuse que as voces dos nenos transcríbanse mellor, e os resultados do Whisper son mellores. Posteriormente, en ambos os casos, desenvolveuse a forma de realizar a transcrición de forma directa e case en tempo real. Ademais, incluíuse a forma de escribir números, datas, siglas e similares na súa forma natural escrita (“2025” e non “dous mil vinte e cinco”, “PNV” e non “e a xota”...).
O seguinte que se tivo que facer é implementar un sistema para poder realizar correccións. De feito, a pesar de facer un sistema de ditado automático moi bo, sempre vai cometer algúns erros e os nenos tamén van cometer erros cando están a ditar ao sistema. Con todo, tamén había que permitir corrixir devanditos erros mediante o uso da linguaxe verbal, sen facer uso do teclado. Neste sentido, hase implementado o camiño para a comprensión e realización dos comandos de corrección máis habituais: “Ir dúas palabras á esquerda”, “borrar o cinco caracteres da dereita”, “seleccionar a frase da esquerda”, “copiar”, “desfacer”...
En calquera caso, observouse que algunhas palabras mal transcritas, mesmo borradas e reintentadas, transcribíanse mal unha e outra vez (por exemplo, algúns nomes especiais, especialmente os estranxeiros), e a única forma de resolvelas foi dándolles a oportunidade de deletrearlas. Pero démonos conta de que estes sistemas automáticos confundíanse coa letreción de letras dunha soa sílaba (“e”, “be”, “de”, “ge”, “pe”, “che”...). A nós tamén nos sucede, e por iso cando se lles dá por teléfono a letra do documento de identidade dáselles o nome de “Bilboko be”, e por iso hai tempo que se inventaron o alfabeto radiofónico ou outro tipo de alfabeto letreético para as radiocomunicaciones militares. E no noso caso tamén a solución foi ofrecer un alfabeto de latreizado, dándolle todas as opcións posibles: cada letra pódese dicir de forma habitual (“a”, “be”, “ce”...), utilizando o alfabeto internacional de avións (“alfa”, “bravo”, “charlie”...), utilizando o alfabeto de latreinado proposto por Xabier Artola (“Araba”, “Baiona”........
Todo o sistema AskHezi ofrécese a través dunha interfaz web na que, tras pulsar o botón de inicio da gravación, o neno irá escribindo todo o que di nunha caixa; en calquera momento pódese pasar a facer correccións ou a deletrear e en calquera momento volver aos diques até completar o texto que queriamos escribir.
Despregamento: pendente
O sistema ditatorial desenvolvido ao longo do proxecto AskHezi é moi satisfactorio para todos os membros do consorcio, e pensamos que vai ser moi útil para os nenos con diversidade funcional, non só para nós, senón tamén para os pais dos nenos e nenas que o solicitaron e volven mostrar o seu desexo de que o usen canto antes.
Con todo, aí está o seguinte chanzo. As técnicas máis modernas da rede neuronal utilízanse no sistema de ditado AskHezi e, como sabemos, este tipo de sistemas teñen grandes esixencias de recursos. Non son fáciles de pór en marcha nos computadores normais, senón que se pon en marcha en servidores potentes, e canto máis usuarios simultáneos, máis poderosos son os servidores. E eses criados son moi caros.
Por tanto, o reto que temos agora é ver como podemos pagar os custos dos servidores e do seu mantemento, ou os servidores das entidades públicas que podemos utilizar. Estamos a ensinar AskHezi aos departamentos de educación das diferentes administracións e percibimos unha moi boa acollida e actitude. A ver si somos capaces de pór en marcha canto antes, mediante a colaboración, o sistema de ditado en eúscaro AskHezi e si é así o que necesitan todos os nenos e nenas de toda Euskal Herria e de calquera rede social.

Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia