AskHezi, Tecnologías del habla al servicio del euskera, la educación de la infancia y la inclusión

2025/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzailea Iturria: Elhuyar aldizkaria

La inteligencia artificial y las tecnologías del lenguaje y el habla pueden tener usos polémicos, pero tienen aplicaciones realmente útiles que no generan ninguna duda, como las destinadas a las lenguas minorizadas y a la accesibilidad. El proyecto AskHezi combina estas y otras muchas cosas: se ha desarrollado un sistema para que los niños con problemas motores en el uso de los teclados puedan escribir en euskera a través de la dictadura. En el proyecto han colaborado varias redes de centros educativos de todo el País Vasco y el desarrollo se ha llevado a cabo en el centro Tecnologías Orai NLP.

Ed. Orai Tecnologías NLP

Está claro que las tecnologías lingüísticas y de habla pueden contribuir mucho a la accesibilidad y aportar mucho en la inclusión de los grupos con diversidad funcional. Estas tecnologías también pueden ayudar al euskera, siempre y cuando se desarrollen también para nuestra lengua. Las tecnologías Orai NLP creadas por Elhuyar están en el corazón del centro, el euskera y la accesibilidad, y en este apartado de la revista ya hemos mencionado anteriormente los trabajos que hemos realizado en torno a estas temáticas: personas con dificultades de lectura de textos, TTS (Text-To-Speech) o la tecnología de síntesis de habla, herramientas que les permiten escuchar en lugar de leer contenido web.

AskHezi, un proyecto para dar respuesta a una necesidad

El servicio de expertos, además de crear subtítulos para un vídeo o audio, también transcribe directamente lo que se le dice desde el micrófono, es decir, sirve para escribir de forma dictada, hablando, y está muy bien en euskera. En este sentido, desde algunos centros escolares, procedentes de distintos territorios de Euskal Herria, y, por casualidad, en muy poco tiempo, llegaron al Centro Orai diversas peticiones, para que los niños y niñas con problemas de movilidad en sus manos pudieran acceder a la redacción de textos y trabajos escolares. Por supuesto, estuvimos muy contentas con estas peticiones, ¿para qué hacemos si la tecnología no es para ayudar al euskera, a los niños y a la inclusión? Pero cuando hicimos las pruebas con los niños, todos recibimos una bofetada: La dictadura de Aditu no funciona tan bien con las voces de los niños. De hecho, estas tecnologías están basadas en redes neuronales que se desarrollan entrenando con datos, en este caso con audio transcrito; y las colecciones de audio transcrito que se utilizan para el entrenamiento son grabaciones de adultos, y las voces infantiles no son como las de los adultos...

Pero también estaba claro cuál podía ser la solución: entrenar el sistema de transcripción automática con las grabaciones de los niños. Además, los colegios estaban dispuestos a ayudar a conseguir esas grabaciones infantiles.

Así, en 2022 se constituyó un consorcio con una red de centros de los tres ámbitos administrativos del País Vasco: De la CAV, la Federación de Ikastolas; de Iparralde, el Comité de Integración de SEASKA; y de Navarra, la Asociación sortzen de centros de la red pública escolar. La elaboración y coordinación del trabajo técnico correría a cargo de Orai, y la gestión y las labores administrativas de la asociación de industrias de la lengua Langune. Y el objetivo, como se ha dicho, es desarrollar un sistema dictatorial que permita que los niños y niñas puedan escribir en euskera.

El proyecto recibió durante dos años el apoyo de la convocatoria de Ciudadanía de la Eurorregión y un año más de la convocatoria de Inteligencia Artificial Aplicada de SPRI. A principios de este año 2025 hemos dado por finalizado el desarrollo del sistema y lo presentamos públicamente el 20 de marzo.

Grabaciones: una colaboración increíble

El proyecto AskHezi, en poco más de dos años, ha tenido varias fases. El más largo (casi igual que el proyecto) y que ha requerido una gran participación de todos los miembros ha sido el de las grabaciones. En ella, Orai desarrolló en primer lugar una plataforma web para poder hacer grabaciones. Esta plataforma permitía que un niño se quedara grabado al leer una frase y enviarla a la colección de grabaciones.

A continuación, cada miembro del consorcio hizo su difusión en los centros de su red y se logró la participación de medio centenar de centros. En cada uno de ellos, varios niños, familias y profesores se mostraron dispuestos a colaborar. Los padres y madres tuvieron que firmar documentos de consentimiento, obligado por la ley de protección de datos y privacidad. Y con la ayuda de profesores o padres, a veces en los colegios y otras en casa, unos 480 niños y niñas grabaron alrededor de 150 frases cada uno. En total se realizaron más de 70.000 grabaciones y se consiguieron unas 100 horas de audio que sirvieron para el entrenamiento. En esta fase todos los miembros del proyecto han realizado un esfuerzo enorme, y los resultados obtenidos han sido muy similares.

Desarrollo: sistemas de dictado y corrección

Sin esperar al final del proceso de grabación, y con él -una vez alcanzado un número mínimo de grabaciones–, iniciamos el desarrollo en el centro Orai. La primera fase consistió en el entrenamiento de modelos de transcripción automática adaptados a las voces de los niños. Se han probado diferentes modelos, como el modelo modular más clásico Kaldi y el modelo integral Whisper end-to-end. En ambas se han obtenido mejoras, es decir, se ha conseguido que las voces de los niños se transcriban mejor, y los resultados del Whisper son mejores. Posteriormente, en ambos casos, se ha desarrollado la forma de realizar la transcripción de forma directa y casi en tiempo real. Además, se ha incluido la forma de escribir números, fechas, siglas y similares en su forma natural escrita (“2025” y no “dos mil veinticinco”, “PNV” y no “e a jota”...).

Lo siguiente que se ha tenido que hacer es implementar un sistema para poder realizar correcciones. De hecho, a pesar de haber hecho un sistema de dictado automático muy bueno, siempre va a cometer algunos errores y los niños también van a cometer errores cuando están dictando al sistema. Sin embargo, también había que permitir corregir dichos errores mediante el uso del lenguaje verbal, sin hacer uso del teclado. En este sentido, se ha implementado el camino para la comprensión y realización de los comandos de corrección más habituales: “Ir dos palabras a la izquierda”, “borrar los cinco caracteres de la derecha”, “seleccionar la frase de la izquierda”, “copiar”, “deshacer”...

Acto de presentación de la plataforma dictatorial AskHezi. Ed. Orai Tecnologías NLP

En cualquier caso, se observó que algunas palabras mal transcritas, incluso borradas y reintentadas, se transcribían mal una y otra vez (por ejemplo, algunos nombres especiales, especialmente los extranjeros), y la única forma de resolverlas ha sido dándoles la oportunidad de deletrearlas. Pero nos dimos cuenta de que estos sistemas automáticos se confundían con la letreción de letras de una sola sílaba (“e”, “be”, “de”, “ge”, “pe”, “te”...). A nosotros también nos sucede, y por eso cuando se les da por teléfono la letra del documento de identidad se les da el nombre de “Bilboko be”, y por eso hace tiempo que se inventaron el alfabeto radiofónico u otro tipo de alfabeto letreético para las radiocomunicaciones militares. Y en nuestro caso también la solución ha sido ofrecer un alfabeto de latreizado, dándole todas las opciones posibles: cada letra se puede decir de forma habitual (“a”, “be”, “ce”...), utilizando el alfabeto internacional de aviones (“alfa”, “bravo”, “charlie”...), utilizando el alfabeto de latreinado propuesto por Xabier Artola (“Araba”, “Baiona”........

Todo el sistema AskHezi se ofrece a través de una interfaz web en la que, tras pulsar el botón de inicio de la grabación, el niño irá escribiendo todo lo que dice en una caja; en cualquier momento se puede pasar a hacer correcciones o a deletrear y en cualquier momento volver a los diques hasta completar el texto que queríamos escribir.

Despliegue: pendiente

El sistema dictatorial desarrollado a lo largo del proyecto AskHezi es muy satisfactorio para todos los miembros del consorcio, y pensamos que va a ser muy útil para los niños con diversidad funcional, no solo para nosotros, sino también para los padres de los niños y niñas que lo solicitaron y vuelven a mostrar su deseo de que lo usen cuanto antes.

Sin embargo, ahí está el siguiente escalón. Las técnicas más modernas de la red neuronal se utilizan en el sistema de dictado AskHezi y, como sabemos, este tipo de sistemas tienen grandes exigencias de recursos. No son fáciles de poner en marcha en los ordenadores normales, sino que se ponen en marcha en servidores potentes, y cuanto más usuarios simultáneos, más poderosos son los servidores. Y esos criados son muy caros.

Por lo tanto, el reto que tenemos ahora es ver cómo podemos pagar los costes de los servidores y de su mantenimiento, o los servidores de las entidades públicas que podemos utilizar. Estamos enseñando AskHezi a los departamentos de educación de las diferentes administraciones y percibimos una muy buena acogida y actitud. A ver si somos capaces de poner en marcha cuanto antes, mediante la colaboración, el sistema de dictado en euskera AskHezi y si es así lo que necesitan todos los niños y niñas de toda Euskal Herria y de cualquier red social.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia