…y trabajando las tecnologías lingüísticas 20!
2022/11/11 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
La Fundación Elhuyar cumple este año su 50 aniversario, pero además cumple 20 años desde que en Elhuyar iniciamos la investigación, desarrollo y comercialización de las tecnologías lingüísticas. 20 años, con la única intención y el único objetivo de desarrollar y poner a disposición de la sociedad las tecnologías lingüísticas y del habla, tan necesarias como cualquier otra lengua. Fruto de esta actividad son, entre otros, nuestros corpus, diccionarios, correctores, traductores automáticos (Elia.eus), transcriptores automáticos (Jakin.eus) o sintetizadores de habla que se han convertido en imprescindibles para muchos y muy conocidos.
El año 2002 supuso un hito importante para Elhuyar. El paso de la asociación cultural que dio ese mismo año que cumplió 30 años a la fundación. Pero, además, conscientes de su importancia futura y anticipándose al futuro, comenzó a trabajar en el ámbito de las tecnologías lingüísticas. Y parece que con uno no bastaba, y lo hizo en dos frentes.
Eleka y Elhuyar I+D
Por un lado, la creación de la empresa Eleka. El Grupo IXA de la UPV/EHU llevaba varios años realizando una investigación básica en tecnologías del perfil para el euskera, y ya había realizado el etiquetador (entonces Euslem, luego Eustagger ), el corrector ( Xuxen ) y el traductor automático ( Matxin ). Pero los trabajos que su puesta a disposición o comercialización requería (adaptaciones a diferentes plataformas, nuevas versiones, etc.) estaban fuera de las tareas habituales de un equipo de investigación universitario, por lo que no era deseable y se realizaba correctamente. Elhuyar mostró su disposición a ayudar a cubrir este vacío y así se creó conjuntamente la empresa Eleka. Desde entonces, no sólo estos primeros, sino que ha continuado comercializando muchas otras herramientas basadas en las tecnologías del lenguaje y del habla, hasta la actualidad. Y con el tiempo, la investigación propia de Elhuyar ha ido orientando cada vez más hacia la socialización, en estrecha y fructífera colaboración.
De hecho, dentro de Elhuyar se creó un nuevo departamento, Elhuyar I+D, cuyo objetivo era la investigación y desarrollo de las tecnologías lingüísticas que necesitaban otros departamentos de Elhuyar. En un principio orientó su actividad hacia la elaboración de herramientas especialmente para la elaboración de diccionarios, un departamento importante para Elhuyar: En 1996 vio claro el euskera -castellano/español-euskara Elhuyar Hiztegia era un referente, se pretendía extender la producción de diccionarios a más idiomas, hacer más diccionarios terminológicos… Así, Elhuyar I+D inició trabajos de recopilación de corpus textuales (por ejemplo, corpus ZT), desarrolló técnicas y herramientas para la recopilación automática de corpus de diferentes tipos (monolingües generales y especializados, bilingües paralelos y comparables…), desarrolló técnicas para la creación automática de ontologías, desarrolló herramientas para la construcción automática de diccionarios desde corpus… Además de estos, la serie pronto comenzó a investigar sobre los materiales de la búsqueda y desarrolló herramientas como el buscador multilingüe existente en la Ciencia. Como se puede observar, estas conocidas herramientas de otros departamentos de Elhuyar eran un excelente escaparate y reflejo de lo que hacía Elhuyar I+D. Pero la actividad no se limitó a ello y se ha diversificado mucho en los últimos 20 años.
Como en todos los grupos de investigación, la investigación se ha realizado siguiendo las tendencias internacionales en Elhuyar I+D, basándose en las últimas investigaciones académicas y aportando al campo. Así, ha publicado más de 100 artículos científicos en congresos o revistas especializadas y se han realizado 7 tesis doctorales en el Departamento. Elhuyar I+D ha mantenido una estrecha y continua colaboración con el Grupo IXA. Y durante más de 15 años ha colaborado con el Grupo IXA Taldea, el Grupo de Investigación Aholab de la UPV/EHU y los grupos de investigación Tecnalia y Vicomtech en varios proyectos de colaboración en investigación estratégica, en muchos casos como líderes.
Momento actual de las redes neuronales profundas
A lo largo de los 20 años se ha producido una gran evolución en las técnicas utilizadas en las tecnologías del perfil. Cuando empezamos a esto, dominaban las técnicas que se llamaban de reglas. En estos casos, el conocimiento de la lengua (palabras, normas de declinación…) se situaba en lenguajes y estructuras comprensibles para los ordenadores. Con estos métodos, algunas cosas se hacían muy bien (el mencionado etiquetado, la corrección ortográfica, la búsqueda, etc.), pero no tan bien como la traducción automática o el conocimiento del habla. Posteriormente aparecieron métodos de aprendizaje automático o estadísticos que aprendían de los ejemplos, pero tampoco con ellos se obtenían los resultados suficientes en algunas tareas, al menos en euskera.
Hace cinco o seis años aparecieron en escena los métodos conocidos como redes neuronales profundas (Deep Neural Networks) o estudios profundos (Deep Learning). De hecho, son un caso particular del aprendizaje automático, y además las redes neuronales existían desde hace tiempo, pero al no dar buenos resultados estaban descartadas. El avance de la tecnología permitió el uso de redes neuronales más grandes y complejas (de ahí la denominación de “profundas”), la GPU o las tarjetas gráficas aceleraron mucho sus tiempos de conducción o entrenamiento, y el gran avance de la digitalización e Internet proporcionó muchos más datos para su entrenamiento y, en suma, muchas tareas complejas, como la traducción automática o la transcripción automática, cuyo resultado fue mucho más reciente que hasta entonces. Y después de las pruebas vimos que conseguíamos lo mismo con el euskera. Casi de un día para otro, en muchos trabajos los resultados son aceptables. ¡Por fin!
Desde entonces hemos desarrollado con éxito diversas tecnologías para el euskera, que estamos poniendo a disposición de la sociedad: El traductor automático Elia.eus, el transcriptor automático Jakin.eus, la síntesis hablada personalizada, los modelos neuronales de lenguajes tipo BERT, los chats bots, el altavoz inteligente en euskera Mycroft.eus… todos ellos han tenido una influencia notable en la sociedad vasca y en la situación digital del euskera, y probablemente más intensa en el futuro.
El futuro es Orai
Con la explosión provocada por las redes neuronales profundas, la actividad de Elhuyar en las tecnologías del lenguaje y del habla y el equipo de trabajo, que agrupan a personas dedicadas a la investigación y al desarrollo de herramientas y servicios, ha experimentado un importante crecimiento.
Y este año, 2022, tan significativo para Elhuyar, hemos dado otro salto significativo: El departamento de I+D de Elhuyar cuenta ahora con nuevos nombres y marcas, las tecnologías Orai NLP. Pero es más que un simple cambio de nombre, también ha cambiado el ser. Sin abandonar la labor de creación de los recursos y herramientas lingüísticas necesarias para el euskera, se pretende incrementar el esfuerzo en la aplicación del potencial de la inteligencia artificial y las tecnologías del perfil a las empresas vascas, mediante la realización de una investigación a medida y contribuyendo a que éstas sean más competitivas y superen las barreras lingüísticas. Además, se pretende profundizar más en el camino ya emprendido para ser un vehículo demostrativo y de acompañamiento para las otras lenguas minoritarias, y, como hemos desarrollado traductores automáticos y sintetizadores de habla para los miembros occitanos y aragoneses, se quiere seguir elaborando más herramientas para ellos o para otras lenguas minorizadas. Tal y como recoge el lema del aniversario de Elhuyar, 50 años más tarde en Orai miramos para que la sociedad vasca, el euskera y otras lenguas pequeñas tengan un futuro luminoso.
Elhuyar siempre ha sabido, atento a la evolución de la sociedad, ganar nuevos espacios para el euskera y responder a las nuevas necesidades del euskera. Hace 20 años demostró un fuerte instinto de futuro a la hora de dar un paso firme y decidido a favor de las tecnologías del lenguaje y, por fe o por generosidad, ha mantenido su apuesta a lo largo de estos años (a pesar de ser años una travesía de verdadero desierto: crisis, promesas de buenos resultados que no se cumplían en la traducción automática y otras tareas…). Estamos recibiendo los frutos, y nosotros mismos estamos de enhorabuena, porque en Elhuyar estamos haciendo muchas cosas interesantes y sorprendentes, pero también el euskera, que está adquiriendo herramientas para no quedarme atrás en el mundo digital actual y futuro, y si me permiten el atrevimiento, y esto que escribe esas líneas, porque desde casi un principio he tenido el privilegio y el honor de trabajar en el grupo de I+D de las tecnologías lingüísticas de Elhuyar. ¡Por lo tanto, felicidades y gracias, Elhuyar! ¡Y enhorabuena también a Ori y al grupo de las tecnologías del perfil, y por muchos años!
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia