Ber2Tek: un paso más en las tecnologías para el euskera
2015/05/27 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Las tecnologías lingüísticas y de habla son las que permiten a las máquinas comprender, traducir o crear un lenguaje natural. Las tecnologías lingüísticas se refieren a la capacidad de interactuar con los textos (corregir, comprender, traducir, gestionar…) y las tecnologías del habla a la capacidad de manejar el habla (comprender, crear…). Como es lógico, las tecnologías más avanzadas se encuentran en las lenguas con mayor difusión y, por tanto, con más recursos (inglés, castellano, chino…). Sin embargo, en el euskera y en otras lenguas minorizadas la situación no es tan buena. Sin embargo, los vascos no podemos quejarnos:teniendo en cuenta nuestra situación minorizada y el escaso número de hablantes, el euskera no funciona tan mal, al menos proporcionalmente.
Proyecto Ber2Tek
De hecho, muchos agentes de Euskal Herria llevamos tiempo investigando tecnologías lingüísticas y de habla para el euskera. Por ejemplo, llevamos muchos años colaborando en un proyecto estratégico la Fundación Elhuyar, los grupos de investigación IXA y Aholkularitza de la Universidad del País Vasco y los centros tecnológicos Vicomtech-IK4 y Tecnalia. Esta colaboración se materializó anteriormente en tres proyectos subvencionados por el Gobierno Vasco a través del programa Etortek: Programas Hizking XXI (2002-2004), AnHitz (2006-2008) y BerbaTek (2009-2011). El fruto final de esta colaboración es el proyecto Ber2Tek, desarrollado entre 2012 y 2014, coordinado por Elhuyar I+D.
A lo largo de estos años hemos trabajado mucho en la investigación de las citadas tecnologías, continuando con la mejora de algunas de las tecnologías ya desarrolladas y generando otras muchas nuevas. Se han creado o mejorado muchos recursos generales (corpus, ontologías, diccionarios…); se han trabajado técnicas de creación automática de dichos recursos; se han mejorado las herramientas de análisis del euskera (etiquetadores morfológicos, sintácticos y semánticos, correctores, entidades conocedoras...); se ha avanzado en la traducción automática; se han desarrollado tecnologías de gestión de contenidos; se han desarrollado tecnologías de enseñanza; se ha avanzado en la creación y conocimiento del habla…
Pero Ber2Tek y sus predecesores no sólo buscan la investigación: queremos dar a conocer estas tecnologías y convertir los resultados de la investigación en aplicaciones y ponerlos a disposición del público. Como colofón al proyecto, construimos una serie de demos o demostradores que muestren la contribución de estas tecnologías a un determinado campo. En este caso, hemos querido mostrar en qué pueden contribuir estas tecnologías al sector de la Industria de las Lenguas, es decir, al sector formado por las áreas de traducción, contenidos y enseñanza. Los demos están disponibles en http://www.ber2tek.eus/es/demoak .
Demos de aplicaciones prácticas
Como muestra de lo que se puede hacer en el sector de los contenidos, hemos montado una demo que nos muestra qué es la tecnología de extracción de opiniones o análisis de sentimientos. La extracción de opiniones consiste en extraer automáticamente, a partir de un texto, si tiene una opinión subjetiva y, si la tiene, cuál es su polaridad (positiva o negativa). Esta tecnología puede tener múltiples aplicaciones, por ejemplo, para que las empresas sepan fácilmente lo que se dice en la red sobre ellos o sus productos (en muchos lugares y en diferentes idiomas). En la demografía que hemos realizado hemos tomado la hemeroteca de Críticas de la web Armiarma.eus, que recoge más de 5.000 críticas literarias en euskera procedentes de diversos medios de comunicación y publicaciones, y a cada una de ellas se le ha asignado automáticamente una puntuación aplicando la tecnología de extracción de opiniones en euskera desarrollada en Ber2Tek. Haciendo una selección de autores, obras, años u otros parámetros en la web de la demo, se pueden visualizar las puntuaciones de forma gráfica, ver la propia crítica y analizar las palabras positivas y negativas. De hecho, en esas palabras se basa la tecnología para asignar puntuaciones.
Otra demo muestra lo que se puede hacer en el ámbito de la traducción a través de un buscador multimedia. Se han recibido varios vídeos tanto en castellano como en euskera y se han transcrito automáticamente con conocimiento de voz. Al obtener el texto de estos vídeos se pueden realizar búsquedas en ellos y, si se desea, saltar instantáneamente al instante en el que se indica la palabra que se busca. Las transcripciones de los vídeos se traducen automáticamente al castellano, al euskera o al inglés, en los que podemos mostrar subtítulos. Una vez traducidos, también generamos audio en esas otras lenguas, utilizando la tecnología de la síntesis del habla, mientras que en el caso de que se trate de ponencias de determinados ponentes, la voz del orador producida en la otra lengua se produce imitando la tecnología de la transformación de la voz.
Por último, hemos realizado la demo de un tutor personal de enseñanza de idiomas para este sector. Hace tres años, al final del proyecto BerbaTek, hicimos algo parecido, pero esta vez tiene más intenciones y posibilidades; por otra parte, era una aplicación de escritorio, y esta vez está online y puede ser probada por cualquier persona. El tutor del demo es un avatar 3D con el que nos comunicamos en euskera, oralmente. El tutor nos guía en ejercicios verbales, declinativos o de comprensión creados automáticamente; nos evalúa nuestra pronunciación; podemos preguntarle sobre la declinación de ciertos verbos y cómo se escribe un número determinado; le podemos decir que busque una palabra en el diccionario; nos mostrará resultados de varios diccionarios…
Estas demos que hemos montado, como su propio nombre indica, son sólo demos, pero sirven para tener una idea aproximada del estado actual de las tecnologías y de lo que pueden hacer, y esperamos que pronto lo veamos aplicado a herramientas reales, como ya se han creado anteriormente aplicaciones reales desde otras tecnologías.
Como veremos a través de estas demos, es cierto que las tecnologías lingüísticas y de voz para el euskera están bastante avanzadas. Sin embargo, todavía queda mucho camino por recorrer si queremos llegar a la situación de otras lenguas y si realmente queremos hacerlo en euskera con dispositivos electrónicos en todos los ámbitos de la vida cotidiana. Al menos las organizaciones que hemos llevado a cabo el proyecto Ber2Tek no hemos dado por finalizado nuestro trabajo al finalizar el proyecto y seguimos trabajando para llevarlo a cabo alguna vez.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia