Auzolan digital a favor del euskera

2019/09/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

En nuestras vidas cada vez están más integradas herramientas y servicios que utilizan tecnologías lingüísticas y de habla: asistentes virtuales, altavoces inteligentes, traductores automáticos... El desarrollo de estas tecnologías requiere de recursos, pero no sólo económicos; en particular, los recursos lingüísticos para entrenar los sistemas son absolutamente necesarios: grabaciones de audio, ejemplos de entrevistas, traducciones... Son más escasos en euskera que en otras lenguas más extendidas, por lo que, como demuestran algunas iniciativas recientes, últimamente se está recurriendo al crowdsourcing para crear estos recursos. Detrás de este grandioso anglicismo, al fin y al cabo, sólo hay un auzolan tan arraigado entre nosotros, en este caso el auzolan digital.
Ed. Common Voice

¿Quién no ha utilizado nunca un asistente virtual o agente de diálogo? Siri, Google Assistant, Cortana y demás vienen instalados por defecto en nuestros teléfonos móviles y ordenadores, y aunque yo, por ejemplo, no he utilizado más que para hacer la prueba, es muy habitual que las generaciones jóvenes los utilicen. Los sistemas de diálogo por texto, también conocidos como chatbots, son cada vez más habituales en sitios web, apps y programas de mensajería como Whatsapp. La traducción automática se ha convertido casi en un recurso cotidiano para comprender un texto que se encuentra en un idioma que no dominamos o, al menos, cuando necesitamos crear un texto en otro idioma para tener una primera versión para corregirlo. Hay muchos servicios y webs para ello, y los traductores automáticos vienen integrados en apps y webs. Los audios y vídeos también se transcriben o subtitulan automáticamente.

¿Qué características comunes tienen todos estos ejemplos? Al menos dos cosas: una, todas ellas basadas en tecnologías lingüísticas y de habla; la otra, que no existe en euskara o que, en general, funcionan peor que en otras lenguas.

Una de las causas de esta última es, lógicamente, la económica. Muchos más recursos humanos y económicos se asignan a la investigación y desarrollo de este tipo de tecnologías en lenguas de gran tamaño, debido al tamaño, poder y difusión de las grandes lenguas, y mucho menos al desarrollo en euskera. Pero hay otra razón: hay una gran diferencia en la disponibilidad de grabaciones, traducciones, ejemplos de diálogo, etc. Las lenguas hegemónicas tienen muchos más recursos disponibles que el euskera.

De hecho, en la actualidad, los métodos más utilizados para el desarrollo de las tecnologías lingüísticas y del habla y que ofrecen mejores resultados se basan en ejemplos. En particular, la tecnología utilizada actualmente en estas tecnologías es la de redes neuronales profundas (deep neural networks), con las que se ha demostrado que la mejor calidad se consigue. Y estos sistemas necesitan muchos ejemplos para poder aprender y funcionar de alguna manera de ellos. Un sistema de traducción automática a través de redes neuronales requiere muchos ejemplos de traducción para entrenar y desenvolverse correctamente; un sistema de diálogo, muchos ejemplos de conversaciones y un sistema de transcripción, muchos ejemplos de audios transcritos. Por eso son tan necesarios los recursos lingüísticos mencionados, y por eso los sistemas de las lenguas con menos recursos de este tipo funcionan peor.

Los vascos, por su temática, queremos ser también en nuestra lengua los instrumentos y servicios de otras lenguas, y para ello es necesario crear recursos lingüísticos, por lo que recientemente se han puesto en marcha diversas iniciativas para su creación a través del crowdsourcing. El crowdsourcing significa aprovechar la colaboración de muchas personas para conseguir algo, especialmente con el desarrollo de Internet, que facilita la comunicación y coordinación de grupos de personas. Pero detrás de este nombre, al fin y al cabo, no hay más que un auzolan que venimos utilizando desde hace tiempo, en este caso el auzolan digital (término utilizado por la asociación Librezale para designar la iniciativa Common Voice que expondremos a continuación).

Iniciativa Common Voice en euskera

Common Voice es uno de los últimos proyectos para crear recursos para el euskera. De hecho, no es una iniciativa creada en el propio País Vasco, sino una iniciativa puesta en marcha por la Fundación Mozilla. La Fundación Mozilla, entidad que se encuentra detrás del navegador libre Firefox, tiene como objetivo lograr una web abierta y libre que facilite el acceso al público en general, incluyendo el propio navegador Firefox y otros dispositivos y herramientas. Para ello, pretende crear tecnología libre de conocimiento del habla para el mayor número de lenguas posibles. A través del proyecto Common Voice, la gente dona grabaciones de voz para poder desarrollar sistemas de reconocimiento del habla. Estas grabaciones son libres, por lo que no sólo Mozilla, sino cualquier otra persona puede aprovecharlas para desarrollar tecnología de reconocimiento de habla. Numerosas personas de todo el mundo están realizando grabaciones en varios idiomas en el proyecto Common Voice: Se han grabado unas 2.000 horas en 28 idiomas y otros idiomas están en vías.

Librezale tiene como objetivo impulsar el euskera en el mundo de las TIC y prioriza el software libre. En febrero lanzó la iniciativa de realizar grabaciones en euskera dentro del proyecto Common Voice. Librezal realizó sus primeros trabajos (traducción de la web, recopilación de frases para grabar...) y, una vez puesta en marcha, ha trabajado en la promoción de la iniciativa, en la organización de maratones, etc. con la colaboración de diferentes agentes: Los grupos Argia, iAmetza, IXA y Aholkularitza de la UPV, Garabide, Elhuyar Fundazioa... Se ha realizado una gran labor que está dando sus frutos: cuatro meses después de la puesta en marcha del proyecto, gracias a 508 usuarios, se habían grabado 83 horas, de las cuales 45 estaban validadas. No está nada mal, teniendo en cuenta que en la misma época y antes, en castellano, por ejemplo, había 32 horas realizadas; en italiano, 35 horas; en holandés, 21 horas... Estamos lejos de las 1.200 horas que se quieren conseguir, pero sin duda va por buen camino. Si quieres colaborar con la iniciativa entra en https://voice.mozilla.org/eu y graba frases o valida las que hay.

Recogida de entrevistas del Grupo IXA

También en el grupo IXA de la Universidad del País Vasco han tomado el camino del auzolan digital para desarrollar un chatbot o sistema de diálogo para el euskera. En concreto, se pretende desarrollar un chatbot que responda a las solicitudes de información del usuario buscando información en Internet, manteniendo la conversación de la forma más natural posible. La iniciativa se desarrollará dentro de un proyecto de investigación: Dirigido por los profesores Eneko Agirre y Aitor Soroa, cuenta con la participación de los investigadores Jon Ander Campos y Arantxa Otegi, así como del alumno de máster Aitor Agirre. Además, ha recibido uno de los premios de investigación que otorga anualmente Google (Google Faculty Research Awards). El proyecto está basado en entrevistas en inglés, pero se utilizará para su desarrollo en otras lenguas.

Como se ha dicho, el desarrollo de un sistema de estas características requiere de muchos ejemplos de conversaciones reales que han querido complementarse con la aportación de los vascos voluntarios. Para ello prepararon una página web en la que los usuarios fueron colocados de dos en dos, uno preguntaba sobre un artículo de Wikipedia y el otro le daba respuestas en sesiones de alrededor de 10 minutos. Un ejemplo de una conversación de este tipo, basada en el artículo de la Korrika de Wikipedia, sería:

Ed. AAC

- ¿Qué es Korrika?

- Korrika es una marcha que se corre por Euskal Herria a favor del euskera.

- ¿Qué longitud tiene?

- El recorrido cambia pero siempre ronda los 2.300 kilómetros.

- ¿Cuánto tiempo?

- Unas dos semanas.

- ¿Sin parar?

- Sí, la marcha nunca se detiene, ni por la noche, ni por las malas condiciones climatológicas.

La recopilación de ejemplos se llevó a cabo en junio, con la intención de recibir 400 entrevistas y 356 entrevistas. ¡No es poco! Se pretende liberar las entrevistas recibidas para que cualquier persona pueda utilizarlas en cualquier otro proyecto.

Está claro que este tipo de iniciativas son muy interesantes y necesarias para el futuro. Si los vascos acertamos a llevar a buen puerto el auzolan tan propio en el mundo digital, seguro que conseguiremos que las máquinas hablen en euskera.