Auzolan dixital a favor do eúscaro

2019/09/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Nas nosas vidas cada vez están máis integradas ferramentas e servizos que utilizan tecnoloxías lingüísticas e de fala: asistentes virtuais, altofalantes intelixentes, tradutores automáticos... O desenvolvemento destas tecnoloxías require de recursos, pero non só económicos; en particular, os recursos lingüísticos paira adestrar os sistemas son absolutamente necesarios: gravacións de audio, exemplos de entrevistas, traducións... Son máis escasos en eúscaro que noutras linguas máis estendidas, polo que, como demostran algunhas iniciativas recentes, ultimamente estase recorrendo ao crowdsourcing paira crear estes recursos. Detrás deste grandioso anglicismo, á fin e ao cabo, só hai un auzolan tan arraigado entre nós, neste caso o auzolan dixital.
Ed. Common Voice

Quen non utilizou nunca un asistente virtual ou axente de diálogo? Siri, Google Assistant, Cortana e demais veñen instalados por defecto nos nosos teléfonos móbiles e computadores, e aínda que eu, por exemplo, non utilicei máis que paira facer a proba, é moi habitual que as xeracións novas utilícenos. Os sistemas de diálogo por texto, tamén coñecidos como chatbots, son cada vez máis habituais en sitios web, apps e programas de mensaxería como Whatsapp. A tradución automática converteuse case nun recurso cotián paira comprender un texto que se atopa nun idioma que non dominamos ou, polo menos, cando necesitamos crear un texto noutro idioma paira ter una primeira versión paira corrixilo. Hai moitos servizos e webs paira iso, e os tradutores automáticos veñen integrados en apps e webs. Os audios e vídeos tamén se transcriben ou subtitulan automaticamente.

Que características comúns teñen todos estes exemplos? Polo menos dúas cousas: una, todas elas baseadas en tecnoloxías lingüísticas e de fala; a outra, que non existe en euskara ou que, en xeral, funcionan peor que noutras linguas.

Una das causas desta última é, loxicamente, a económica. Moitos máis recursos humanos e económicos asígnanse á investigación e desenvolvemento deste tipo de tecnoloxías en linguas de gran tamaño, debido ao tamaño, poder e difusión das grandes linguas, e moito menos ao desenvolvemento en eúscaro. Pero hai outra razón: hai una gran diferenza na dispoñibilidade de gravacións, traducións, exemplos de diálogo, etc. As linguas hexemónicas teñen moitos máis recursos dispoñibles que o eúscaro.

De feito, na actualidade, os métodos máis utilizados paira o desenvolvemento das tecnoloxías lingüísticas e da fala e que ofrecen mellores resultados baséanse en exemplos. En particular, a tecnoloxía utilizada actualmente nestas tecnoloxías é a de redes neuronais profundas (deep neural networks), coas que se demostrou que a mellor calidade conséguese. E estes sistemas necesitan moitos exemplos paira poder aprender e funcionar dalgunha maneira deles. Un sistema de tradución automática a través de redes neuronais require moitos exemplos de tradución paira adestrar e desenvolverse correctamente; un sistema de diálogo, moitos exemplos de conversacións e un sistema de transcrición, moitos exemplos de audios transcritos. Por iso son tan necesarios os recursos lingüísticos mencionados, e por iso os sistemas das linguas con menos recursos deste tipo funcionan peor.

Os vascos, pola súa temática, queremos ser tamén na nosa lingua os instrumentos e servizos doutras linguas, e paira iso é necesario crear recursos lingüísticos, polo que recentemente puxéronse en marcha diversas iniciativas paira a súa creación a través do crowdsourcing. O crowdsourcing significa aproveitar a colaboración de moitas persoas paira conseguir algo, especialmente co desenvolvemento de Internet, que facilita a comunicación e coordinación de grupos de persoas. Pero detrás deste nome, á fin e ao cabo, non hai máis que un auzolan que vimos utilizando desde hai tempo, neste caso o auzolan dixital (termo utilizado pola asociación Librezale paira designar a iniciativa Common Voice que exporemos a continuación).

Iniciativa Common Voice en eúscaro

Common Voice é un dos últimos proxectos paira crear recursos paira o eúscaro. De feito, non é una iniciativa creada no propio País Vasco, senón una iniciativa posta en marcha pola Fundación Mozilla. A Fundación Mozilla, entidade que se atopa detrás do navegador libre Firefox, ten como obxectivo lograr una web aberta e libre que facilite o acceso ao público en xeral, incluíndo o propio navegador Firefox e outros dispositivos e ferramentas. Paira iso, pretende crear tecnoloxía libre de coñecemento da fala paira o maior número de linguas posibles. A través do proxecto Common Voice, a xente doa gravacións de voz paira poder desenvolver sistemas de recoñecemento da fala. Estas gravacións son libres, polo que non só Mozilla, senón calquera outra persoa pode aproveitalas paira desenvolver tecnoloxía de recoñecemento de fala. Numerosas persoas de todo o mundo están a realizar gravacións en varios idiomas no proxecto Common Voice: Graváronse unhas 2.000 horas en 28 idiomas e outros idiomas están en vías.

Librezale ten como obxectivo impulsar o eúscaro no mundo do TIC e prioriza o software libre. En febreiro lanzou a iniciativa de realizar gravacións en eúscaro dentro do proxecto Common Voice. Librezal realizou os seus primeiros traballos (tradución da web, recompilación de frases paira gravar...) e, una vez posta en marcha, traballou na promoción da iniciativa, na organización de maratóns, etc. coa colaboración de diferentes axentes: Os grupos Argia, iAmetza, IXA e Aholkularitza da UPV, Garabide, Elhuyar Fundazioa... Realizouse una gran labor que está a dar os seus froitos: catro meses despois da posta en marcha do proxecto, grazas a 508 usuarios, graváronse 83 horas, das cales 45 estaban validadas. Non está nada mal, tendo en conta que na mesma época e antes, en castelán, por exemplo, había 32 horas realizadas; en italiano, 35 horas; en holandés, 21 horas... Estamos lonxe das 1.200 horas que se queren conseguir, pero sen dúbida vai por bo camiño. Si queres colaborar coa iniciativa entra en https://voice.mozilla.org/eu e grava frases ou valida as que hai.

Recollida de entrevistas do Grupo IXA

Tamén no grupo IXA da Universidade do País Vasco han tomado o camiño do auzolan dixital paira desenvolver un chatbot ou sistema de diálogo paira o eúscaro. En concreto, preténdese desenvolver un chatbot que responda as solicitudes de información do usuario buscando información en Internet, mantendo a conversación da forma máis natural posible. A iniciativa desenvolverase dentro dun proxecto de investigación: Dirixido polos profesores Eneko Agirre e Aitor Soroa, conta coa participación dos investigadores Jon Ander Campos e Arantxa Otegi, así como do alumno de máster Aitor Agirre. Ademais, recibiu un dos premios de investigación que outorga anualmente Google (Google Faculty Research Awards). O proxecto está baseado en entrevistas en inglés, pero utilizarase paira o seu desenvolvemento noutras linguas.

Como se dixo, o desenvolvemento dun sistema destas características require de moitos exemplos de conversacións reais que quixeron complementarse coa achega dos vascos voluntarios. Paira iso prepararon una páxina web na que os usuarios foron colocados de dous en dous, un preguntaba sobre un artigo de Wikipedia e o outro lle daba respostas en sesións de ao redor de 10 minutos. Un exemplo dunha conversación deste tipo, baseada no artigo da Korrika de Wikipedia, sería:

Ed. AAC

- Que é Korrika?

- Korrika é una marcha que se corre por Euskal Herria a favor do eúscaro.

- Que lonxitude ten?

- O percorrido cambia pero sempre rolda os 2.300 quilómetros.

- Canto tempo?

- Unhas dúas semanas.

- Sen parar?

- Si, a marcha nunca se detén, nin pola noite, nin polas malas condicións climatolóxicas.

A recompilación de exemplos levou a cabo en xuño, coa intención de recibir 400 entrevistas e 356 entrevistas. Non é pouco! Preténdese liberar as entrevistas recibidas para que calquera persoa poida utilizalas en calquera outro proxecto.

Está claro que este tipo de iniciativas son moi interesantes e necesarias paira o futuro. Se os vascos acertamos a levar a bo porto o auzolan tan propio no mundo dixital, seguro que conseguiremos que as máquinas falen en eúscaro.