Ber2Tek: un paso máis nas tecnoloxías paira o eúscaro

2015/05/27 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

Aos poucos, os computadores están a dominar as linguas do ser humano e, inconscientemente, comunicámonos cada vez máis con elas utilizando a linguaxe natural e as máquinas axúdannos cada vez máis cos problemas lingüísticos (traducir, corrixir…). Pero, tamén en eúscaro? Afortunadamente, grazas a proxectos de investigación como Ber2Tek, os dispositivos dixitais tamén o fan en eúscaro.
Una demo 3D avatar ensinaranos eúscaro. Ed. Elhuyar I+D

As tecnoloxías lingüísticas e de fala son as que permiten ás máquinas comprender, traducir ou crear unha linguaxe natural. As tecnoloxías lingüísticas refírense á capacidade de interactuar cos textos (corrixir, comprender, traducir, xestionar…) e as tecnoloxías da fala á capacidade de manexar a fala (comprender, crear…). Como é lóxico, as tecnoloxías máis avanzadas atópanse nas linguas con maior difusión e, por tanto, con máis recursos (inglés, castelán, chinés…). Con todo, no eúscaro e noutras linguas minorizadas a situación non é tan boa. Con todo, os vascos non podemos queixarnos:tendo en conta a nosa situación minorizada e o escaso número de falantes, o eúscaro non funciona tan mal, polo menos proporcionalmente.

Proxecto Ber2Tek

De feito, moitos axentes de Euskal Herria levamos tempo investigando tecnoloxías lingüísticas e de fala paira o eúscaro. Por exemplo, levamos moitos anos colaborando nun proxecto estratéxico a Fundación Elhuyar, os grupos de investigación IXA e Aholkularitza da Universidade do País Vasco e os centros tecnolóxicos Vicomtech-IK4 e Tecnalia. Esta colaboración materializouse anteriormente en tres proxectos subvencionados polo Goberno Vasco a través do programa Etortek: Programas Hizking XXI (2002-2004), AnHitz (2006-2008) e BerbaTek (2009-2011). O froito final desta colaboración é o proxecto Ber2Tek, desenvolvido entre 2012 e 2014, coordinado por Elhuyar I+D.

Ao longo destes anos traballamos moito na investigación das citadas tecnoloxías, continuando coa mellora dalgunhas das tecnoloxías xa desenvolvidas e xerando outras moitas novas. Creáronse ou mellorado moitos recursos xerais (corpus, ontologías, dicionarios…); traballáronse técnicas de creación automática de devanditos recursos; melloráronse as ferramentas de análises do eúscaro (etiquetadores morfológicos, sintácticos e semánticos, correctores, entidades coñecedoras...); avanzouse na tradución automática; desenvolvéronse tecnoloxías de xestión de contidos; desenvolvéronse tecnoloxías de ensino; avanzouse na creación e coñecemento da fala…

Pero Ber2Tek e os seus predecesores non só buscan a investigación: queremos dar a coñecer estas tecnoloxías e converter os resultados da investigación en aplicacións e polos a disposición do público. Como colofón ao proxecto, construímos una serie de demos ou demostradores que mostren a contribución destas tecnoloxías a un determinado campo. Neste caso, quixemos mostrar en que poden contribuír estas tecnoloxías ao sector da Industria das Linguas, é dicir, ao sector formado polas áreas de tradución, contidos e ensino. Os demos están dispoñibles en http://www.ber2tek.eus/é/demoak .

Demos de aplicacións prácticas

Grupo de traballo de proxectos de investigación Ber2Tek. Ed. Danel Solabarrieta/Elhuyar

Como mostra do que se pode facer no sector dos contidos, montamos una demo que nos mostra que é a tecnoloxía de extracción de opinións ou análises de sentimentos. A extracción de opinións consiste en extraer automaticamente, a partir dun texto, se ten una opinión subxectiva e, se a ten, cal é a súa polaridad (positiva ou negativa). Esta tecnoloxía pode ter múltiples aplicacións, por exemplo, para que as empresas saiban facilmente o que se di na rede sobre eles ou os seus produtos (en moitos lugares e en diferentes idiomas). Na demografía que realizamos tomamos a hemeroteca de Críticas da web Armiarma.eus, que recolle máis de 5.000 críticas literarias en eúscaro procedentes de diversos medios de comunicación e publicacións, e a cada una delas asignar automaticamente una puntuación aplicando a tecnoloxía de extracción de opinións en eúscaro desenvolvida en Ber2Tek. Facendo una selección de autores, obras, anos ou outros parámetros na web do demo, pódense visualizar as puntuacións de forma gráfica, ver a propia crítica e analizar as palabras positivas e negativas. De feito, nesas palabras baséase a tecnoloxía paira asignar puntuacións.

Outro demo mostra o que se pode facer no ámbito da tradución a través dun buscador multimedia. Recibíronse varios vídeos tanto en castelán como en eúscaro e hanse transcrito automaticamente con coñecemento de voz. Ao obter o texto destes vídeos pódense realizar procuras neles e, se se desexa, saltar instantaneamente ao instante no que se indica a palabra que se busca. As transcricións dos vídeos tradúcense automaticamente ao castelán, ao eúscaro ou ao inglés, nos que podemos mostrar subtítulos. Una vez traducidos, tamén xeramos audio nesoutras linguas, utilizando a tecnoloxía da síntese da fala, mentres que no caso de que se trate de relatorios de determinados relatores, a voz do orador producida na outra lingua prodúcese imitando a tecnoloxía da transformación da voz.

Por último, realizamos o demo dun titor persoal de ensino de idiomas paira este sector. Hai tres anos, ao final do proxecto BerbaTek, fixemos algo parecido, pero esta vez ten máis intencións e posibilidades; por outra banda, era una aplicación de escritorio, e esta vez está online e pode ser probada por calquera persoa. O titor do demo é un avatar 3D co que nos comunicamos en eúscaro, oralmente. O titor guíanos en exercicios verbais, declinativos ou de comprensión creados automaticamente; avalíanos a nosa pronuncia; podemos preguntarlle sobre a declinación de certos verbos e como se escribe un número determinado; podémoslle dicir que busque una palabra no dicionario; mostraranos resultados de varios dicionarios…

Estes demos que montamos, como o seu propio nome indica, son só demos, pero serven paira ter una idea aproximada do estado actual das tecnoloxías e do que poden facer, e esperamos que pronto o vexamos aplicado a ferramentas reais, como xa se crearon anteriormente aplicacións reais desde outras tecnoloxías.

Como veremos a través destes demos, é certo que as tecnoloxías lingüísticas e de voz paira o eúscaro están bastante avanzadas. Con todo, aínda queda moito camiño por percorrer si queremos chegar á situación doutras linguas e si realmente queremos facelo en eúscaro con dispositivos electrónicos en todos os ámbitos da vida cotiá. Polo menos as organizacións que levamos a cabo o proxecto Ber2Tek non demos por finalizado o noso traballo ao finalizar o proxecto e seguimos traballando paira levalo a cabo algunha vez.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia