}

BerbaTek: tecnologies lingüístiques en basc en marxa

2012/02/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria

En els últims tres anys, diverses institucions del País Basc hem estat investigant i desenvolupant tecnologies lingüístiques per al basc en el projecte BerbaTek. I sent un dels objectius del projecte el d'orientar la recerca cap a l'ús pràctic, hem creat tres donem: un cercador semàntic multimèdia de ciència i tecnologia, una demo per al doblatge automàtic de documentals i un tutor personal per a l'ensenyament d'idiomes.
Demo per a l'ensenyament de les llengües creades en el projecte BerbaTek. Ed. Danel Solabarrieta

Si en els últims tres anys has fet el seguiment d'aquest apartat "Món digital", estaràs convençut que les tecnologies lingüístiques seran cada vegada més importants en el món dels dispositius mòbils i sempre connectats. Us hem parlat de tecnologies com la web semàntica i les tecnologies semàntiques, la traducció automàtica i els corpus, els sistemes de resposta a preguntes, els agents de diàleg, els cercadors intel·ligents... que tenen una presència significativa i creixent en aquest nou món. Aquestes tecnologies encara tenen camí per recórrer, però en alguns casos estan tan avançades com perquè siguin útils i molts dispositius i serveis estan integrats, com us hem comptat aquí.

No obstant això, en general, són només per a les llengües més esteses (sovint només en anglès); les grans companyies no estan interessades a introduir el basc en elles. I encara que ho tinguessin, no estan disposats a assumir el cost d'adaptar aquestes tecnologies al basc. Aquesta adaptació al basc no és una tasca merament laboral; a vegades és necessari realitzar una recerca bàsica, desenvolupar recursos bàsics...

Així hem estat treballant la Fundació Elhuyar, els grups de recerca IXA i Aholkularitza de la UPV, i el centre tecnològic Vicomtech-IK4 i Tecnalia, dins del projecte BerbaTek, entre 2009 i 2011, en la recerca de tecnologies lingüístiques, de veu i multimèdia per al basc (principalment). Els departaments d'Indústria i Cultura del Govern Basc han finançat part del pressupost del projecte BerbaTek a través del programa Etortek.

No és la primera vegada que aquestes 5 organitzacions col·laborem en la recerca de tecnologies lingüístiques. Anteriorment vam estar treballant en el projecte Hizking XXI en el període 2002-2004 i en el projecte AnHitz en el període 2006-2008. Al final d'aquest últim, construïm una demo d'expert virtual en ciència, també anomenat AnHitz, un avatar 3D amb interacció oral capaç de respondre a preguntes científiques i realitzar cerques multilingües.

En el projecte BerbaTek hem realitzat una gran recerca bàsica: hem desenvolupat o millorat molts recursos i eines bàsiques (corpus de text o veu, lèxics, diccionaris, ontologies, gramàtiques computacionals, analitzadors morfosintàctics, reconeixement de veu, síntesi de veu, sistemes de diàleg...), i hem treballat en diferents tecnologies (traducció automàtica, cerca d'informació, extracció d'informació, sistemes d'ajuda a l'escriptura, sistemes de resposta, arning, sistemes de resposta i resposta.......... Les tecnologies desenvolupades en el mateix s'han utilitzat en diferents projectes i serveis.

Al servei de la indústria de les llengües

Ed. -

Encara que el projecte BerbaTek és un projecte de recerca, l'ús pràctic d'aquesta recerca ha estat des del principi un dels principals objectius per a nosaltres. I hem volgut donar aquesta practicitat en l'àmbit de la indústria de les llengües.

S'entén per indústria lingüística la composta per tres subsectors: traducció (traduccions, localitzacions, interpretació, doblatge...), continguts (editorials, mitjans de comunicació...) i ensenyament (ensenyament d'idiomes, ensenyament reglat...). Al País Basc, recentment s'han iniciat els primers passos per a estructurar el sector de la indústria de les llengües: En 2010 es va crear l'Associació d'Empreses del País Basc de la Indústria de les Llengües Langune, amb més de 30 socis. Des de la seva creació, els membres de BerbaTek han participat activament i BerbaTek té vocació de servir de suport tecnològic a la indústria i a l'associació.

Moltes de les tecnologies desenvolupades en BerbaTek tenen una aplicació directa en un dels tres sectors de la indústria de les llengües, i altres eines, recursos i tecnologies són aplicable en qualsevol d'ells o són les bases per al desenvolupament d'altres tecnologies.

L'esquema representa gràficament la indústria de les llengües i les seves àrees, i què pot aportar BerbaTek a cadascuna i en general.

Donem

Com ja s'ha comentat, BerbaTek té vocació de ser una aplicació pràctica en la indústria de les llengües, i prova d'això és que per als tres subsectors d'aquesta indústria hem construït una demo combinant diferents tecnologies.

Demo per a doblatge automàtic de documentals.

Com a prova de la contribució de les tecnologies lingüístiques en el camp dels continguts, hem realitzat un cercador semàntic multimèdia de ciència i tecnologia. Aquest cercador es basa en l'ontologia especialitzada WNTerm en ciència i tecnologia, construïda per Elhuyar i el Grup IXA (una xarxa semànticament relacionada amb conceptes de ciència i tecnologia, amb subclasses, sinònims, etc.) i sobre el contingut d'Elhuyar (imatges i textos de la revista Elhuyar, vídeo del programa de televisió Teknopolis i àudio de Norteko Ferrokarrilla). Mitjançant la tecnologia desenvolupada per Tecnalia, quan es busca un terme, l'ontologia permet també buscar continguts que continguin sinònims, subclasses o superclases d'aquest terme. A més, quan el resultat és una imatge, ofereix imatges similars utilitzant la tecnologia de Vicomtech-IK4.

En l'àmbit de la traducció s'ha realitzat una demo de doblatge automàtic de documentals. La duplicació automàtica de pel·lícules és un repte difícil de moment (moltes veus, llenguatge col·loquial, velocitats diferents...), però amb alguns tipus de documentals (un sol ponent, veu en off, coordinació amb els llavis no és necessària o important...) hem fet una demo que funciona bé. Mitjançant l'emissió d'un documental en castellà i una transcripció del que allí es diu (aquesta transcripció pot obtenir-se automàticament si es vol, ja que existeixen en el mercat programes de dictat per al castellà), la tecnologia d'alineament temporal de Vicomtech-IK4 permet obtenir un fitxer de subtítols (la transcripció, però amb els moments inicial i final de cada frase). Posteriorment, el traductor automàtic Matxin del Grup IXA tradueix aquests subtítols al basc, i la tecnologia de conversió de veu de text de Zapore Jai genera una veu sincronitzada en basca. Aquesta demo s'ha aplicat amb èxit als apartats d'un sol ponent del programa Teknopolis que realitza Elhuyar.

Finalment, hem realitzat la demo d'un tutor personal de l'ensenyament d'idiomes per a l'àmbit de l'ensenyament. Aquest tutor és un personatge 3D capaç d'expressar emocions, desenvolupat per Vicomtech-IK4, que parla en basca i entén el que se li diu en basca, gràcies a la tecnologia de Zapore Jai. I el tutor pot ajudar-nos en: La tecnologia d'IXA ens permet realitzar exercicis gramaticals (verbs, declinació...) o exercicis de comprensió (omplir els buits d'un text donant diverses opcions) creats automàticament; ens avalua la pronunciació gràcies a la tecnologia d'Aholab; o ofereix ajudes per a l'escriptura (comportament dels verbs, escriptura dels números, consultes de diccionari...), A través de la tecnologia d'IXA i Elhuyar.

Divulgació

En el projecte BerbaTek donem importància, a més de la recerca bàsica i l'aplicació pràctica, a la divulgació. Per a nosaltres és fonamental donar a conèixer el treball realitzat en fòrums de recerca, congressos i revistes especialitzades, però també mostrar a la societat en general la importància de les tecnologies lingüístiques i de veu i donar a conèixer els assoliments que hem realitzat en aquest camp per al basc. Per a aconseguir aquest últim objectiu hem elaborat una pàgina web ( http://www.berbatek.com ) en la qual a més de informar de manera general sobre el projecte BerbaTek, informem periòdicament dels avanços realitzats en aquest. I a més, a través de l'Observatori de Tecnologies Lingüístiques, Vocals i Multimèdia (Un Cercador de notícies d'altres webs), donem a conèixer el que ocorre en el món de les tecnologies lingüístiques, així com els esdeveniments més importants a nivell local i internacional a través del Calendari d'Esdeveniments.

Estem molt satisfets i orgullosos dels resultats obtinguts per BerbaTek en el projecte. Però si el basc no vol quedar-se enrere en les tecnologies lingüístiques i, per tant, en aquest nou món digital, encara ens toca treballar duro en els pròxims anys. Tots els membres del projecte BerbaTek estem disposats a afrontar aquest repte.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia