}

Enxeñaría lingüística Hizking21 XXI. na porta do século

2003/09/01 Saiz Elizondo, Rafa - Itsas Enara Ornitologia Elkartearen lehendakaria Iturria: Elhuyar aldizkaria

Máis aló do proceso de textos, a enxeñaría lingüística aborda o que as computadoras poden facer no ámbito lingüístico. O obxectivo xeral é que o medio de comunicación coas máquinas sexa cada vez máis natural, entre outras cousas, porque o usuario falará ou escribirá como afai e as máquinas comprenderano e, se se programa así, obedecerán. En lugar de reproducir mensaxes xa gravadas, as máquinas crearán mensaxes comunicativos, tantos escritos como verbais. Paira iso é necesario un longo camiño e un gran traballo básico. Detalles do proxecto Corpus
(Foto: G. Andonegi).

O proxecto que se iniciou co nome de Hizking21 ten como obxectivo: Paira o ano 2005 dispor das ferramentas infolingüísticas dispoñibles actualmente paira o inglés en eúscaro. Moitas delas serán creadas especificamente paira o eúscaro, outras serían adaptadas a outras linguas. A morfología e especial sintaxe do eúscaro van facer que se atopen problemas que non sexan tratados anteriormente e que a tecnoloxía que se desenvolva paira superalos poida converter a Euskal Herria nun referente mundial neste campo.

Que hai hoxe

Na actualidade, a referencia ás tecnoloxías informáticas lingüísticas en eúscaro é imprescindible paira os grupos IXA e Aholkularitza da Universidade do País Vasco. Desenvolveron diversas ferramentas informáticas paira o tratamento da lingua: corrector ortográfico, lematizador, desambiguador, etc. que serán en gran medida o punto de partida do proxecto. Con todo, para que estes traballen necesitan referencias, lexicones, e paira completalos e actualizalos, os corpus convertéronse nunha ferramenta imprescindible, un repositorio de textos clasificados, etiquetaxes e ordenados reflexo da linguaxe real.

Canto máis se desenvolva o procesamiento da linguaxe natural, máis fácil será utilizar as ferramentas informáticas de traballo. (Foto: G. Andonegi).

Os traballos realizados por Elhuyar ao longo dos anos na elaboración de dicionarios lingüísticos, así como nos dicionarios técnicos, servirán paira completar e alimentar devanditos léxicos. O material elaborado e recompilado no campo da Ciencia e a Técnica será tamén valioso na creación de corpus moi especiais.

A súa actividade principal é a análise e tratamento da voz. Dispón de ferramentas paira pasar dun ficheiro de formato de voz a texto escrito e viceversa. Paira iso tamén é imprescindible ter referencias: ensinar á máquina como coñecer o que ‘ouve’ e como ‘escribe’.

As ferramentas e recursos que se ofrecen son moi relacionados co eúscaro. Por tanto, a maioría son programas realizados con tecnoloxía propia desenvolvida. En canto ás interfaces, aínda que una parte do traballo xa avanzado noutras linguas é útil, o deseño dos avatares está moi avanzado, hai que facerlles falar en eúscaro. Nese camiño tamén percorreron o seu camiño e seguirán adiante.

A Fundación Robotiker, referente en conectividad de equipos no País Vasco, encargarase da tecnoloxía básica en Hizking21. En Euskal Herria, con todo, existen outros axentes que traballan neste campo como a ASP, a Tecnoloxía Diana...

Que hai que facer

Preténdese realizar a comunicación coas máquinas da forma máis natural posible. (Foto: G. Andonegi).

Hoxe en día é innegable a necesidade dun corpus xeral de referencia do eúscaro, máis aínda se nos adhiren ao ámbito da enxeñaría lingüística. Con todo, uno dos obxectivos de Hizking21 é ofrecer una metodoloxía consensuada e contrastada que poida ser a base paira a consecución deste obxectivo global de futuro e desenvolver ferramentas de corpus paira iso, xunto coa oferta de recursos parciais (corpus especializados) que se constitúan nesta vía.

Ferramentas intermedias Ferramentas
crave no Proxecto: Lematizador, desambiguador, analizador sintáctico, etc., que deberán ser complementadas, adaptadas e melloradas de forma continua. Adicionalmente, ferramentas paira a correcta explotación dos recursos lingüísticos xerados (analizadores de textos, extractores de termos, etc.) tamén se crearán.

A lingua non debería ser un obstáculo paira poder acceder aos avances.

Interfaces A
comunicación coas máquinas será en certa medida visual e verbal. A medida que avanza a tecnoloxía, os resultados serán mellores, sobre todo na representatividade das imaxes 3D. Hoxe en día obtéñense bos resultados coa información gravada, pero hai que ter en conta que a inmediatez é imprescindible para que a fala sexa natural: o sistema ‘entende’ as mensaxes, ten que crear e emitir una resposta, pero a resposta non será só una frase, senón que deberá transmitirse con xestos, entonaciones e expresións especiais. Todo iso esixe grandes necesidades computacionales, tanto no tratamento lingüístico como na síntese de son e imaxe.

E despois, que?

Como se mencionou anteriormente, o resultado do proxecto Hizking21 non será a creación de aplicacións informáticas concretas, senón pór a disposición dos aplicadores as ferramentas e tecnoloxías que as permitan. Destino das empresas de software paira a realización de aplicacións en eúscaro con capacidade lingüística. Que aplicacións? Non faltan ideas: sistemas que reciben ordes telefonicamente (como os de domótica), sistemas de información que deben responder as preguntas dos usuarios, axudas paira a tradución automática, ditadura automática, lectores paira invidentes, sistemas de axuda paira conducir visitas en lugares públicos, sistemas de xestión de avisos en aeroportos e estacións, etc. As opcións son infinitas. Só hai que executalos.

O proxecto Hizking21 ten un orzamento de 7.600.000 €. O Departamento de Industria, Comercio e Turismo do Goberno Vasco nomeou á Infoingeniería Lingüística como una liña de investigación de interese estratéxico, apoiada polo programa Etortek.

Hizking21 reúne a cinco socios: A Fundación Elhuyar, os grupos IXA e Aholkularitza da Universidade do País Vasco, a asociación Vicomtech e a Fundación Robotiker. Colabora Eleka S.L. a empresa tamén participa neste proxecto, creado entre IXA e Ehuy. Pola súa banda, posúen o coñecemento e a capacidade necesarias paira deseñar sistemas con capacidade lingüística. O traballo de todos os consorciados permitirá dispor en breve de ferramentas informáticas que poidan ser incorporadas ás aplicacións diarias.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia