Un grupo de investigadores da UPV e Elhuyar desenvolveron ferramentas paira utilizar a web como corpus en eúscaro
2014/10/14 Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Os corpus son mostras de referencia da linguaxe escrita, grandes coleccións de textos e palabras. E están nos fundamentos das tecnoloxías lingüísticas. Os sistemas de tradución automática e as aplicacións de recoñecemento de voz non existirían sen corpus, nin tampouco os modernos dicionarios actuais.
Dirixido polo grupo de investigación Ixa da Facultade de Informática da UPV, o investigador da unidade de Lingua e Tecnoloxía de Elhuyar Igor Leturia acudiu á web paira crear corpus en eúscaro. Cando se iniciou o traballo de investigación, o corpus máis grande en eúscaro contaba con 25 millóns de palabras; “outras linguas superaron os 100 millóns de palabras na década dos 90”, explica Leturia. “Puxémonos o obxectivo de superar esa barreira, cando empezamos a analizar si a web podía ser una boa fonte paira crear corpus en eúscaro”, engadiu.
Automaticamente, máis fácil e barato
Leturia aproveitou a aproximación “como corpus web”, xa que o uso da web como fonte permite obter máis facilmente os corpus grandes que manualmente. A extracción de corpus da web mediante métodos automáticos permite obter corpus variados, actualizados e grandes de forma moito máis rápida e económica. De feito, a maior limitación dos corpus tradicionais é o seu custo: a recompilación e adaptación de textos en diferentes formatos e lugares require una gran man de obra, da que se extraen as coleccións de palabras de referencia na lingua.
A través do traballo de investigación, Leturia demostrou que é posible consultar directamente a web coma se fose un corpus en eúscaro e, a través das ferramentas desenvolvidas, creou desde a web un corpus xeral de 210 millóns de palabras (consultable no Portal de Web-Corpus). “Máis do 95% das palabras que aparecen nos Corpus desenvolvidos a man tamén están no noso país —explica Leturia— e moitas outras que non as recollen”.
Ademais de crear corpus xerais, Leturia demostrou que a web é útil paira crear corpus en determinadas áreas de coñecemento, tanto paira obter coleccións de texto integramente en eúscaro como paira crear coleccións de texto bilingües. En ambos os casos, os corpus de dominio extraídos da web foron asimilables aos creados manualmente. Traballou con corpus de informática, física de partículas e turismo, entre outros.
Leturia partiu de métodos automáticos aplicados noutras linguas paira o seu desenvolvemento, tendo en conta as características do eúscaro, e buscou solucións adaptadas a esas características do eúscaro. “Como o eúscaro ten una menor masa de texto que outras linguas e é máis complexo paira o tratamento automático, púxonos ante problemas máis difíciles”, explicou Leturia, que permitiu desenvolver ferramentas que non teñen “grandes” linguas. Segundo Leturia, tiveron a oportunidade de realizar achegas orixinais e innovadoras ao ámbito da tecnoloxía das linguas, que son útiles non só paira o eúscaro, senón tamén paira outras linguas con necesidades e características similares ao eúscaro.