Tecnoloxía de CorpEus e Elebilapara procuras web en eúscaro

2007/11/26 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia

Recentemente, e en moi pouco tempo, apareceron en Internet vasca dous interesantes servizos web: CorpEus e Elebila . Atendendo ao lido en diferentes sitios de Internet, parece que ao presentar estes servizos non se entende ben en que consiste esta tecnoloxía. Neste artigo trataremos de explicar con máis claridade que hai baixo CorpEus e Elebila.
Elebila, buscador en eúscaro

CorpEus é una ferramenta paira consultar Internet como corpus en eúscaro e Elebila un buscador en eúscaro.

Aínda que os resultados de ambas as ferramentas son diferentes e os usos que se poden dar, ambas realizan procuras web en eúscaro e ambas utilizan a mesma tecnoloxía desenvolvida no departamento de I+D da Fundación Elhuyar.

Problemas de procura en eúscaro

Procura de contido en eúscaro en Internet a buscadores habituais (Google, Yahoo!, Cando tocamos Windows Live Search... temos dous problemas principalmente. A primeira delas é que ningunha permite buscar só nas páxinas en eúscaro. Así, ao buscar palabras coa mesma grafía noutros idiomas, como a enerxía, a anorexia ou o software, apenas se nos presentan resultados en eúscaro. O mesmo ocorre con moitos nomes propios como Exipto, Newton ou o Guggenheim —. E así con moitas palabras curtas como burricáns, gatos ou leites, porque hai moitas posibilidades de existir noutras linguas, aínda que sexa como siglas.

A segunda é que o eúscaro é una lingua declinada, característica que os buscadores non teñen en conta. Á hora de buscar una palabra en eúscaro, convén buscar tamén as declinaciones da palabra; pola contra, ao buscar a palabra enerxía, non aparecería, por exemplo, una páxina que di que se incrementou o consumo de enerxía.

Utilizando APIs de buscadores

Dado que os buscadores habituais de Internet non ofrecen bos resultados paira o eúscaro, existen dúas opcións: desenvolver un buscador totalmente propio ou utilizar os APIs que ofrecen outros buscadores. A primeira é moi complexa. Por unha banda, as dificultades técnicas, os principais buscadores que aínda están a ser investigados e que probablemente terán que seguir investigando constantemente: ranking, personalización, spam web... Doutra banda, hai todo o hardware e infraestrutura que demanda: moitos computadores facendo crawling, máquinas paira aloxar índices xigantes, servizos de procura...

CorpEus é una ferramenta paira consultar internet como corpus en eúscaro

O uso de APIs (interfaces ou conxuntos de funcións que ofrecen os buscadores para que a través deles desenvolvan a súa propia aplicación) é moito máis económico e sinxelo. Con todo, ten algúns inconvenientes: hai dependencia de buscadores, non hai control sobre a orde e outros parámetros... Con todo, CorpEus e Elebila desenvolvéronse utilizando APIs que parecen ter máis vantaxes.

Só resultados en eúscaro

Paira obter dos buscadores unicamente os resultados en eúscaro, engádense á palabra que o usuario desexa buscar as palabras que aparecen con máis frecuencia en eúscaro. As páxinas noutras linguas non contarán normalmente con estas palabras de filtro e contarán coa maioría dos textos en eúscaro.

Engádense catro palabras de filtro á pregunta que se envía ao API: e , é, non. Só co primeiro non é suficiente, xa que o nome ETA aparece moitas veces noutras linguas que non son o eúscaro. Nin con dous, é una palabra que significa si en varios idiomas eslavos. Con ningún do tres, nin a palabra, pola súa brevidade, polo seu significado noutras linguas ou polas siglas de algo. Por tanto, engadindo as catro palabras conséguese que a práctica totalidade dos resultados sexan en eúscaro. De cando en vez tradúcese algunha páxina que non estea en eúscaro, pero paira o seu filtrado utilízase o identificador lingüístico LangId desenvolvido polo Grupo IXA. Aplícase á parte de texto que envía o buscador paira mostrar e si vese que hai algunha páxina que non sexa de eúscaro, ambas as ferramentas eliminan dos resultados.

Procura lematizada

O eúscaro ten una morfología rica: un lema dunha palabra (por exemplo, a ecuación) ten moitas formas (a mesma ecuación, as ecuacións, as ecuacións, as ecuacións, ...). Á hora de buscar una palabra en Internet, convén atopar calquera forma de devandita palabra. Por tanto, un motor de procura desenvolvido especificamente paira o eúscaro non debería indexar as formas exactas das palabras, senón as súas lemas. Pero os buscadores de Internet non o fan, e só buscan a forma exacta de palabra introducida, polo que as páxinas con calquera outra forma da mesma palabra pérdense.

Paira obter dos buscadores unicamente os resultados en eúscaro, engádense á palabra que o usuario desexa buscar as palabras que aparecen con máis frecuencia en eúscaro.

CorpEus e Elebila.utilizan a ampliación da pregunta por creación morfológica paira solucionala. Utilízanse ferramentas de creación morfológica realizadas polo Grupo IXA paira obter as formas dun lema, solicitando ao API páxinas con calquera destas formas a través dun operador OR. Así conseguimos realizar una procura lematizada.

A verdade é que non se fai una procura completa coa lema, xa que as palabras vascas poden ter unha chea de declinaciones (tecnicamente infinitas declinaciones) e os APIs dos buscadores teñen limitacións en canto ao número de palabras que se lles poden enviar. Por iso, as declinaciones ordénanse en función da frecuencia de uso e envíanse tantos como se acepten os APIs paira abarcar a maioría dos casos e conseguir una procura case verdadeira lematizada.

Procura de navegación vs. procura de información

Dado que paira obter unicamente os resultados en eúscaro utilízanse catro palabras de filtro, en ocasións as páxinas en eúscaro quedan fóra dos resultados, xa que una ou varias delas non conteñen. E isto pode ser un problema, sobre todo nas procuras de navegación.

Que é iso? Os teóricos no campo dos buscadores de Internet distinguen dous tipos de procuras: procuras de navegación (cando a procura busca a dirección dun sitio web concreto, como Euskaltube ou Caixa Laboral) e procuras de información (cando se quere buscar información sobre algo, como o cancro ou a enerxía nuclear). CorpEus e Elebila están principalmente deseñadas paira buscar CONTIDO en eúscaro, é dicir, deseñáronse paira a procura de información, onde fallan os buscadores habituais. E os textos con boa información normalmente son bastante longos paira dispor de palabras de filtro e aparecen neste tipo de procuras.

Membros do grupo de I + D da Fundación Elhuyar: pola esquerda, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi e Igor Leturia. (Foto: R. Carton)

Con todo, paira as procuras de navegación, ás veces o Elebila non funcionará tan ben, xa que as páxinas de acceso a sitios web ou as páxinas principais, é dicir, as que desexamos que aparezan neste tipo de procuras, a miúdo teñen un texto escaso e curto, e poida que neses textos curtos non aparezan palabras de filtro. Pero hai una solución. Cando Elía falla una procura de navegación temos dúas opcións: Acceder á procura avanzada en e tratar co filtro máis débil (desta forma reducirase o número de palabras de filtro e aumentarase a probabilidade de que apareza a páxina buscada), ou ben Indicar a procura en calquera idioma (neste caso, realizará a procura que faría un buscador convencional; e paira procuras de navegación en páxinas en eúscaro os buscadores habituais de Internet funcionan bastante ben, xa que o ranking baseado no número de páxinas que enlazan a unha páxina é suficiente.

CorpEus utilízase principalmente paira procuras de información. Con todo, nalgúns casos pode darse o caso de que os termos de filtro presenten poucos resultados. Neste caso temos a opción Tentar ampliando a cobertura paira poder realizar a procura con menos palabras de filtro. Esta opción pode ter bos resultados se a palabra buscada é unicamente en eúscaro, pero si ten a mesma grafía que outra lingua de maior tamaño, a API traducirá moitos resultados que non sexan en eúscaro e logo non se mostrará nada, xa que o identificador lingüístico LangId eliminaraos.

API Windows Live Search

CorpEus e Elebila baséanse na API do buscador Windows Live Search de Microsoft. Paira levar a cabo esta opción analizáronse as limitacións que os principais buscadores establecen paira o uso dos seus APIs: A API de Google só admite 1.000 chamadas ao día e, ademais, xa non acepta novas inscricións, xa que esta API está a ser abandonada por Google paira impulsar o novo API AJAX Search (que só devolve 8 resultados), a API de Yahoo! permite 10.000 chamadas ao día por cada IP e una chamada de MICROSOFT gratis por cada IP, e una de App.

Pero CorpEus e Elebila non están en absoluto casados con Windows Live Searchs por casualidade e paira sempre. Tamén poden utilizar outras APIs (Google, Google AJAX, Yahoo e Alexa). Decidimos dar o servizo público con Windows Live Searchs polas condicións, pero se as condicións cambian en calquera momento, podemos colocalas case inmediatamente paira poder utilizar outro API.