Tecnología de CorpEus y Elebilapara búsquedas web en euskera

2007/11/26 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia

Recientemente, y en muy poco tiempo, han aparecido en Internet vasca dos interesantes servicios web: CorpEus y Elebila . Atendiendo a lo leído en diferentes sitios de Internet, parece que al presentar estos servicios no se entiende bien en qué consiste esta tecnología. En este artículo trataremos de explicar con más claridad qué hay bajo CorpEus y Elebila.
Elebila, buscador en euskera

CorpEus es una herramienta para consultar Internet como corpus en euskera y Elebila un buscador en euskera.

Aunque los resultados de ambas herramientas son diferentes y los usos que se pueden dar, ambas realizan búsquedas web en euskera y ambas utilizan la misma tecnología desarrollada en el departamento de I+D de la Fundación Elhuyar.

Problemas de búsqueda en euskera

Búsqueda de contenido en euskera en Internet a buscadores habituales (Google, Yahoo!, Cuando tocamos Windows Live Search... tenemos dos problemas principalmente. La primera de ellas es que ninguna permite buscar sólo en las páginas en euskera. Así, al buscar palabras con la misma grafía en otros idiomas, como la energía, la anorexia o el software, apenas se nos presentan resultados en euskera. Lo mismo ocurre con muchos nombres propios como Egipto, Newton o el Guggenheim —. Y así con muchas palabras cortas como burros, gatos o leches, porque hay muchas posibilidades de existir en otras lenguas, aunque sea como siglas.

La segunda es que el euskera es una lengua declinada, característica que los buscadores no tienen en cuenta. A la hora de buscar una palabra en euskera, conviene buscar también las declinaciones de la palabra; de lo contrario, al buscar la palabra energía, no aparecería, por ejemplo, una página que dice que se ha incrementado el consumo de energía.

Utilizando APIs de buscadores

Dado que los buscadores habituales de Internet no ofrecen buenos resultados para el euskera, existen dos opciones: desarrollar un buscador totalmente propio o utilizar los APIs que ofrecen otros buscadores. La primera es muy compleja. Por un lado, las dificultades técnicas, los principales buscadores que todavía están siendo investigados y que probablemente tendrán que seguir investigando constantemente: ranking, personalización, spam web... Por otro lado, hay todo el hardware e infraestructura que demanda: muchos ordenadores haciendo crawling, máquinas para alojar índices gigantes, servicios de búsqueda...

CorpEus es una herramienta para consultar internet como corpus en euskera

El uso de APIs (interfaces o conjuntos de funciones que ofrecen los buscadores para que a través de ellos desarrollen su propia aplicación) es mucho más económico y sencillo. Sin embargo, tiene algunos inconvenientes: hay dependencia de buscadores, no hay control sobre el orden y otros parámetros... Sin embargo, CorpEus y Elebila se han desarrollado utilizando APIs que parecen tener más ventajas.

Sólo resultados en euskera

Para obtener de los buscadores únicamente los resultados en euskera, se añaden a la palabra que el usuario desea buscar las palabras que aparecen con más frecuencia en euskera. Las páginas en otras lenguas no contarán normalmente con estas palabras de filtro y contarán con la mayoría de los textos en euskera.

Se añaden cuatro palabras de filtro a la pregunta que se envía al API: y , es, no. Sólo con el primero no es suficiente, ya que el nombre ETA aparece muchas veces en otras lenguas que no son el euskera. Ni con dos, es una palabra que significa sí en varios idiomas eslavos. Con ninguno de los tres, ni la palabra, por su brevedad, por su significado en otras lenguas o por las siglas de algo. Por tanto, añadiendo las cuatro palabras se consigue que la práctica totalidad de los resultados sean en euskera. De vez en cuando se traduce alguna página que no esté en euskera, pero para su filtrado se utiliza el identificador lingüístico LangId desarrollado por el Grupo IXA. Se aplica a la parte de texto que envía el buscador para mostrar y si se ve que hay alguna página que no sea de euskera, ambas herramientas eliminan de los resultados.

Búsqueda lematizada

El euskera tiene una morfología rica: un lema de una palabra (por ejemplo, la ecuación) tiene muchas formas (la misma ecuación, las ecuaciones, las ecuaciones, las ecuaciones, ...). A la hora de buscar una palabra en Internet, conviene encontrar cualquier forma de dicha palabra. Por tanto, un motor de búsqueda desarrollado específicamente para el euskera no debería indexar las formas exactas de las palabras, sino sus lemas. Pero los buscadores de Internet no lo hacen, y sólo buscan la forma exacta de palabra introducida, por lo que las páginas con cualquier otra forma de la misma palabra se pierden.

Para obtener de los buscadores únicamente los resultados en euskera, se añaden a la palabra que el usuario desea buscar las palabras que aparecen con más frecuencia en euskera.

CorpEus y Elebila.utilizan la ampliación de la pregunta por creación morfológica para solucionarla. Se utilizan herramientas de creación morfológica realizadas por el Grupo IXA para obtener las formas de un lema, solicitando al API páginas con cualquiera de estas formas a través de un operador OR. Así conseguimos realizar una búsqueda lematizada.

La verdad es que no se hace una búsqueda completa con el lema, ya que las palabras vascas pueden tener un montón de declinaciones (técnicamente infinitas declinaciones) y los APIs de los buscadores tienen limitaciones en cuanto al número de palabras que se les pueden enviar. Por ello, las declinaciones se ordenan en función de la frecuencia de uso y se envían tantos como se acepten los APIs para abarcar la mayoría de los casos y conseguir una búsqueda casi verdadera lematizada.

Búsqueda de navegación vs. búsqueda de información

Dado que para obtener únicamente los resultados en euskera se utilizan cuatro palabras de filtro, en ocasiones las páginas en euskera quedan fuera de los resultados, ya que una o varias de ellas no contienen. Y esto puede ser un problema, sobre todo en las búsquedas de navegación.

¿Qué es eso? Los teóricos en el campo de los buscadores de Internet distinguen dos tipos de búsquedas: búsquedas de navegación (cuando la búsqueda busca la dirección de un sitio web concreto, como Euskaltube o Caja Laboral) y búsquedas de información (cuando se quiere buscar información sobre algo, como el cáncer o la energía nuclear). CorpEus y Elebila están principalmente diseñadas para buscar CONTENIDO en euskera, es decir, se han diseñado para la búsqueda de información, donde fallan los buscadores habituales. Y los textos con buena información normalmente son bastante largos para disponer de palabras de filtro y aparecen en este tipo de búsquedas.

Miembros del grupo de I + D de la Fundación Elhuyar: por la izquierda, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi e Igor Leturia. (Foto: R. Carton)

Sin embargo, para las búsquedas de navegación, a veces el Elebila no funcionará tan bien, ya que las páginas de acceso a sitios web o las páginas principales, es decir, las que deseamos que aparezcan en este tipo de búsquedas, a menudo tienen un texto escaso y corto, y puede que en esos textos cortos no aparezcan palabras de filtro. Pero hay una solución. Cuando Elía falla una búsqueda de navegación tenemos dos opciones: Acceder a la búsqueda avanzada en y tratar con el filtro más débil (de esta forma se reducirá el número de palabras de filtro y se aumentará la probabilidad de que aparezca la página buscada), o bien Indicar la búsqueda en cualquier idioma (en este caso, realizará la búsqueda que haría un buscador convencional; y para búsquedas de navegación en páginas en euskera los buscadores habituales de Internet funcionan bastante bien, ya que el ranking basado en el número de páginas que enlazan a una página es suficiente.

CorpEus se utiliza principalmente para búsquedas de información. Sin embargo, en algunos casos puede darse el caso de que los términos de filtro presenten pocos resultados. En este caso tenemos la opción Intentar ampliando la cobertura para poder realizar la búsqueda con menos palabras de filtro. Esta opción puede tener buenos resultados si la palabra buscada es únicamente en euskera, pero si tiene la misma grafía que otra lengua de mayor tamaño, la API traducirá muchos resultados que no sean en euskera y luego no se mostrará nada, ya que el identificador lingüístico LangId los eliminará.

API Windows Live Search

CorpEus y Elebila se basan en la API del buscador Windows Live Search de Microsoft. Para llevar a cabo esta opción se han analizado las limitaciones que los principales buscadores establecen para el uso de sus APIs: La API de Google sólo admite 1.000 llamadas al día y, además, ya no acepta nuevas inscripciones, ya que esta API está siendo abandonada por Google para impulsar el nuevo API AJAX Search (que sólo devuelve 8 resultados), la API de Yahoo! permite 10.000 llamadas al día por cada IP y una llamada de MICROSOFT gratis por cada IP, y una de App.

Pero CorpEus y Elebila no están en absoluto casados con Windows Live Searchs por casualidad y para siempre. También pueden utilizar otras APIs (Google, Google AJAX, Yahoo y Alexa). Decidimos dar el servicio público con Windows Live Searchs por las condiciones, pero si las condiciones cambian en cualquier momento, podemos colocarlas casi inmediatamente para poder utilizar otro API.