Buscadores de Internet, evolución constante
2010/05/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Internet es el mayor banco de conocimiento al alcance de la humanidad. Para encontrar la información que queramos necesitamos buscadores como Google, Yahoo o Bing. Al principio sólo buscaban palabras, pero cada vez tienen más posibilidades. Y empiezan a aparecer nuevos tipos de buscadores.
Cuando se creó la web los buscadores eran muy simples. Buscaban documentos con palabras o palabras dadas, luego ordenarlas según unos criterios generales y punto. Pero tenían muchos problemas: por ejemplo, en muchas ocasiones los resultados no estaban en el idioma que queríamos; o no buscaban los derivados de la palabra buscada; ni siquiera los sinónimos del candidato; etc. Con el tiempo, los buscadores han solucionado estos problemas. Algunas opciones se han integrado directamente en las búsquedas y otras se ofrecen en opciones avanzadas. Además, se han creado buscadores especializados que resuelven algunos de estos problemas.
Mejoras según idioma
Una de las primeras mejoras fue la detección del lenguaje. Mediante el uso de las tecnologías lingüísticas, los buscadores son capaces de detectar en qué idioma se encuentra una página web, ofreciendo sólo páginas de un idioma concreto. Además, cuando el idioma de las páginas es conocido, ofrecen a la página un tratamiento específico en función de este idioma. Por ejemplo, aplican stemming o maleza lematización a todas las palabras y consiguen que la búsqueda se ajuste al lema de la palabra, superando el problema de los derivados mencionados.
Sin embargo, los principales buscadores sólo lo hacen con las lenguas más importantes o con mayor presencia en la red, y no es el caso del euskera. En los casos en los que se desee obtener resultados únicamente en euskera y mediante lema, se puede utilizar el buscador Elebila (http://www.elebila.eu), un buscador comercializado por Eleka basado en la tecnología del grupo I+D de la Fundación Elhuyar.
Multilingüismo
En otros casos nos interesa lo contrario, es decir, obtener las páginas web más interesantes sobre una determinada cosa, estén en cualquier idioma. La línea de investigación que tiene por objeto facilitar esto se denomina búsqueda de información interlingüística. La palabra o palabras que se quieren buscar se traducen a otros idiomas y se realizan búsquedas en ellos, devolviendo a continuación los resultados más significativos de cada idioma. Para cerrar el círculo, todos los resultados se pueden traducir a la lengua inicial mediante traducción automática.
Algunos ejemplos experimentales pueden encontrarse en http://terpconnect.umd.edu/~dlrg/clir/systems.html. En los buscadores comerciales Google es el único que hace algo así a través del servicio Google Translated Search (http://translate.google.com/translate_s). Así, por ejemplo, podemos pedir que busquen " bars in Moscow " (" bares en Moscú ") en páginas en ruso. Él traducirá la pregunta al ruso, buscará y devolverá los resultados al inglés.
En cuanto al euskera, el grupo de I+D de la Fundación Elhuyar tendrá que publicar próximamente el buscador de ciencias interlingüísticas Zientzianitz. Lo que buscamos en euskera lo buscará en las webs científicas más significativas en euskera, castellano e inglés.
Basada en el significado
Puede que haya varias palabras que nos indiquen el concepto que buscamos. Pero el buscador sólo nos devolverá las páginas que contengan esa palabra concreta. Para mejorar los resultados se puede utilizar la técnica denominada difusión de la pregunta, que consiste en buscar también sinónimos o variantes de la palabra. Google, por ejemplo, busca también sinónimos colocando el signo ~ antes de la palabra. El buscador Elebila en euskera no buscará automáticamente, pero podrá seleccionar variantes o sinónimos de la palabra.
Por otra parte, si la palabra que buscamos tiene más de un significado, normalmente sólo nos interesarán los resultados asociados a uno de ellos. Traducir sólo ellos es de gran ayuda, o al menos mostrar los resultados agrupados por diferentes significados. El buscador de Bing Reference de Microsoft (http://www.bing.com/reference) --sólo sobre artículos de Wikipedia, en su caso- o el buscador Haki (http://www.hakia.com) intentan hacer algo así.
En cualquier caso, para implementar estas opciones es necesario que el buscador adivine cuál de los significados de la palabra le interesa al usuario. Hay varias formas de hacerlo. Una de ellas es preguntar directamente al usuario cuál es el significado que le interesa o si la palabra ha sido traducida correctamente. Otra es intentar adivinar el significado a través de las tecnologías lingüísticas utilizando el contexto que proporcionan las otras palabras, pero para ello la búsqueda debe estar compuesta por varias palabras. Y otra es intentar adivinar el significado aprovechando el historial de búsqueda del usuario o su ubicación geográfica. Esto último es lo que hace Google si lo autorizamos expresamente.
Respondiendo a preguntas
En algunos casos nos dirigimos a Internet en busca de la respuesta concreta de una pregunta. Si hacemos una pregunta a un buscador común nos devolverá la lista de documentos que contienen las palabras de la pregunta, pero también hay sistemas capaces de responder a las preguntas. Algunos utilizan textos y técnicas de búsqueda de información y tecnologías lingüísticas, como el sistema START del MIT (http://start.csail.mit.edu/) o el desarrollo del Grupo IXA Taldea, Ihardetsi, que responde a preguntas en euskera. Otros utilizan el conocimiento estructurado y el razonamiento automático, como Wolfram Alpha (http://www.wolframalpha.com) o TrueKnowledge (http://www.trueknowledge.com). Y también están desarrollando los usuarios de la web semántica, como la DBPedia (http://dbpedia.org).
No cabe duda de que los buscadores han evolucionado mucho desde su origen y siguen mejorando en la actualidad. Gracias a ellos, y gracias a los nuevos buscadores que aún se encuentran en una situación bastante experimental y ofrecen nuevas capacidades y posibilidades, las búsquedas que se realizarán en la web en el futuro seguro que se simplificarán mucho.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia