Tecnologia de CorpEus i Elebilapara cerques web en basca

2007/11/26 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia

Recentment, i en molt poc temps, han aparegut en Internet basca dos interessants serveis web: CorpEus i Elebila . Atenent al llegit en diferents llocs d'Internet, sembla que en presentar aquests serveis no s'entén bé en què consisteix aquesta tecnologia. En aquest article tractarem d'explicar amb més claredat què hi ha baix CorpEus i Elebila.
Elebila, cercador en basc

CorpEus és una eina per a consultar Internet com a corpus en basc i Elebila un cercador en basc.

Encara que els resultats de totes dues eines són diferents i els usos que es poden donar, ambdues realitzen cerques web en basca i ambdues utilitzen la mateixa tecnologia desenvolupada en el departament d'I+D de la Fundació Elhuyar.

Problemes de cerca en basca

Cerca de contingut en basc en Internet a cercadors habituals (Google, Yahoo!, Quan toquem Windows Live Search... tenim dos problemes principalment. La primera d'elles és que cap permet buscar només en les pàgines en basca. Així, en buscar paraules amb la mateixa grafia en altres idiomes, com l'energia, l'anorèxia o el programari, a penes se'ns presenten resultats en basc. El mateix ocorre amb molts noms propis com Egipte, Newton o el Guggenheim —. I així amb moltes paraules curtes com a burros, gats o llets, perquè hi ha moltes possibilitats d'existir en altres llengües, encara que sigui com a sigles.

La segona és que el basc és una llengua declinada, característica que els cercadors no tenen en compte. A l'hora de buscar una paraula en basca, convé buscar també les declinacions de la paraula; en cas contrari, en buscar la paraula energia, no apareixeria, per exemple, una pàgina que diu que s'ha incrementat el consum d'energia.

Utilitzant APIs de cercadors

Atès que els cercadors habituals d'Internet no ofereixen bons resultats per al basc, existeixen dues opcions: desenvolupar un cercador totalment propi o utilitzar els APIs que ofereixen altres cercadors. La primera és molt complexa. D'una banda, les dificultats tècniques, els principals cercadors que encara estan sent investigats i que probablement hauran de continuar investigant constantment: rànquing, personalització, spam web... D'altra banda, hi ha tot el maquinari i infraestructura que demanda: molts ordinadors fent crawling, màquines per a allotjar índexs gegants, serveis de cerca...

CorpEus és una eina per a consultar internet com a corpus en basc

L'ús d'APIs (interfícies o conjunts de funcions que ofereixen els cercadors perquè a través d'ells desenvolupin la seva pròpia aplicació) és molt més econòmic i senzill. No obstant això, té alguns inconvenients: hi ha dependència de cercadors, no hi ha control sobre l'ordre i altres paràmetres... No obstant això, CorpEus i Elebila s'han desenvolupat utilitzant APIs que semblen tenir més avantatges.

Només resultats en basc

Per a obtenir dels cercadors únicament els resultats en basc, s'afegeixen a la paraula que l'usuari desitja buscar les paraules que apareixen amb més freqüència en basca. Les pàgines en altres llengües no comptaran normalment amb aquestes paraules de filtre i comptaran amb la majoria dels textos en basc.

S'afegeixen quatre paraules de filtre a la pregunta que s'envia a l'API: i , és, no. Només amb el primer no és suficient, ja que el nom ETA apareix moltes vegades en altres llengües que no són el basc. Ni amb dos, és una paraula que significa sí en diversos idiomes eslaus. Amb cap dels tres, ni la paraula, per la seva brevetat, pel seu significat en altres llengües o per les sigles d'alguna cosa. Per tant, afegint les quatre paraules s'aconsegueix que la pràctica totalitat dels resultats siguin en basc. De tant en tant es tradueix alguna pàgina que no estigui en basca, però per al seu filtrat s'utilitza l'identificador lingüístic LangId desenvolupat pel Grup IXA. S'aplica a la part de text que envia el cercador per a mostrar i si es veu que hi ha alguna pàgina que no sigui de basca, totes dues eines eliminen dels resultats.

Cerca lematizada

El basc té una morfologia rica: un lema d'una paraula (per exemple, l'equació) té moltes formes (la mateixa equació, les equacions, les equacions, les equacions, ...). A l'hora de buscar una paraula en Internet, convé trobar qualsevol forma d'aquesta paraula. Per tant, un motor de cerca desenvolupat específicament per al basc no hauria d'indexar les formes exactes de les paraules, sinó els seus lemes. Però els cercadors d'Internet no ho fan, i només busquen la forma exacta de paraula introduïda, per la qual cosa les pàgines amb qualsevol altra forma de la mateixa paraula es perden.

Per a obtenir dels cercadors únicament els resultats en basc, s'afegeixen a la paraula que l'usuari desitja buscar les paraules que apareixen amb més freqüència en basca.

CorpEus i Elebila.utilitzen l'ampliació de la pregunta per creació morfològica per a solucionar-la. S'utilitzen eines de creació morfològica realitzades pel Grup IXA per a obtenir les formes d'un lema, sol·licitant a l'API pàgines amb qualsevol d'aquestes formes a través d'un operador OR. Així aconseguim realitzar una cerca lematizada.

La veritat és que no es fa una cerca completa amb el lema, ja que les paraules basques poden tenir un munt de declinacions (tècnicament infinites declinacions) i els APIs dels cercadors tenen limitacions quant al nombre de paraules que se'ls poden enviar. Per això, les declinacions s'ordenen en funció de la freqüència d'ús i s'envien tants com s'acceptin els APIs per a abastar la majoria dels casos i aconseguir una cerca gairebé veritable lematizada.

Cerca de navegació vs. cerca d'informació

Atès que per a obtenir únicament els resultats en basc s'utilitzen quatre paraules de filtre, a vegades les pàgines en basca queden fora dels resultats, ja que una o diverses d'elles no contenen. I això pot ser un problema, sobretot en les cerques de navegació.

Què és això? Els teòrics en el camp dels cercadors d'Internet distingeixen dos tipus de cerques: cerques de navegació (quan la cerca busca la direcció d'un lloc web concret, com Euskaltube o Caixa Laboral) i cerques d'informació (quan es vol buscar informació sobre alguna cosa, com el càncer o l'energia nuclear). CorpEus i Elebila estan principalment dissenyades per a buscar CONTINGUT en basc, és a dir, s'han dissenyat per a la cerca d'informació, on fallen els cercadors habituals. I els textos amb bona informació normalment són bastant llargs per a disposar de paraules de filtre i apareixen en aquesta mena de cerques.

Membres del grup d'I + D de la Fundació Elhuyar: per l'esquerra, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi i Igor Leturia. (Foto: R. Carton)

No obstant això, per a les cerques de navegació, a vegades l'Elebila no funcionarà tan bé, ja que les pàgines d'accés a llocs web o les pàgines principals, és a dir, les que desitgem que apareguin en aquesta mena de cerques, sovint tenen un text escàs i curt, i pot ser que en aquests textos curts no apareguin paraules de filtre. Però hi ha una solució. Quan Elía falla una cerca de navegació tenim dues opcions: Accedir a la cerca avançada en i tractar amb el filtre més feble (d'aquesta forma es reduirà el nombre de paraules de filtre i s'augmentarà la probabilitat que aparegui la pàgina buscada), o bé Indicar la cerca en qualsevol idioma (en aquest cas, realitzarà la cerca que faria un cercador convencional; i per a cerques de navegació en pàgines en basca els cercadors habituals d'Internet funcionen bastant bé, ja que el rànquing basat en el nombre de pàgines que enllacen a una pàgina és suficient.

CorpEus s'utilitza principalment per a cerques d'informació. No obstant això, en alguns casos pot donar-se el cas que els termes de filtre presentin pocs resultats. En aquest cas tenim l'opció Intentar ampliant la cobertura per a poder realitzar la cerca amb menys paraules de filtre. Aquesta opció pot tenir bons resultats si la paraula buscada és únicament en basca, però si té la mateixa grafia que una altra llengua de major grandària, l'API traduirà molts resultats que no siguin en basc i després no es mostrarà res, ja que l'identificador lingüístic LangId els eliminarà.

API Windows Live Search

CorpEus i Elebila es basen en l'API del cercador Windows Live Search de Microsoft. Per a dur a terme aquesta opció s'han analitzat les limitacions que els principals cercadors estableixen per a l'ús dels seus APIs: L'API de Google només admet 1.000 anomenades al dia i, a més, ja no accepta noves inscripcions, ja que aquesta API està sent abandonada per Google per a impulsar el nou API AJAX Search (que només retorna 8 resultats), l'API de Yahoo! permet 10.000 anomenades al dia per cada IP i una crida de MICROSOFT gratis per cada IP, i una d'App.

Però CorpEus i Elebila no estan en absolut casats amb Windows Live Searchs per casualitat i per sempre. També poden utilitzar altres APIs (Google, Google AJAX, Yahoo i Alexa). Decidim donar el servei públic amb Windows Live Searchs per les condicions, però si les condicions canvien en qualsevol moment, podem col·locar-les gairebé immediatament per a poder utilitzar un altre API.