CorpEus: Combinant internet, corpus i basc
2007/07/01 Kortabitarte Egiguren, Irati - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Avui dia, totes les llengües necessiten corpus. Els corpus són col·leccions de textos etiquetats en format electrònic i lingüísticament --l'etiquetatge lingüísticament significa que a cada paraula se li atorga el seu corresponent lema, categoria, etc.- i s'utilitzen en la recerca lingüística i en el desenvolupament de tecnologies lingüístiques. Són recursos molt importants per al desenvolupament de tecnologies lingüístiques, elaboració de diccionaris, etc. L'elaboració de corpus és un treball car, laboriós i difícil de mantenir sempre actualitzat. Per això, els corpus en basc són escassos i petits en comparació amb altres idiomes.
A través d'internet
Però aquí està Internet o la teranyina, una enorme col·lecció de textos, a l'abast de tots, molt més text que qualsevol altre corpus en basc. També és un corpus, encara que no està etiquetat lingüísticament. Estaria bé poder consultar-ho o explotar-ho com a corpus. És el que fa CorpEus.
Ja existeixen en la xarxa eines com WebConc o WebCorp, però també hi ha altres eines i cercadors d'Internet que tenen dos problemes amb el basc: d'una banda, només poden buscar una forma concreta i no totes les formes d'una paraula o lema alhora --per exemple, ens interessa buscar terra, terra, terra, terra, etc.-, i d'altra banda, si la forma en basca no és massa sulfúrica, i poden donar resultats en un programari, per exemple.
CorpEus neix per a superar aquests límits. Aquesta eina, desenvolupada pel grup d'I+D de la Fundació Elhuyar, amb la col·laboració del Grup IXA de la Facultat d'Informàtica de la UPV/EHU, permet utilitzar Internet com corpustzat en basca. I és que Internet és un corpus gegant, molt més gran que qualsevol corpus en basc. A més sempre s'està actualitzant i afegint contingut, per la qual cosa es poden consultar les paraules més recents.
CorpEus utilitza les APIs dels cercadors d'Internet (pot moure's amb Google, Yahoo o Microsoft) per a saber en quina pàgina apareix una paraula --les funcions que ofereix el servei APIs (Application Programming Interface) per a utilitzar-la des d'un altre programa-. A continuació, mostra, en el seu context, totes les manifestacions de la paraula continguda en aquestes pàgines. També mostra el nombre d'aparicions.
Pot ordenar els resultats en funció de diversos factors, mostrant l'anàlisi lingüística dels resultats. Funciona amb diversos tipus de documents (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS). A més, la cerca es realitza solucionant els dos problemes del basc: cerca segons el lema i només ofereix pàgines en basca, segons ens ha explicat Igor Leturia, responsable del projecte CorpEus i investigador del grup d'I+D de la Fundació Elhuyar.
Utilitzen una eina desenvolupada pel Grup IXA de la Universitat del País Basc/Euskal Herriko Unibertsitatea per a mostrar una forma concreta i totes les possibilitats que es deriven del seu lema. D'aquesta forma se sol·liciten totes les formes a l'API utilitzant l'operador OR. Per exemple, si l'usuari pregunta per la paraula casa, al cercador se li posarà: etxe OR etxea OR a OR... S'ha solucionat el primer problema. Per descomptat, els cercadors no admeten tantes opcions com desitgin, per la qual cosa no s'envien totes les declinacions, però sí prou per a obtenir resultats significatius.
Resultats en basc
Com ja s'ha esmentat anteriorment, no existeix cap cercador que només reflecteixi els resultats en basc. Això és un problema si la paraula que volem trobar es diu igual en altres llengües. És el que ocorre amb paraules tècniques com l'anorèxia, el sulfurós i el byte, amb paraules curtes -- gat i la llet, per exemple - i amb noms propis -- Fiji i Newton, entre altres. De fet, les cerques de paraules tècniques són molt habituals i útils en els corpus en basc, ja que la terminologia no està prou normalitzada en basca.
Per a obtenir únicament els resultats en basc, CorpEus utilitza filtres. Els investigadors del grup d'I+D de la Fundació Elhuyar han penjat com a filtres les paraules més utilitzades en basca, totes elles relacionades amb una AND. Per a conèixer les paraules més utilitzades s'ha utilitzat un corpus.
Desgraciadament, les paraules més utilitzades en basca ( i, és, no, ) són curtes, s'utilitzen amb freqüència en altres llengües i, a vegades, poden ser abreviatures i acrònims. Per tant, no hi ha paraules màgiques, és a dir, paraules que només apareguin en textos en basc i que puguin utilitzar-se com a filtre. És i és la paraula més utilitzada en basca. Però ETA és també un acrònim que s'utilitza sovint en els mitjans de comunicació en moltes llengües. Una altra de les paraules més utilitzades és el verb, però en rus sí.
Per tant, quantes d'aquestes paraules cal utilitzar com a filtre per a realitzar la cerca únicament en pàgines en basca? Segons Igor Leturia, "quants més paraules usis, més concreta serà la cerca i, per tant, menys resultats que no siguin en basca. No obstant això, tampoc mostrarà alguns resultats en basc, ja que alguna o algunes d'aquestes paraules no apareixen en elles".
Alguns límits
CorpEus complementa als corpus fins ara. No obstant això, a més d'avantatges, té alguns desavantatges. D'una banda, com ja s'ha esmentat anteriorment, en tractar-se d'Internet no etiquetada lingüísticament, sempre tindrà certa incertesa amb paraules amb més d'un lema. En la cerca de la paraula pilotari, per exemple, ja que és un datiu de la paraula pilota i una persona que juga a pilota. Un altre inconvenient és que, en gran manera, no s'ha pentinat -sobretot blogs, fòrums, contingut personal, etc.-, encara que pot veure's com un avantatge (per exemple, perquè es dóna un model pròxim al llenguatge oral), també és un desavantatge, ja que pot ser de pitjor qualitat i defectuosa.
D'altra banda, mai es podrà veure tot el que hi ha, ja que normalment els cercadors tenen un límit de mil pàgines, per la qual cosa només es poden mostrar els resultats d'aquestes pàgines. I finalment, CorpEus és dependent dels cercadors: d'una banda, els resultats de l'eina depenen de l'ordre dels seus resultats i, per un altre, dels canvis que realitzen en els APIs i de les limitacions que posen als APIs.
En qualsevol cas, CorpEus ha estat el primer intent que ha unit internet, corpus i basc. Segurament no serà l'última. De fet, en altres llengües també es necessiten corpus cada vegada més grans per a les tecnologies lingüístiques, per al que la tendència a utilitzar Internet està creixent de manera notable.
Pàgina web del projecte CorpEus: http://www.corpeus.org
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia