}

CorpEus: Combinant internet, corpus i basc

2007/07/01 Kortabitarte Egiguren, Irati - Elhuyar Zientzia Iturria: Elhuyar aldizkaria

Internet és una gran font d'informació. Pocs ho posen en dubte. En l'actualitat, a més de la cerca d'informació, s'usa cada vegada més per a consultes lingüístiques, corpus, etc. D'aquesta manera, Internet s'està convertint progressivament en una bona font de recursos lingüístics i corpus. Un exemple d'això és CorpEus, una eina que permet utilitzar Internet com un corpus gegant en basc.
CorpEus: Combinant internet, corpus i basc
01/07/2007 | Kortabitarte Egiguren, Irati | Elhuyar Zientzia Komunikazioa
Els resultats del sistema CorpEus tenen aquest aspecte. Resultat de la cerca corresponent a la paraula anorèxia en l'exemple.

Avui dia, totes les llengües necessiten corpus. Els corpus són col·leccions de textos etiquetats en format electrònic i lingüísticament --l'etiquetatge lingüísticament significa que a cada paraula se li atorga el seu corresponent lema, categoria, etc.- i s'utilitzen en la recerca lingüística i en el desenvolupament de tecnologies lingüístiques. Són recursos molt importants per al desenvolupament de tecnologies lingüístiques, elaboració de diccionaris, etc. L'elaboració de corpus és un treball car, laboriós i difícil de mantenir sempre actualitzat. Per això, els corpus en basc són escassos i petits en comparació amb altres idiomes.

A través d'internet

Però aquí està Internet o la teranyina, una enorme col·lecció de textos, a l'abast de tots, molt més text que qualsevol altre corpus en basc. També és un corpus, encara que no està etiquetat lingüísticament. Estaria bé poder consultar-ho o explotar-ho com a corpus. És el que fa CorpEus.

Ja existeixen en la xarxa eines com WebConc o WebCorp, però també hi ha altres eines i cercadors d'Internet que tenen dos problemes amb el basc: d'una banda, només poden buscar una forma concreta i no totes les formes d'una paraula o lema alhora --per exemple, ens interessa buscar terra, terra, terra, terra, etc.-, i d'altra banda, si la forma en basca no és massa sulfúrica, i poden donar resultats en un programari, per exemple.

Cerca de la paraula bàner en corpus CorpEus i WebCorp. CorpEus només mostra els resultats en basc.

CorpEus neix per a superar aquests límits. Aquesta eina, desenvolupada pel grup d'I+D de la Fundació Elhuyar, amb la col·laboració del Grup IXA de la Facultat d'Informàtica de la UPV/EHU, permet utilitzar Internet com corpustzat en basca. I és que Internet és un corpus gegant, molt més gran que qualsevol corpus en basc. A més sempre s'està actualitzant i afegint contingut, per la qual cosa es poden consultar les paraules més recents.

CorpEus utilitza les APIs dels cercadors d'Internet (pot moure's amb Google, Yahoo o Microsoft) per a saber en quina pàgina apareix una paraula --les funcions que ofereix el servei APIs (Application Programming Interface) per a utilitzar-la des d'un altre programa-. A continuació, mostra, en el seu context, totes les manifestacions de la paraula continguda en aquestes pàgines. També mostra el nombre d'aparicions.

Pot ordenar els resultats en funció de diversos factors, mostrant l'anàlisi lingüística dels resultats. Funciona amb diversos tipus de documents (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS). A més, la cerca es realitza solucionant els dos problemes del basc: cerca segons el lema i només ofereix pàgines en basca, segons ens ha explicat Igor Leturia, responsable del projecte CorpEus i investigador del grup d'I+D de la Fundació Elhuyar.

Utilitzen una eina desenvolupada pel Grup IXA de la Universitat del País Basc/Euskal Herriko Unibertsitatea per a mostrar una forma concreta i totes les possibilitats que es deriven del seu lema. D'aquesta forma se sol·liciten totes les formes a l'API utilitzant l'operador OR. Per exemple, si l'usuari pregunta per la paraula casa, al cercador se li posarà: etxe OR etxea OR a OR... S'ha solucionat el primer problema. Per descomptat, els cercadors no admeten tantes opcions com desitgin, per la qual cosa no s'envien totes les declinacions, però sí prou per a obtenir resultats significatius.

Internet és avui una gran font d'informació que, amb les eines de cerca adequades, es pot utilitzar també com un corpus gegant.
D'arxiu

Resultats en basc

Com ja s'ha esmentat anteriorment, no existeix cap cercador que només reflecteixi els resultats en basc. Això és un problema si la paraula que volem trobar es diu igual en altres llengües. És el que ocorre amb paraules tècniques com l'anorèxia, el sulfurós i el byte, amb paraules curtes -- gat i la llet, per exemple - i amb noms propis -- Fiji i Newton, entre altres. De fet, les cerques de paraules tècniques són molt habituals i útils en els corpus en basc, ja que la terminologia no està prou normalitzada en basca.

Per a obtenir únicament els resultats en basc, CorpEus utilitza filtres. Els investigadors del grup d'I+D de la Fundació Elhuyar han penjat com a filtres les paraules més utilitzades en basca, totes elles relacionades amb una AND. Per a conèixer les paraules més utilitzades s'ha utilitzat un corpus.

Desgraciadament, les paraules més utilitzades en basca ( i, és, no, ) són curtes, s'utilitzen amb freqüència en altres llengües i, a vegades, poden ser abreviatures i acrònims. Per tant, no hi ha paraules màgiques, és a dir, paraules que només apareguin en textos en basc i que puguin utilitzar-se com a filtre. És i és la paraula més utilitzada en basca. Però ETA és també un acrònim que s'utilitza sovint en els mitjans de comunicació en moltes llengües. Una altra de les paraules més utilitzades és el verb, però en rus sí.

Els corpus són col·leccions de textos etiquetats electrònicament i lingüísticament.
D'arxiu

Per tant, quantes d'aquestes paraules cal utilitzar com a filtre per a realitzar la cerca únicament en pàgines en basca? Segons Igor Leturia, "quants més paraules usis, més concreta serà la cerca i, per tant, menys resultats que no siguin en basca. No obstant això, tampoc mostrarà alguns resultats en basc, ja que alguna o algunes d'aquestes paraules no apareixen en elles".

Alguns límits

CorpEus complementa als corpus fins ara. No obstant això, a més d'avantatges, té alguns desavantatges. D'una banda, com ja s'ha esmentat anteriorment, en tractar-se d'Internet no etiquetada lingüísticament, sempre tindrà certa incertesa amb paraules amb més d'un lema. En la cerca de la paraula pilotari, per exemple, ja que és un datiu de la paraula pilota i una persona que juga a pilota. Un altre inconvenient és que, en gran manera, no s'ha pentinat -sobretot blogs, fòrums, contingut personal, etc.-, encara que pot veure's com un avantatge (per exemple, perquè es dóna un model pròxim al llenguatge oral), també és un desavantatge, ja que pot ser de pitjor qualitat i defectuosa.

D'altra banda, mai es podrà veure tot el que hi ha, ja que normalment els cercadors tenen un límit de mil pàgines, per la qual cosa només es poden mostrar els resultats d'aquestes pàgines. I finalment, CorpEus és dependent dels cercadors: d'una banda, els resultats de l'eina depenen de l'ordre dels seus resultats i, per un altre, dels canvis que realitzen en els APIs i de les limitacions que posen als APIs.

Membres del grup d'I + D de la Fundació Elhuyar: per l'esquerra, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi i Igor Leturia.
R. Carton

En qualsevol cas, CorpEus ha estat el primer intent que ha unit internet, corpus i basc. Segurament no serà l'última. De fet, en altres llengües també es necessiten corpus cada vegada més grans per a les tecnologies lingüístiques, per al que la tendència a utilitzar Internet està creixent de manera notable.

Pàgina web del projecte CorpEus: http://www.corpeus.org

Kortabitarte Egiguren, Irati
Serveis
233
2007
Uns altres
035
Internet; Tecnologia
Article
Uns altres

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia