Recursos lingüístics en Internet

1998/12/01 Artola, Xabier Iturria: Elhuyar aldizkaria

Els programes que realitzen el tractament del llenguatge a través de l'ordinador són cada vegada més nombrosos. La comunicació amb els ordinadors a través de les llengües naturals (en basca en el nostre cas) serà cada vegada més freqüent. D'altra banda, l'ordinador es converteix en una persona especial per a pal·liar els desplaçaments d'aquesta societat multilingüe entre les llengües.

Pàgina web d'aplicacions del grup: http//ixa.si.chu.es/tresna/

A més, l'enorme avanç experimentat en les telecomunicacions (sobretot els fenòmens d'Internet) ha incrementat la necessitat d'un tractament automàtic del llenguatge. De fet, a través de la xarxa es pot obtenir molta informació, però no és fàcil trobar aquesta dada concreta que necessitem. En aquest treball el tractament lingüístic no és més que auxiliar.

El camp de recerca sobre el tractament automàtic del llenguatge el denominem Processament del Llenguatge Natural (LNP). S'està creant tota una nova indústria entorn de la llengua, l'objectiu de la qual és tractar el llenguatge a través de l'ordinador. Ja es parla de tecnologia lingüística, enginyeria lingüística. Els seus principals camps d'aplicació són quatre: i) Edició de textos o gestió textual (correctors ortogràfics i estilístics, ajudes a la creació i ús de textos multilingües, consultes de diccionaris, ...); ii) Tractament i gestió de grans masses de text (cerca de conceptes, classificació documental, extracció d'informació i creació automàtica de textos); iii) Traducció automàtica o traducció assistida, i iv) Coneixement i creació de la llengua.

En el grup IXA hem treballat durant deu anys en aquesta matèria, sempre des del punt de vista del basc. Sumant els membres de la Facultat d'Informàtica de Donostia de la UPV-EHU i els d'UZEI som un total de 21 persones. La nostra estratègia mai ha estat fer un sistema molt complex, per exemple, fer un sistema de traducció. Hem preferit començar per objectius senzills però fonamentals, com la morfologia, entesa com un problema massa simple per a altres llengües, i construir en aquest camí unes bases lingüístiques àmplies i sòlides.

Més tard hem escomès projectes més complexos com la lematització, la sintaxi o l'ús de diccionaris, però treballar sobre una base àmplia construïda amb anterioritat ens estalvia temps i dóna consistència a nous productes. Atès que els nostres recursos lingüístics poden ser també d'utilitat per a altres col·lectius, decidim difondre la “exposició electrònica”, que és l'objectiu del projecte que presentem en aquest article. El projecte va ser aprovat en la convocatòria de 1997 de projectes de recerca Universitat-Empresa del Govern Basc (referència UE97/8) i es desenvoluparà durant els anys 1998-99.

Els recursos que volem situar en Internet a mitjà termini són la base de dades lexical, el corrector ortogràfic, l'analitzador morfològic, el lematizador i l'analitzador sintàctic. Però en aquest primer pas només apareixeran les tres primera.El projecte està en marxa i ja es poden realitzar proves amb corrector ortogràfic en l'adreça http://ixa.si.ehu.es/tresna (veure les pantalles d'ordinador que apareixen en aquest mateix article o veure-les directament en el teu ordinador).

Revisor d'Internet dirigint el text: I quan els micos van baixar pel pont es van convertir en homes.

Prova d'introduir les teves paraules desconegudes en el teu vocabulari personal i comprova que a partir d'aquí també coneixerà altres formes de declinació d'aquestes paraules.

Per a finalitzar, explicarem què és la Base de dades Lexical del Basc (EDBL) que s'esmenta en nom del projecte. La base de dades lexical és un gran magatzem de lèxic. Es tracta d'una espècie de diccionari electrònic, concebut per al tractament automàtic de la llengua i, per tant, organitzat tenint en compte les exigències d'aquest objectiu d'automatitzar el tractament de la llengua. Això exigeix, per descomptat, que l'organització del lèxic es realitzi tenint en compte l'ús que es farà posteriorment, i una sistematització de la descripció lèxica: utilització d'un sistema de categories d'ingressos unificat i homogeni, la definició de les característiques necessàries per a descriure correctament els elements de cada categoria, etc.

En el cas del basc, la necessitat d'aquesta mena de magatzem de lèxic va sorgir quan comencem la preparació del corrector ortogràfic Xuxen en el grup IXA. Com s'ha comentat anteriorment, aquest corrector era més bàsic per nosaltres com a subproducte de l'analitzador morfològic, i tampoc vam voler organitzar la base de dades lexical com un diccionari o una simple llista de paraules per a aquest corrector, sinó com a base lexical sòlida per a qualsevol altra eina o aplicació en l'àmbit del tractament automàtic del basc en el futur. I així va sorgir l'EDBL, la Base de dades Lexical del Basc, que des de llavors ha estat la base lexical per als nostres treballs, que s'ha anat actualitzant constantment, i que avui o demà obrirà les seves portes a una comunitat més àmplia, amb la finalitat que les bases es vegin també aprofitades per uns altres.

A l'hora de dissenyar la base de dades se li va donar gran importància, doncs, a ser prou flexible per a acceptar possibles ampliacions futures i, en particular, a descriure de la forma més neutral possible la informació lingüística continguda en aquesta, és a dir, de la manera més independent possible dels formalismes o teories lingüístiques.

EDBL agrupa en l'actualitat prop de 70.000 entrades, classificades en tres grans apartats: entrades de diccionari (noms, adjectius, verbs, etc.). ), verbs (formes verbals jugades) i morfemes no independents (sufixos, prefixos, etc. ).

Tres taules de l'entrada d'opinió (nom) d'EDBL (introducció de vocabulari morfotáctica i variant d'opinió).

Es registren les característiques o atributs predefinits de cada categoria d'entrada, descrivint en tots els casos, com ja s'ha esmentat anteriorment, la morfologia d'entrada (informació morfotáctica) mitjançant un formalisme a dos nivells àmpliament utilitzat en la morfologia computacional.

Actualment l'EDBL està sota un sistema comercial de gestió de bases de dades que ofereix al lingüista les facilitats habituals en aquesta mena de sistemes, ja que són els lingüistes els seus principals usuaris: una interfície agradable per al treball, facilitats per a mantenir la informació al dia i garantir la seva consistència, possibilitats de filtrar adequadament la informació per a les aplicacions necessàries, etc. La base de dades s'ha convertit també en una eina imprescindible per a mantenir actualitzats els últims esdeveniments esdevinguts en el procés d'unificació del basc, especialment les decisions d'Euskaltzaindia, i una de les tasques importants que pot exercir en el futur EDBL pot ser ser ser l'eina que doni compte de les últimes decisions.

  • Títol del projecte: Entorn d'ús públic de la Base de dades Lexical del Basc (EDBL).
  • Objectiu del projecte: Difusió en Internet de l'ús d'alguns productes del grup IXA per a la seva incorporació al basc.
  • Director: Xabier Artola Zubillaga.
  • Equip de treball: Grup IXA E. Agirre, I. Aldezabal, I. Alegria, O. Ansa, X. Arregi, J.M. Arriola, X. Artola, A. Díaz d'Ilraza, N. Ezeiza, K. Gojenola,J.M. Intxausti, M. Lersundi, A. Maritxal,M. Maritxalar, M. Oronoz, K. Sarasola, A. Soroa, R. Urizar i M. Bedoll.
  • Departament: Llenguatges i Sistemes Informàtics
  • Centre: Informàtica de la UPV-EHU (Donostia)

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia