}

Llengua Basca i Enginyeria Lingüística

2002/11/22 Sarasola, Kepa

En la Setmana de la Ciència i la Tecnologia, el dimecres va ser el dia de les tecnologies de la informació i la comunicació. Llavors el doctor Kepa Sarasola i professor de la UPV va parlar sobre el basc i les tecnologies de la informació i la comunicació (TICS). Ens ha remès un resum de la seva intervenció i volem agrair-l'hi des d'aquí.

Passos per a organitzar la indústria lingüística

A mitjà termini la comunicació entre persones i màquines es podrà realitzar en el nostre idioma, no en el de màquines. No hi ha dubte que el llenguatge natural és la clau de la nostra vida quotidiana. No i quan diem que el seu tractament computacional s'està fent cada vegada més important. Cada dia les bases de dades documentals van creixent, canviant les maneres de relacionar-se amb els ordinadors i digitalitzant tots els sistemes multimèdia. En conseqüència, se'ns fa imprescindible explorar vies per a treballar informàticament el llenguatge natural. Sens dubte, les tecnologies lingüístiques són fonamentals en el que denominem societat de la informació i la comunicació.

Aquestes eines seran limitades i treballaran sempre amb un grau d'error, però no obstant això ens ajudaran molt. D'una banda, seran econòmicament rendibles; és més barat corregir un esborrany de traducció amb errors que traduir tot el text. D'altra banda, aquestes eines permetran millorar la comunicació entre els éssers humans (per exemple, parlar per telèfon amb una persona que utilitza un altre idioma, traduint les paraules una a una per un sistema).

En l'actualitat existeixen diverses aplicacions lingüístiques disponibles: correctors ortogràfics i estilístics, consultes de vocabulari on-line, ajudes a la traducció, cercadors per a Internet, sistemes que converteixen la parla en text, lectors de textos, sistemes d'aprenentatge de segona llengua, etc.

No obstant això, la majoria d'aquesta mena de sistemes funcionen únicament en anglès, no en altres idiomes. Les altres llengües han de fer un gran esforç per a no quedar-se enrere, més encara el basc i la resta de llengües minoritàries.

Si ens fixem en la pàgina d'Internet del servei Natural Language Programari Registry, rebrem informació sobre el programa 167 disponible en l'actualitat per a treballar idiomes (veure figura 1). D'elles, el 75% estan disponibles en anglès i només un 30% poden utilitzar-se en qualsevol idioma. La majoria de les aplicacions que es poden trobar en el mercat tenen com a objectiu llengües “grans”, principalment l'anglès, però també, encara que en segon pla, el francès, l'alemany i l'espanyol.

Figura .

Aplicació de l'enginyeria lingüística

En gairebé 50 anys d'història del PTP s'han produït grans alts i baixos. Als moments eufòrics en els quals es considerava que estaven a punt d'aconseguir objectius fascinants, s'han seguit en diverses ocasions moments pragmàtics per a baixar les oïdes i limitar-los a objectius més baixos però assequibles. El dia que les computadores comprendran l'idioma tal com ho entenem les persones segueix lluny, però això no significa que no es puguin fer aplicacions interessants i molt útils.

No obstant això, per al desenvolupament d'aquestes aplicacions és necessari partir d'una base sòlida. En general, podem representar l'estructura de les tecnologies lingüístiques amb una espècie de piràmide.

En la base d'aquesta piràmide es troben els recursos bàsics necessaris per a treballar en enginyeria lingüística. Aquests recursos ens permetran desenvolupar eines que, una vegada desenvolupades, ens permetin llançar productes comercials que treballin en diferents àrees de l'enginyeria lingüística. Cal tenir en compte, no obstant això, que el camí invers no és possible si no volem construir la casa per la teulada.

Quina infraestructura és necessària per a desenvolupar aplicacions?

Les aplicacions, per descomptat. Vivim en una societat multilingüe i somiem amb eines que ens ajudin a aquest plurilingüisme: traducció automàtica al basc, coneixement de la
parla, correctors d'estil. Però si arribem a crear-los, primer necessitarem una base sòlida. Per exemple, per al desenvolupament d'una eina semi-automàtica que pugui ajudar als traductors, hem de desenvolupar en primer lloc una sèrie de recursos i eines.

En el cas del basc, les principals eines i recursos bàsics que hem desenvolupat fins al moment són:

Eines

  • Una eina que ens converteix en text escrit. Al País Basc existeixen dos o tres grups de recerca que treballen en aquest tema -un a l'Escola d'Enginyeria de Bilbao, el Consell, un altre en la Facultat de Ciències de Leioa.
  • Analitzador morfològic. En totes les llengües és necessari i imprescindible en el basc, ja que és una llengua flexionada i adhesiu. La funció de l'analitzador (i sintetitzador) morfològic
    és conèixer (i compondre) els morfemes que formen la forma de paraula i proporcionar la informació morfològic-lexical corresponent a cada morfema. Aquesta eina es basa en aplicacions com a corrector ortogràfic, reconeixement de caràcters òptic (OCR) i aplicacions més sofisticades com la traducció automàtica. L'analitzador/sintetitzador
    morfològic general per al basc està realitzat i Xuxen és l'essència del corrector ortogràfic en basc.
  • Lematizador/etiquetador. El lematizador/etiquetador deriva de l'analitzador morfològic i proporciona el lema i la categoria d'una forma de paraula per a evitar o reduir l'ambigüitat en el context.
    Encara que la tasca principal és la desambiguació, una altra de les tasques que té un instrument d'aquest tipus és la identificació d'unitats lèxiques plurilingües (locucions, unions de paraules, noms de persones, etc.). ). Les aplicacions dels lematizadores són molt interessants: indexació —en cercadors d'Internet, p. ex.—, terminologia i lexicografia, etc. El lematizador general de basc ha estat denominat EusLem i ja està implantat en diversos cercadors d'internet.
  • Analitzador sintàctic. La funció dels analitzadors sintàctics és conèixer els components sintàctics dels textos: oracions, sintagmes
    nominals, noms i amics, etc. L'anàlisi es basarà en el lèxic i la gramàtica, que definiran les característiques de les paraules i les possibles composicions de les estructures sintàctiques. També és una eina imprescindible en moltes aplicacions lingüístiques, com la traducció automàtica. En el cas del basc, hem elaborat un analitzador sintàctic general de superfície EusMG —, i els estudis que ens donarà l'arbre sintàctic complet estan bastant avançats.

Recursos i fonaments lingüístics

Necessitem primer eines per a desenvolupar aplicacions, però la seva base són els recursos. Les principals són:

  • Base de dades lexical i descripció de la morfologia. La base de dades lexical del basc EDBL recull en l'actualitat prop de 75.000 entrades.
  • Diccionaris electrònics. Sobre la base d'una base de dades lexical general de la llengua es poden agrupar altres eines lexicals com a diccionaris de definició, diccionaris terminològics especialitzats, diccionaris bilingües, etc.
  • Gramàtiques computacionals: descripcions de la sintaxi. En el cas del basc, a més, cal tenir en compte l'estreta relació entre morfologia i sintaxi. Això ens ha portat a integrar el tractament morfosintàctic en l'analitzador morfològic, resultat d'un analitzador morfosintàctic general anomenat Morfeus.
  • Taxonomies semàntiques. No obstant això , quan es tracta de comprendre el llenguatge no és suficient amb la morfologia i la sintaxi, ja que el programa també ha de conèixer la semàntica. Aquestes relacions lèxic-semàntiques s'expressen explícitament en una espècie de xarxa semàntica. Entre les xarxes semàntiques en anglès tenim la coneguda com WordNet i la seva adaptació al basc es diu Euskal WordNet.
  • Corpus textuals. Els corpus textuals són grans masses de text, la principal font d'informació lingüística, i els emprovadors imprescindibles per a les aplicacions, eines i bases abans esmentades

Com s'ha esmentat anteriorment, sense aquests recursos i eines bàsiques, no serem capaces de desenvolupar les aplicacions que perseguim.

En el cas del basc tenim eines i recursos, però si volem veure les tecnologies lingüístiques com l'anglès, encara tenim un llarg camí per recórrer.

Conclusions

Hi ha productes que combinen el basc i el programari. En el Catàleg de Programari del Basc s'han recollit 105. 26 d'ells estan relacionats amb la indústria de la llengua. Això no és res, però sí molt poc; hem de fer un gran esforç perquè el basc no es quedi enrere en aquest món de la societat de la informació.

Cadascuna de les bases lingüístiques que crearem en el nostre camí, cadascuna de les eines i aplicacions haurà d'estar ben dissenyada perquè sigui útil en els següents productes.

Amb l'objectiu de treballar en la recerca i desenvolupament de l'enginyeria lingüística i crear una indústria sòlida a nivell internacional, hem dissenyat una estratègia a mitjà termini basada en 15 anys d'experiència del Grup IXA.

Equips de recerca, indústria i organismes oficials han de coordinar-se per a aconseguir aquest objectiu.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia