}

Euskara eta Ingeniaritza linguistikoa

2002/11/22 Sarasola, Kepa

Zientzia eta Teknologiaren Astean, asteazkena informazioaren eta komunikazioaren teknologien eguna izan zen . Orduan Kepa Sarasola doktore eta EHUko irakasleak euskara eta informazioaren eta komunikazioaren teknologiak (TICS) izan zituen mintzagai. Berak emandako hitzaldiaren laburpena igorri digu eta eskerrak eman nahi dizkiogu hemendik.

Hizkuntza-industria antolatzeko urratsak

Epe ertainean pertsona eta makinen arteko komunikazioa geure hizkuntzan egin ahal izango dugu, ez makinen hizkuntzan. Ez dago zalantzarik lengoaia naturala gure eguneroko bizitzaren giltzarria dela. Ez eta esaten dugunean honen tratamendu konputazionala geroz eta garrantzitsuagoa bihurtzen ari dela. Egunetik egunera, datu-base dokumentalak handitzen doaz, ordenagailuekin harremanak izateko erak aldatzen eta multimedia sistema guztiak digitalizatzen. Horren ondorioz, ezinbestekoa bihurtzen zaigu lengoaia naturala ere informatikoki lantzeko bideak aztertzea. Zalantzarik gabe, hizkuntza-teknologiak funtsezkoak dira informazio eta komunikazioaren gizartea esaten diogun horretan.

Tresna horiek mugatuak izango dira, eta beti errore-maila batekin lan egingo dute, baina, hala ere, laguntza ederra emango digute. Alde batetik, ekonomikoki errentagarriak izango dira; merkeago da erroreak dituen itzulpen zirriborro bat zuzentzea, testu osoa itzultzea baino. Beste alde batetik, tresna horiei esker gizakien arteko komunikazioa hobetu ahal izango da (adibidez, beste hizkuntza darabilen pertsona batekin telefonoz hitz egitea, hitzak banan-banan sistema batek itzultzen baditu).

Gaur egun badira zenbait hizkuntza-aplikazio eskuragarri: ortografia- eta estilo-zuzentzaileak, hiztegi-kontsultak on-line, itzulpen-laguntzak, Interneterako bilatzaileak, hizketa testu bihurtzen duten sistemak, testuak irakurtzen dituztenak, bigarren hizkuntza ikasteko sistemak eta abar.

Baina horrelako sistema gehienek ingeleserako balio dute, ez beste hizkuntzetarako. Beste hizkuntzek ahalegin handia egin behar dute atzean ez gelditzeko, are gehiago euskarak eta gainerako hizkuntza txikiek.

Natural Language Software Registry zerbitzuak Interneten duen orriari begiratzen badiogu, egun hizkuntzak lantzeko erabilgarri diren 167 programaren berri jasoko dugu (ikus 1. irudia). Horietatik % 75 ingeleserako erabilgarri dira, eta % 30 bakarrik erabil daitezke edozein hizkuntzarekin. Merkatuan aurki daitezkeen aplikazio gehienek hizkuntza "handiak" dituzte helburu —ingelesa, batik bat— baina baita, bigarren mailan bada ere, frantsesa, alemana eta espainiera ere.

1.irudia.

Ingeniaritza linguistikoaren aplikazioa

LNParen ia 50 urteko historian gorabehera handiak izan dira. Helburu liluragarriak lortzear zeudela uste zen une euforikoei, belarriak jaitsi eta helburu apal baina eskuragarriagoetara mugatzeko une pragmatikoak jarraitu zaizkie behin baino gehiagotan. Konputagailuek hizkuntza pertsonok ulertzen dugun moduan ulertuko duten eguna urrun da oraindik, baina horrek ez du esan nahi aplikazio interesgarri eta oso baliagarriak egin ezin direnik.

Aplikazio horien garapenerako, ordea, oinarri sendo batetik abiatu beharra dago. Oro har, hizkuntza-teknologien egitura, piramide moduko batez irudika dezakegu.

Piramide horren oinarrian ingeniaritza linguistikoan lan egiteko beharko ditugun oinarrizko baliabideak egongo dira. Baliabide horiei esker, tresnak garatzeko moduan izango gara, eta behin horiek garatuta, ingeniaritza linguistikoaren hainbat arlotan lan egiteko moduko produktu komertzialak kaleratu ahal izango ditugu. Kontutan izan behar da, ordea, alderantzizko bidea ezin dela egin, etxea teilatutik eraiki nahi ez badugu.

Aplikazioak garatuko badira, zer-nolako azpiegitura behar da?

Aplikazioak ditugu helburu, noski. Gizarte eleanitz batean bizi gara, eta eleaniztasun horretan lagungarri izango zaizkigun tresnekin egiten dugu ametsa: euskararako itzulpen automatikoa, hizketaren ezagutza,
estilo-zuzentzaileak ere nahi ditugu. Baina horiek sortzera helduko bagara, oinarri sendo bat beharko dugu lehenik. Esaterako, itzultzaileentzat lagungarri izan daitekeen tresna semi-automatiko baten garapenerako, hainbat baliabide eta tresna garatu beharko ditugu lehenik.

Euskararen kasuan, hauek dira orain artean garatu ditugun oinarrizko tresna eta baliabide nagusiak:

Tresnak

  • Ahozkoa testu idatzi bihurtuko digun tresna. Euskal Herrian badira gai honetan diharduten bizpahiru ikertalde -Bilboko Ingeniaritza Eskolan bat, Aholab izenekoa, Leioako Zientzia Fakultatean beste bat.
  • Analizatzaile morfologikoa. Hizkuntza guztietan beharrezkoa eta euskaran ezinbestekoa, hizkuntza flexionatu eta eranskaria baita. Analizatzaile (eta sintetizatzaile) morfologikoaren zeregina
    hitz-forma osatzen duten morfemak ezagutzea (eta konposatzea) da, eta morfema bakoitzari dagokion informazio morfologiko-lexikala ematea. Erreminta hau oinarri da hainbat aplikaziotan, hala nola, zuzentzaile ortografiko, karaktere-ezagutzaile optiko (OCR) eta aplikazio sofistikatuago guztietan —itzulpen automatikoa,
    adib.—. Euskararako analizatzaile/sintetizatzaile morfologiko orokorra egina dago, eta Xuxen euskarazko zuzentzaile ortografikoaren funtsa da.
  • Lematizatzaile/etiketatzailea. Lematizatzaile/etiketatzailea analizatzaile morfologikotik eratortzen da, eta hitz-forma baten lema eta kategoria ematen ditu, anbiguotasuna saihestu edo gutxitzearren testuingurua aintzat hartuz.
    Zeregin nagusia desanbiguazioa bada ere, beste egitekorik ere badu halako tresna batek, esate baterako, hitz anitzeko unitate lexikalen identifikazioa (lokuzioak, hitz-elkarketak, pertsona-izenak, etab.). Oso aplikazio interesgarriak dituzte lematizatzaileek: indexazioa —Interneteko bilatzaileetan, adib.—, terminologia eta lexikografia, etab. Euskarako lematizatzaile orokorrari EusLem izena eman diogu, eta ezarrita dago jadanik Interneteko hainbat bilatzailetan.
  • Analizatzaile sintaktikoa. Analizatzaile sintaktikoen zeregina testuetako osagai sintaktikoak ezagutzea da: perpausak,
    izen-sintagmak, izen-lagunak, etab. Analisiaren oinarria lexikoa eta gramatika izango dira, hitzen ezaugarriak eta egitura sintaktikoen osaketa posibleak definituko dituztenak. Hau ere ezinbesteko tresna dugu hizkuntza-aplikazio askotan, itzulpen automatikoan, esate baterako. Euskararen kasuan, azaleko analizatzaile sintaktiko orokorra egina dugu — EusMG —, eta zuhaitz sintaktiko osoa emango digunaren ikerbideak nahiko aurreratuta daude.

Hizkuntza-baliabideak eta -oinarriak

Aplikazioak garatzeko tresnak behar ditugu lehenik, baina horien oinarria baliabideak dira. Hona nagusiak:

  • Datu-base lexikala eta morfologiaren deskribapena. EDBL , euskararen datu-base lexikalak 75.000 sarrera inguru biltzen ditu egun.
  • Hiztegi elektronikoak. Hizkuntzaren datu-base lexikal orokorra oinarri dela, horren inguruan biltzen ahal dira beste zenbait tresna lexikal ere: definizio-hiztegiak, hiztegi terminologiko berezituak, hiztegi elebidunak, eta beste.
  • Gramatika konputazionalak: sintaxiaren deskribapenak. Euskararen kasuan, gainera, morfologia eta sintaxiaren arteko lotura estua hartu behar da kontuan. Horrek eraman gaitu tratamendu morfosintaktikoa analizatzaile morfologikoan integratzera; Morfeus izeneko analizatzaile morfosintaktiko orokorra da emaitza.
  • Taxonomia semantikoak. Hizkuntza ulertzea xede denean, baina, ez da aski morfologia eta sintaxiarekin, semantikaz ere jakin behar izaten baitu programak. Erlazio lexiko-semantiko horiek sare semantiko moduko batean adierazten dira esplizituki. Ingelesezko sare semantikoen artean ezagunena-edo WordNet izenekoa dugu, eta haren euskararako egokitzapenari Euskal WordNet deitzen diogu.
  • Testu-corpusak. Testu-corpusak testu-masa handiak dira, informazio linguistikoaren iturri nagusia, eta gorago aipatu aplikazio, tresna eta oinarrietarako probaleku ezinbestekoak

Lehen esan bezala, oinarrizko baliabide eta tresna hauek gabe ez gara izango gai helburu ditugun aplikazioak garatzeko.

Euskararen kasuan, baditugu hainbat tresna eta baliabide, baina hizkuntza-teknologiak ingelesaren pare ikusi nahi baditugu, badugu oraindik egin beharreko bide luze bat.

Ondorioak

Badira hainbat produktu euskara eta softwarea uztartzen dituztenak. Euskararen Software Katalogoan 105 bildu dira. Horietarik 26 lotuta daude hizkuntzaren industriarekin. Hori ez da hutsaren hurrengoa, baina bai oso gutxi; ahalegin handia egin behar dugu informazioaren gizarteko mundu honetan euskara atzean ez gelditzeko.

Gure bide horretan sortuko dugun oinarri linguistiko bakoitza, tresna eta aplikazio bakoitza ondo diseinatu beharko dugu ondorengo produktuetan erabilgarria izan dadin.

Ingeniaritza linguistikoaren ikerketan eta garapenean lan egiteko eta nazioartean puntako mailan ibiliko den industria sendoa sortzeko, epe erdirako estrategia diseinatu dugu IXA taldearen 15 urteko eskarmentuan oinarritua.

Ikerketa-taldeek, industriak eta erakunde ofizialek koordinatu egin behar dute helburu hori lortzeko.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia