}

Ordenadorea lagun, testu-zuzenketan

1988/12/01 Artola, Xabier Iturria: Elhuyar aldizkaria

Edozein testuk –honek ere bai, noski– izan du argitara aurretik zuzentze prozesu bat edo beste. Denok ezagutzen ditugu zerbait inprimarazitakoan inprimategitik buel-tan etorri ohi diren behin-behineko proba direlako horiek; behin-betiko alearen inpri-maketari ekin aurretik egileak edo, kontu handiz erreparatu eta txukun-txukun zuzen-du beharrekoa alegia. Hala ere, askotan –beti ez esatearren– zer edo zer itzuri egiten zaio zuzentzaile horren begiratuari, eta nekez aurkituko dugu inolako hutsik gabeko testurik.
MINITEL-AREN BIDEZKO KONEXIOA
1. Terminala piztu.
2. Telefonoa altxa eta seinalatutako zenbakia markatu.
3. Dei-tonua(k) hartzen da, altua eta baxua.
4. "KONEXIO/AMAIERA" tekla sakatu. "KONEXIOA EGINA" agertzen da pantailan.
5. Telefonoa eseki.

Gaur egun, gero eta gehiago, testuak konputagailuratu egiten dira testu-prozesaketarako programa baten laguntzaz, programa horiek ondorengo zuzenketa- eta orrazte-lanetarako izugarrizko erraztasun eta laguntzak eskaintzen dituztelarik.

Euskarazko testugintzan, edozein hizkuntzatako arazoez gain (tekleatze-erroreak eta abar) bestelako zenbait ere ageri dira zuzenketaren alderditik begiratuta. Horra hor, besteak beste, testua makinaratu edo inprimategian konposatzen duen pertsona alfabetatu gabea –edo erdalduna– izateak ekarri ohi dituen era guztietako hutsegiteak, hizkuntzaren egungo batasun-egoera bereziari dagozkion arazoak, azken urteotan euskara hainbat eta hainbat eremu berritara zabaldu delarik horrek berekin dituen problema guztiak, eta abar eta abar.

Guzti hori dela eta, oraindik era askotako "irregulartasunak" ageri dira euskarazko testuetan. Gero eta gutxiago, hala ere. Ba bait dirudi arauak ez jakiteari edo axolagabekeriari zor zaizkion hutsak gero eta urriago direla. Baina zuzenketaren premia hor dago eta hor egongo da.

Eta ordenadoreak zertan lagun dezake? Lehen esan dugu gaur eguneko testugintzan ordenadorea gero eta maizago erabili ohi dela testu-prozesaketarako programek eskaintzen dituzten erraztasunak direla eta. Erraztasun horien artean besteak beste, hauek ditugu: testuaren formatua egokitzeko, testu-zatiak batetik bestera aldatzeko, testu osoa berridazten ibili gabe testu-puska berriak txertatzeko eta abarretarako laguntzak. Horrez gain, zenbait hizkuntzatan –batez ere ingelesez, jakina, baina baita gertuagoko erdaretan ere– idazten dugunaren ortografia automatikoki egiaztatzeko aukera ematen duten sistemak agertzen ari dira. Sistema horietako batzuk urrutirago joan nahi dute, puntuazio, sintaxi eta estiloaren aldetiko zuzenketan ere laguntzak eskaintzen dituztelarik.

Beraz, testu-prozesaketarako programen menuetan zuzenketa ortografikoa egiteko aukera izango dugu hemendik aurrera, baina bistakoa da laguntza hori emango duen sistema ez dela hizkuntza guztietarako; hizkuntza bakoitzerako bertsio desberdina eduki beharko duela baizik. Eta euskararentzat, nere ustez, hemen egiten ez badugu jai daukagu, puska baterako behinik behin. Aurki izango ditugu –dagoeneko badira– laguntza hori eskainiko diguten sistemak, beren erdarazko jatorrizkoetan aukera hori ematen badute ere.

Goazen bada zuzenketa automatizatu nahi honek zer-nolako arazoak aurkezten dituen ikustera. Oraingoz ortografiaren alorrera mugatuko gara.

Bi motatako programak edo sistemak dauzkagu: alde batetik, ortografi egiaztatzaileak , hau da, testua emanik testu horretan oker idatzita ageri diren hitzak ezaguterazten dizkigutenak, ondoren geronek zuzendu beharko ditugularik. Bestetik, ortografi zuzentzaileak ditugu edo ortografi egiaztaketa egiteaz gain zuzenketa ordenadorearekiko elkarrekintzan egiteko aukera emango digutenak, horretarako oker idatzitako –edo okertzat jotako– hitzaren ordezko posibleak ere proposatuz.

Arlo honetan estreinako ikerlanak 1957koak dira. Lehen produktu bukatua SPELL izeneko programa (1971) da.

Aurren-aurreneko programen zeregin bakarra, testu bateko hitz desberdinen zerrenda (agerpen-maiztasunaz ordenatua, jeneralean) ematea zen. Gero pertsonaren batek pazientzia handiz zerrenda hori aztertu egingo zuen eta oker idatzitako hitzak topatu (kontuan izan okerrak zerrendaren azken aldean agertuko zirela beren maiztasun txikia zela medio). Ondorengo programak hitzen nolabaiteko azterketa egiten hasi dira (digrama eta trigramen azterketan oinarriturik batez ere, hau da, letra-bikote eta letra-hirukote desberdinek hizkuntza bakoitzean dituzten maiztasun desberdinak kontutan hartuta kalkula bait liteke hitzaren berezitasun-indize bat) oker idatzita egon litezkeenak bakarrik zerrendatuko dituztelarik. Baina gaur egungo programen berezitasunik behinena, hiztegia erabiltzen duten programak izatearena da. Hau da, hitz bat zuzen idatzita dagoen ala ez jakiteko, hiztegira jotzen da: hitza han aurkitzen bada ontzat ematen da eta bestela ez.

Hiztegiaren erakuntza oso garrantzi handikoa da sistema hauetan. Izan ere, hiztegiaren neurria erabaki funtsezkoa gertatzen bait da: hiztegi horretan zer sartu eta zer ez?. Gehiegi pentsatu gabe onena "dena" sartzea dela ematen du. Baina berehala konturatuko gara hori egitearen arriskuaz: hitz zaharkitu asko edukiko ditu hiztegi horrek, alferrik gehienak, eta oker idatzitako hitz arruntak ontzat emateko posibilitatea handiagoa izango da. Euskara, adibidez:

'aueta' hitza hiztegian izanik

aueta

(BN-gar), augeta (BN-sal) serenata, alborada / aubade, sérénade (Azk.)

'

auetako' hitza onartu egin beharko du, 'hauetako' idatzi ordez hutsegitea dela askoz seguruago izanik ere.

Hiztegi urriegiaren akatsak ere nabarmenak dira, ongi idatzitako hitzak (hiztegian ez daudela eta) txartzat jotzeko duen arriskuarekin.

Honetaz gain, sistema hauen eraginkortasunari begira bistakoa da egin beharreko lanik kritikoenetako bat hiztegiko bilaketa horixe dela, eta beraz, hiztegiaren neurria eta antolaketa oso faktore garrantzizkoak gertatzen dira. Bilaketan denbora irabazteko usuen erabilitako estrategia, maiztasunik handieneko hitzen tratamenduan datza: azterketa estatistiko baten bitartez hitz horiek zeintzuk diren jakingo dugu eta hiztegian egin beharreko bilaketa bi mailatan bereiztuko da: lehenik ea testuko hitza maiztasunik handieneko horien artean dagoen begiratuko da (bilaketa hau aguro burutuko da, hainbeste hitz ez dira eta), eta ez badago (eta orduan bakarrik) hiztegi orokorrera joko da. Maiztasun handieneko hitzen azpihiztegi horretan 250etik 500era bitarteko hitz-kopurua eduki liteke, testuko hitzen %50 gutxi gorabehera horien artekoa suertatzea espero delarik.

Orainarte, ortografi egiaztatzaileetara mugatu gara. Baina gaur egun salgai dauden programa gehienek elkarrekintzazko zuzenketarako laguntza ere ematen dute: ortografi zuzentzaileak ditugu. Hauen berezitasuna, lan egiteko eran datza. Programak ortografiaren egiaztapena egiten duen bitartean erabiltzailea pantaila aurrean ari da. Programak hutsen bat topatu orduko, pantailan hitza nabarmen erazi eta erabiltzaileari hitz horri zer egin behar dion galdetuko dio. Orduan erabiltzaileak aukera desberdinak ditu: hitza zuzendu dezake edo sistemari hitz horren ordezko posibleak eman diezazkion eskatu eta gero horien arteko bat –zuzena, noski– hautatu. Hitza bere horretan uzteko aukera ere ez zaio ukatuko. Gainera, sistema gehienek maneiatzen dute erabiltzailearen hiztegi delako bat, non erabiltzaileak sistemak ezagutzen ez duen eta berak erabili ohi duen zenbait hitz sar dezakeen. Handik aurrera berriro agertutakoan, sistemak ez dizkio okertzat hartuko.

Guzti honen aurrean, bada zenbait hilabete euskararentzako zuzentzaile ortografikoa lehen helburutzat duen proiektuari ekin zaiola. Proiektu honetan partaide APIKA informatika-eremuko zerbitzu-enpresa, UZEI eta Donostiako Informatika-Fakultateko lengoaia naturalaren prozesamenduaren alorrean diharduen taldea dira. Esan bezala, talde honen lehen asmoa ortografi zuzentzaile elkarreragilea ordenadorearen laguntzaz euskaraz idazten duen orori eskaintzea litzateke. Garbi gera bedi oraingoz ortografiaz besterik ez garela ari eta, beraz, hitz bat (zuriguneen arteko karaktere-segida) ontzat emateko karaktere-segida horri erreparatzen zaiola, hitz horren testuinguruaz ezertarako jabetu gabe. Nere eritziz, euskarazko testuetan ageri diren huts asko eta asko honela zuzentzea ez da posible, sarri sintaxiari edo besteri dagozkion hutsak dira eta.

Esaterako, iraksakuntza, aztelehena, edo emen idatziz gero okertzat joko dira, baina ez da inolako hutsik harrapatuko zu esan didazu bezala, gaur astelehena da bezalako esalditan; hitzak banan-banan hartuta onesteko modukoak bait dira. Horrelakoei antzeman ahal izateko, hiztegi-informazio ortografiko soilaz aparte bestelako informazio asko da beharrezkoa; perpausaren analisi morfosintaktikoak emandakoa besteak beste. Utz dezagun bada hau geroxeagorako; ez bait da lan makala, nahiz eta egunen batean horri ere heldu beharko zaion.

Gorago proiektuan partaide den lengoaia naturalaren tratamenduaren alorreko taldea aipatu dugu. Informatikaren munduan erabili ohi diren lengoaia artifizialak direla medio, hizkuntza arruntari buruz hitz egiteko lengoaia natural delako deitura bitxia sortu da. Hizkuntzaren ulermena eta hizkuntzaren sorkuntza automatikoaz diharduen arlo honen garrantzia gero eta handiagoa da. Ordenadoreekin lengoaia naturalez (euskaraz gure kasuan) komunikatu ahal izateak berez duen garrantzia du alde batetik, eta hizkuntzaren beraren ezagumendu teorikoari ordenadoreen logika eta sistemetara egokitze horrek egiten dion ekarpena bestetik.

Lengoaia naturalaren prozesamenduaren lan-eremu honetarako ere zenbait tresna eta sistema orokor egonagatik, hizkuntza bakoitzak behar du bere azpiegitura berezia: oinarri-oinarrizkoak edozein hizkuntzatan analizatzaile morfologiko eta sintaktiko automatikoak dira. Ondoren etorriko dira semantikaren eta pragmatikaren arazo nahasiagoak.

Euskara bezalako flexio-maila handiko hizkuntza batek, problema morfologiko bereziak aurkezten ditu bere tratamendu automatikoari aurre egin nahi zaionean. Problema horiek ebatziz gero ordea, morfologi mailako analisitik beretik lortzen den informazioa askoz ere aberatsagoa gertatzen da morfologia xinpleagoa duten beste hizkuntza batzuetan baino. Informazio hori garrantzi handikoa da berriz analisiaren ondorengo mailetan, hau da, hizkuntzaren sintaxia eta semantika aztertu nahi direnean. Gurea bezalako hizkuntzetan analisi morfologikoa da hizkuntzaren tratamendurako edozein sistemak ebatzi beharko duen lehen arazoa.

Bestetik, zuzentzaile ortografikoak behar duen hiztegiaren neurrien garrantziaz aritu gara lehenago. Bistakoa da euskara bezalako hizkuntzetan hitz bakoitza bere flexio guztiekin (eta deklinabide-mailako flexioez besterik ez gara ari) hiztegiratuz gero hiztegia ikaragarri haziko dela, bertan bilaketak egiteko denbora ere luzegoa izanik. Beste hizkuntza batzuetan (pentsa adibidez ingelesaren morfologian) arazo hau gutxietsi egin dute eta batzuetan hitz-forma guztiak hiztegian sartu izan dituzte. Morfologia konplexuagoko hizkuntzetan ordea, problema honi behar den bezala heldu behar zaio eta hiztegian lemak besterik ez dira edukiko, tratamendua zailago gertatuko bada ere.

Esandakoaren arabera, hitz baten zuzentasun ortografikoa egiaztatzea ez da hitz hori hiztegian dagoela ziurtatze soila izango. Izan ere, hitz osoak ez bait du hiztegian zer egonik. Hitzaren erroa lemen hiztegian dagoela gehi lema horri lot lekizkiokeen atzizkien segida duela atzetik izango da egiaztatu beharrekoa, hitza ontzat emango bada. Beraz hitzaren zuzentasuna egiaztatzeko hitzaren analisi morfologikoa (oso-osoa ez bada ere) burutuko da.

Ikusten denez, analizatzaile morfologikoa eta zuzentzaile ortografikoaren arteko lotura izugarri estua da eta batabestearen azpiproduktu gisa ikus daiteke. Bi horiek izan nahi lukete bada, aipatutako talde honen lehen emaitzak; euskararen tratamendu automatikoaren bidea urratzeko lanean abiapuntu hain zuzen.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia