}

Euskal testuak euskaraz eskaneatzeko tresna

2003/04/10 Martinez, Edurne

OCRa (Optical Character Recognition), idatzitako edo inprimatutako testu-karaktereen ordenagailu bidezko ezagutza da. Software hau asko erabiltzen da paperean dauden testuak digitalizatzeko eta euskal merkatuan oso zabaldua dago. Baina orain arte ez zegoen euskarari egokituta eta, ondorioz, zuzenketa lan handiak egin behar izaten dira ondoren. ELEKA enpresak garatu duen tresnari esker, euskarazko testuak euskaraz eskaneatu ahalko dira hemendik aurrera.

OCR softwarea erabiltzen dugunean karaktere bakoitza eskaneatzen da argazki bat balitz bezala, eta ondoren eskaneatutako irudi hori aztertu eta karaktere kode arrunt batera itzultzen dela (ASCII esaterako).

OCR sistemaren doitasuna hiru faktorek mugatzen dute: dokumentu originalaren kalitateak, eskanerrak sortu duen irudiaren kalitateak eta azken horren gainean OCR softwareak egiten duen interpretazioak. ELEKAk interpretazio hori euskara erabilita egiteko tresna garatu du.

Eskaneatutako irudia testu bihurtzeko, OCRak irudia osatzen duten puntuak aztertu eta tartean dauden hutsuneak bereizten ditu. Prozesu horri segmentazioa deitzen zaio eta hiru pausotan egiten da: lehenengo lerroak bereizten dira, ondoren hitzak isolatzen dira eta, azkenik, karaktereak bereizten dira. Azkeneko fase hori errazagoa da karaktere guztiak zabalera berekoak badira; asko konplikatzen da, aldiz, karaktereek elkar ukitzen badute, beste puntuazio-markekin nahasten badira edo zabalera karakterearen formaren araberakoa bada.

Euskararen berezitasuna

Karaktere mailako ezagutza egiteko, beharrezkoa da OCR sistemak eskaneatu dugun testuko hizkuntzaren karaktere guztiak ezagutzea. Karaktereekin zalantzarik sortuko balitzaio, berriz, hitza osatu arte itxarongo luke; prozesu horretan baliagarria izango da hizkuntza horretako hiztegi bat edukitzea harekin parekatu ahal izateko. Horrela, probabilitate-joko batez eta hiztegiko hitza den ala ez ebaluatuz, karaktere bat ala bestea hautatuko du sistemak.

Inglesezko hiztegia erabiliz gero, agiria hitzarentzat aged proposatzen du.


Teorian, hizkuntza horretako alfabetoa eta hiztegi bat edukitzea nahikoa da OCRa modu egokian aplikatzeko, baina euskararen kasuan ez da horrela suertatzen. Ezin da hitz posibleen zerrenda oso bat eman, hots, ezin da hiztegi bat sortu, hizkuntza deklinatua izanik, hitz-erro bakoitzetik hitz-forma gehiegi ateratzen baitira. Tresna linguistikoek laguntza handia emango dute pauso honetan; hau da, euskararen ezaugarri nagusiak landuz hobekuntza handiak lor daitezke OCR sistema bat garatzerako. Esaterako, euskaraz egiten diren karaktere- edo hitz-elkarketak (ts, tz, tx, edo marren erabilerak) ez dira hain arruntak Europako gainerako hizkuntzetan.

Gaur egun erabiltzen diren OCR software gehienekin, euskarazko testu bat aztertu nahi dugunean, erdal hizkuntza bateko hiztegia erabili behar izaten dugu. Hala ere, horrelakoetan hobe da hiztegirik ez erabiltzea beste hizkuntza bateko hiztegia erabiltzea baino, testuan akats gehiago ez egitearren. Esaterako, ingelesezko hiztegi bat erabiltzen ari bagara, "sei" hitzaren agerraldi gehienak "set" hitzarengatik ordezkatuko ditu ia seguru. Gaztelaniazkoa erabiltzen ari bagara, berriz, "energia" hitzak "energía" (tildearekin) hitzarengatik ordezkatuko ditu.

Euskararentzako zuzentzailea

ELEKAk euskarazko zuzenketa egiteko plug-in-a garatu du Omnipage programarentzat, gehien erabiltzen den OCR softwarearrentzat, alegia. Programa hori prestatuta zegoen euskararen kasuan ere eskaneatutako irudia karaktere bihurtzeko, baina ez ondoren egin behar den hitzen egiaztapen eta zuzenketa-faserako. ELEKAk euskararen informazio morfologikoa gehitu dio programari, euskarazko testuak ahal den hobekien digitalizatzeko.

ELEKAk garatutako zuzentzaileak helburuak hitza proposatzen du helburuak hitzarentzat.

Hurrengo asmoak Xuxen moduko OCR zuzentzaile bat gehitzea izango da Microsoft Word nahiz OpenOffice testu-prozesadoreentzat, Omnipage erabiltzen ez duten erabiltzaileen esku jarri ahal izateko euskarazko OCR sistema.

Proiektua Eusko Jaurlaritzaren Hizkuntza Politikarako Sailordetzaren laguntzarekin garatu da eta laster izango da kalean.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia