Teklaturik gabeko ordenadoreak
1994/10/01 Otaolaurretxi, Jon Iturria: Elhuyar aldizkaria
Garai batean idazmakina mekanikoak (Underwood zaharrak, adibidez) urte askotan erabili ziren. Gero, 70.eko hamarkadan, IBM etxeak bolazko makina elektrikoak atera zituen, eta azkenaldian mikroordenadoreak ugaldu dira erabat testuak idazteko. Ordenadorean izan ere, testu-prozesaketaren bidez gauza asko egin daiteke: zati bat ebaki, beste leku batean itsatsi, letra-motak aldatu, lerro-tartea handiagotu, etab. Dena den, bai makina zaharretan eta bai ordenadorean, beti dago teklatua, inprimatu aurretik testua idazteko.
Gaur egun ordea, nonahi ohiturak berritzen ari zaizkigun honetan, teklaturik gabeko ordenadoreak azaldu dira. Miniaturizazioan egindako aurrerapenei esker, ordenadore fabrikatzaileek lehengoak bezain makina ahaltsuak orrierdiko tamainan eta 2 zentimetroko lodieran sartzea lortu dute. Lantegian, busean, kalean eta edozein tokitan erabil daitezke. Izan ere, 500 gramoko pisura iritsi gabe aparatu hauek pantaila eta prozesurako unitate zentrala baitituzte. Teklatuaren ordez lapitza dute eta horren bidez pantailan zuzenean idatz daiteke (orrian idatziko balitz bezalaxe). Newton izena duelarik, Apple etxeak atera du honelako aparatua. PDA ( Personal Digital Assistant ) da oro har aparatu hauek izendatzeko erabiltzen den hitza, eta ordenadorea, agenda eta oharrak idazteko “orria” (pantaila, alegia) ditu funtsean.
Ordenadore hauek erabiltzeko ez dago gauza handirik jakiteko premiarik; idazten jakitea aski baita. Baina ordenadoreak bere barnean informatikako sistema garatuenak ditu: pantaila sentikorra, RISC prozesadorea, sare neuronalak, etab. Horiek guztiak behar dira edozein umek egin dezakeen lana burutzeko; idatzitako letrak ezagutzeko, alegia.
Eragiketa hori guk egunero automatikoki egiten dugu irakurtzen dugunean, eta intuizioz letrak baino gehiago hitzak identifikatzen ditugu. Hitz ezezaguna topatzen dugunean, lehenbizi dezifratu eta esanahiaz jabetu behar izaten dugu, eta gero identifikatzen dugu erraz. Testuingurutik ezagutzen ditugu karaktereak. Baina horrelakorik ezean, makinak nola jakingo du I ( i maiuskula) ala l (ele minuskula) den? 0 (zero) ala o (bokala) den? Ordenadorea, egia esan, adimenez ez da ongi osatua egoten eta idazkera ezagutzeko arazo latzak izaten dira.
Ordenadoreek horretarako OCR ( Optical Character Recognition ) izeneko programak erabiltzen dituzte. 80.eko hamarkadan hasi ziren programa hauek egiten, etorkizun oparoa ikusi ziotelako. Hainbat banketxe, administrazio-sail eta bulegotan milaka tona paperetan zeuden dokumentuak informatiza zitezkeen, eta bide batez milioika dolarreko merkatua zegoen programagileentzat.
Karaktereak ezagutzeko erabiltzen den edozein teknologiak, lehenbizi numerizazio etapa izaten du. Dokumentua eskaner batetik pasatzen da, hortik irudi informatikoa ateratzeko. Eragiketa horretarako eskanerrak argi-diodoko barra du, dokumentuaren zati guztiak banan-banan argitzen dituelarik. 0,1etik 0,5 zabaleraino zatiak hartzen ditu, eta paperean isladatutako argia eskanerrak analizatu egiten du, zuria ala beltza den erabakitzen duelarik.
Eragiketa hau amaitutakoan, puntu beltz eta zuriz osatutako irudia izaten da, baina puntu horiek ez dute inolako antolaketa logikorik. Ezagutzeko programak erabakiko du gero puntu-multzo horiek zein karaktere diren. Karaktereak identifikatu ondoren, sistema bitarrean kodetuko dira, gero ordenadorean erabili ahal izateko.
Karaktereak identifikatzeko bi sistema daude: matriziala eta topologikoa. Sistema matrizialean, programak ereduen zerrenda edo bilduma du eta dokumentuan aurkitzen duen karaktere bakoitza konparatu egiten du bere bilduman dituenekin. Arazo asko egon ohi da, ordea. Dokumentuko karaktereak elkarrengandik hurbilegi badaude, adibidez, zaila da sistemak banaka trata ditzan. Kasu horretan puntu-multzo handia topatzen du eta bere bilduman duen ezeren antzik ez du.
Gainera jatorrizko dokumentu edo papera kalitate onekoa ez bada (paper txarra, horiztatua, etab. baldin bada), karaktereak identifikatzea zaila da. Horrez gain batzuetan gerta liteke jatorrizko dokumentuan letra-mota berezia erabiltzea ere, eta programak bere bilduman horrelakorik ez edukitzea. Kasu horretan programak karaktere horiek “ikasi” egin behar ditu. Programak ezagutzen ez dituen karaktereak banan-banan erakusten ditu, eta erabiltzaileak teklatutik identifikatu egin behar ditu. Horrela identifikatutako karaktereak bildumara eransten dira, hurrengo batean baliagarri izan daitezen.
Metodo topologikoa, karakterearen definizio logikoan oinarritzen da eta lerro bertikalak, horizontalak, kurbak, marrak, etab. hartzen ditu kontutan. Programak oinarrizko forma hauek ezagutzen ditu eta gero karakterea bera zein den identifikatzen du.
Hurbilketak eta finketak behin eta berriz eginez, programa hauek karaktereen % 96 baino gehiago zuzen identifikatzen dituzte. Horrek idatzitako orrialde normalean batezbeste 180 karaktere ezagutu gabe geratzen direla esan nahi du. Irakurle arrunta huts horietaz erraz konturatzen da eta testua zuzen nola den berehala jakiten du. Baina hutsak dituen testu hori gero informatizatuta erabili behar bada, lortzen den emaitza kasu askotan ezin da onartu. Horregatik, karaktereak hobeto identifikatzeko sare neuronaletara jotzeko joera dago. Sare hauen bidez, esate baterako, “o” karakterea zirkulu perfektua bada, “o” bokala dela identifikatzen da, eta “0” zirkulua perfektua ez bada, zero zifra dela identifikatzen du.
Sare neuronalek, neuronak erabiltzen dituzte oinarrizko elementutzat eta elkarrekin sinapsien bidez konektaturik daude (Ikus Elhuyar. Zientzia eta Teknika. 79. alea. 1994.eko urtarrila. “Sare neuronal artifiziala”. A. Tapia J. Florez). Sistema honen oztopo nagusia, ahalmen informatiko handia behar izatea da, eta gaur egun ditugun mikroordenadoreak ez dira horretara iristen. Gaur egun aplikatzen den irtenbide bat, neurona-sareak eta metodo tradizionalak nahastea da. Programak lehen bueltan metodo matrizial edo topologikoz identifikatzen du, eta ondoren, problemak dituzten karaktereak baino ez dira sare neuronalez tratatzen.
Mikroordenadoreen MS DOS sistema eragilea egiten duen Microsoft etxeak, bere sistema garatu du. Programak karaktereak banan-banan aztertzen ditu, eta dudazkoren bat topatzen duenean, “metakaraktereaz” baliatzen da. Adibidez, “ha(nr)i” (hau da, “n” ala “r” den) zalantza duenean, hiztegi ortografiko batez erabakitzen du.
Idazkera ezagutzeko ordenadore-programek aplikazio anitz dituzte jadanik edozein bulegotan. Aplikazio horietako bat, posta-bulegoetakoa da. Izan ere, gutunetan azalean posta-kodea ipintzen denez gero, banaketa automatikoki egiten da. Bankuetan ere ganbio-letrak identifikatzeko sistema automatikoak erabiltzen dira, baina, jakina, sistema horiek akatsik ezin dute eduki, dirua tartean delako.
Badira ordea, eskuz idatzita sartutako datuak ezagutzen dituzten sistemak ere. Datuak pantaila batean idazten direnez, hauek eskuzko idazkeran izaten diren esfortzu mekanikoak jasateko gai izan behar dute. Pantaila, taula edo PDA hauen bidez informatikaren industriari aro berria zabaldu zaio idazkera ezagutzeko programak medio. Apple etxearen Newton eredua aurrerapauso handia izan da horretarako. 1.000 dolar balio ditu teklaturik gabeko ordenadore honek, baina EO eredua ateratzekotan da eta 2.000-3.400 dolar inguru balioko du. Idazkera ezagutzeko ahalmenaz gain, telefonoa eta faxa integratuak izango ditu, eta horrek guztiak, teklatu eta kablerik gabe funtzionatuko du.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia