OCR en basc
2003/05/01 Martinez Iraola, Edurne Iturria: Elhuyar aldizkaria
Les vies d'accés, anàlisi i recollida d'informació van canviant. En un temps la millor manera de rebre la informació era el llibre imprès, però avui dia, per contra, exigim alternatives com la cerca, còpia i moviment de la informació, la classificació, modificació i manipulació d'aquesta. Totes elles són opcions que no ens donaven els textos tradicionals coneguts fins ara, però en la societat digital actual les coses són molt diferents.
L'ús de l'OCR està molt estès en el mercat basc, si bé això suposa una important labor de correcció posterior. A Euskal Herria tenim molts periòdics, revistes i editorials, i en la majoria dels casos el seu fons documental no està guardat en format digital. La difusió d'Internet, no obstant això, ha fet necessari que tots aquests fons documentals estiguin degudament digitalitzats i recollits per a organitzar sistemes de catalogació i cerca més ràpids.
L'OCR (Optical Character Recognition) és el coneixement per ordinador dels caràcters de text escrits o impresos. Això significa que quan usem el programari OCR escanegem cada caràcter com si fos una foto, i després analitzem aquesta imatge escanejada i la tornem a un codi de caràcters normal (per exemple, ASCII).
La precisió del sistema OCR està limitada per tres factors: la qualitat del document original, la qualitat de la imatge creada per l'escàner i la interpretació que sobre aquest últim fa el programari OCR. Aquí parlarem de l'última.
El que fa l'OCR, en poques paraules, és convertir la imatge escanejada en text. Per a això, analitza els diferents punts que componen la imatge i distingeix els buits que hi ha entre ells. Aquest procés es denomina segmentació i es realitza en tres passos: se separen les primeres línies (segmentació en línia), es realitza l'aïllament de les paraules (segmentació de paraules) i finalment es distingeixen els caràcters (segmentació de caràcters). Aquesta última fase és més senzilla si tots els caràcters són de la mateixa amplària, i es complica molt si es toquen entre si, si es barregen amb altres marques de puntuació o si l'ample depèn de la forma del caràcter.
Per a realitzar el coneixement de caràcter és necessari que el sistema OCR conegui tots els caràcters de l'idioma del text escanejat. Si sorgissin dubtes amb els caràcters, esperaria que es completi la paraula, procés en el qual serà útil disposar d'un diccionari d'aquesta llengua per a poder equiparar-la. Així, mitjançant un joc de probabilitats i avaluant si es tracta d'una paraula del diccionari, el sistema seleccionarà l'un o l'altre caràcter.
Pel que sembla, l'existència d'un alfabet i un diccionari en aquesta llengua seria suficient per a aplicar correctament l'OCR, però en el cas del basc no és així. En aquest cas no es pot proporcionar una llista completa de paraules possibles, és a dir, no es pot crear un diccionari, ja que a l'ésser una llengua declinada, de cadascuna de les arrels de paraules s'extreuen massa formes de paraula. Les eines lingüístiques seran una gran ajuda en aquest pas, és a dir, treballant les principals característiques del basc podem aconseguir grans millores en el desenvolupament d'un sistema OCR. Per exemple, les agrupacions de caràcters o paraules (ts, tz, tx, o ratlles) que es realitzen en basca són menys habituals en la resta de les llengües europees.
Amb la majoria del programari OCR que s'utilitzen actualment, quan volem analitzar un text en basc, hem d'utilitzar el vocabulari d'una llengua en castellà. No obstant això, en aquests casos és preferible no utilitzar vocabulari que el d'una altra llengua per a no cometre més errors en el text. Per exemple, si estem utilitzant un diccionari en anglès, gairebé segur que substituirà la majoria de les aparicions de sis paraules pel set. Si s'està usant el castellà, l'aparició de la paraula energia la substituirà per la paraula energ (titlla).
El resultat del projecte desenvolupat en ELEKA és que al programari OCR més utilitzat en l'actualitat, el programa Omnipage, s'ha afegit una correcció en basca juntament amb la informació morfològica del basc. Aquest programa, per al cas del basc, està preparat per a fer el pas de convertir la imatge escanejada en un caràcter. Fins avui, no obstant això, no estava preparada per a la fase posterior de verificació i correcció de les paraules (encara que està destinada a les llengües majoritàries: anglès, alemany). Les següents intencions consistiran a afegir un corrector OCR com Xuxen per als processadors de textos Microsoft Word i OpenOffice, per a posar a la disposició dels usuaris que no utilitzin Omnipage el sistema OCR en basc.
Per tant, a través de la incorporació d'eines lingüístiques en basca s'ha desenvolupat l'eina que millor digitalitza els textos en basc. És a dir, ELEKA ha desenvolupat una eina que entén i dirigeix el basc de manera automàtica a l'hora de digitalitzar els textos. Per al desenvolupament d'aquest projecte ha comptat amb la col·laboració de la Viceconsejería de Política Lingüística del Govern Basc, que s'encarregarà de la distribució d'aquesta aplicació.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia