}

Eina per a escanejar textos bascos en basc

2003/04/10 Martinez, Edurne

L'OCR (Optical Character Recognition) és el coneixement per ordinador dels caràcters de text escrits o impresos. Aquest programari és molt utilitzat per a digitalitzar textos en paper i està molt estès en el mercat basc. Però fins ara no estava adaptada al basc, per la qual cosa després cal fer grans treballs de correcció. L'eina desenvolupada per ELEKA permetrà a partir d'ara escanejar en basca els textos en basc.

Quan utilitzem el programari OCR, cada caràcter s'escaneja com si fos una foto i després s'analitza aquesta imatge escanejada i es torna a un codi de caràcters normal (per exemple ASCII).

La precisió del sistema OCR està limitada per tres factors: la qualitat del document original, la qualitat de la imatge creada per l'escàner i la interpretació que sobre aquest últim fa el programari OCR. ELEKA ha desenvolupat una eina per a realitzar aquesta interpretació en basca.

Per a transformar la imatge escanejada en text, l'OCR analitza els punts que la componen i distingeix els buits que hi ha entre ells. Aquest procés es denomina segmentació i es realitza en tres passos: primer se separen les línies, després s'aïllen les paraules i finalment se separen els caràcters. Aquesta última fase és més senzilla si tots els caràcters són de la mateixa amplària, i es complica molt si es toquen entre si, si es barregen amb altres marques de puntuació o si l'ample depèn de la forma del caràcter.

La singularitat del basc

Per a realitzar el coneixement de caràcter és necessari que el sistema OCR conegui tots els caràcters de l'idioma del text escanejat. Si sorgissin dubtes amb els caràcters, esperaria que es completi la paraula, procés en el qual serà útil disposar d'un diccionari d'aquesta llengua per a poder equiparar-la. Així, mitjançant un joc de probabilitats i avaluant si es tracta d'una paraula del diccionari, el sistema seleccionarà l'un o l'altre caràcter.

En cas d'utilitzar el vocabulari anglès, el document proposa aged.

En teoria, n'hi ha prou amb tenir un alfabet i un diccionari en aquesta llengua per a aplicar correctament l'OCR, però en el cas del basc no és així. No es pot donar una llista completa de paraules possibles, és a dir, no es pot crear un diccionari, ja que a l'ésser una llengua declinada, de cadascuna de les arrels surten massa formes de paraula. Les eines lingüístiques aportaran gran ajuda en aquest pas, és a dir, treballant les principals característiques del basc es poden aconseguir grans millores per a desenvolupar un sistema OCR. Per exemple, les combinacions de caràcters o paraules que es fan en basca (ús de ts, tz, tx, o ratlles) són menys comunes en la resta de llengües europees.

Amb la majoria del programari OCR que s'utilitzen actualment, quan volem analitzar un text en basc, hem d'utilitzar el vocabulari d'una llengua en castellà. No obstant això, en aquests casos és preferible no utilitzar vocabulari que el d'una altra llengua per a no cometre més errors en el text. Per exemple, si estem utilitzant un diccionari en anglès, gairebé segur que substituirà la majoria de les aparicions de sis "" per set "". Si s'està usant el castellà, la paraula "energia" se substitueix per energia "" (amb titlla).

Corrector per al basc

ELEKA ha desenvolupat un plug-in de correcció en basca per al programa Omnipage, el programari OCR més utilitzat. Aquest programa estava preparat per a convertir en caràcters la imatge escanejada també en el cas del basc, però no per a la fase posterior de verificació i correcció de paraules. ELEKA ha afegit al programa informació morfològica del basc per a digitalitzar de la millor manera possible els textos en basc.

El corrector desenvolupat per ELEKA proposa la paraula objectius per a la paraula objectius.

Les següents intencions consistiran a afegir un corrector OCR com Xuxen per als processadors de textos Microsoft Word i OpenOffice, per a posar a la disposició dels usuaris que no utilitzin Omnipage el sistema OCR en basc.

El projecte ha estat desenvolupat en col·laboració amb la Viceconsejería de Política Lingüística del Govern Basc i estarà en breu al carrer.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia