Ferramenta paira escanear textos vascos en eúscaro
2003/04/10 Martinez, Edurne
Cando utilizamos o software OCR, cada carácter se escanea coma se fose una foto e despois analízase esa imaxe escaneada e vólvese a un código de caracteres normal (por exemplo ASCII).
A precisión do sistema OCR está limitada por tres factores: a calidade do documento orixinal, a calidade da imaxe creada polo escáner e a interpretación que sobre este último fai o software OCR. ELEKA desenvolveu una ferramenta paira realizar esta interpretación en eúscaro.
Paira transformar a imaxe escaneada en texto, a OCR analiza os puntos que a compoñen e distingue os ocos que hai entre eles. Este proceso denomínase segmentación e realízase en tres pasos: primeiro sepáranse as liñas, logo íllanse as palabras e finalmente sepáranse os caracteres. Esta última fase é máis sinxela se todos os caracteres son da mesma anchura, e complícase moito si tócanse entre si, se se mesturan con outras marcas de puntuación ou se o ancho depende da forma do carácter.
A singularidade do eúscaro
Paira realizar o coñecemento de carácter é necesario que o sistema OCR coñeza todos os caracteres do idioma do texto escaneado. Se xurdisen dúbidas cos caracteres, esperaría a que se complete a palabra, proceso no que será útil dispor dun dicionario desa lingua paira poder equiparala. Así, mediante un xogo de probabilidades e avaliando se se trata dunha palabra do dicionario, o sistema seleccionará un ou outro carácter.
En teoría, basta con ter un alfabeto e un dicionario nesa lingua paira aplicar correctamente o OCR, pero no caso do eúscaro non é así. Non se pode dar una lista completa de palabras posibles, é dicir, non se pode crear un dicionario, xa que ao ser una lingua declinada, de cada una das raíces salguen demasiadas formas de palabra. As ferramentas lingüísticas achegarán gran axuda neste paso, é dicir, traballando as principais características do eúscaro pódense conseguir grandes melloras paira desenvolver un sistema OCR. Por exemplo, as combinacións de caracteres ou palabras que se fan en eúscaro (uso de ts, tz, tx, ou raias) son menos comúns no resto de linguas europeas.
Coa maioría do software OCR que se utilizan actualmente, cando queremos analizar un texto en eúscaro, debemos utilizar o vocabulario dunha lingua en castelán. Con todo, nestes casos é preferible non utilizar vocabulario que o doutra lingua paira non cometer máis erros no texto. Por exemplo, se estamos a utilizar un dicionario en inglés, case seguro que substituirá a maioría das aparicións de "seis" por set "". Se se está usando o castelán, a palabra "enerxía" substitúese por enerxía "" (con tache).
Corrector paira o eúscaro
ELEKA desenvolveu un plug-in de corrección en eúscaro paira o programa Omnipage, o software OCR máis utilizado. Este programa estaba preparado paira converter en caracteres a imaxe escaneada tamén no caso do eúscaro, pero non paira a fase posterior de verificación e corrección de palabras. ELEKA engadiu ao programa información morfológica do eúscaro paira dixitalizar da mellor maneira posible os textos en eúscaro.
As seguintes intencións consistirán en engadir un corrector OCR como Xuxen paira os procesadores de textos Microsoft Word e OpenOffice, paira pór a disposición dos usuarios que non utilicen Omnipage o sistema OCR en eúscaro.
O proxecto foi desenvolvido en colaboración coa Viceconsejería de Política Lingüística do Goberno Vasco e estará en breve na rúa.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia