Corrector ortográfico paira o eúscaro XUXEN

Corrector ortográfico paira o eúscaro XUXEN


O pasado mes de setembro tivo lugar no centro cultural Koldo Mitxelena de Donostia a presentación do corrector ortográfico paira o eúscaro Xuxen. Tivemos a oportunidade de falar con calma sobre o que alí se viu con Iñaki Alegría, uno dos autores. O resultado desta entrevista é o seguinte.

Elhuyar.- Que é o programa Xuxen?

Figura . Pantalla principal.
Paira ver ben a foto ir ao pdf

I. Alegria.- Corrector ortográfico paira textos escritos en eúscaro, Xuxen pretende detectar e corrixir a ortografía de textos en eúscaro, é dicir, detectar e corrixir erros tipográficos e ortográficos. Paira este obxectivo o eúscaro unificado é o que aproba o programa. Pode analizar un ou varios documentos en cada execución. Os documentos trátanse literalmente e mentres coñece as palabras segue traballando, pero cando non coñece algunha palabra avísase e detense. Ante o posible baleiro, o usuario poderá aceptar, dirixir aos usuarios, solicitar as propostas que ofrece o programa de corrección ou, de novo, acceder ao dicionario persoal para que recoñeza todas as formas derivadas desta lema (ver figura 1).

Elh.- Canto tempo tardastes en completar o programa? e quen participastes?

I.A.- A elaboración do programa foi una gran labor principalmente por dúas razóns: a propia complexidade morfológica do eúscaro e a falta dunha descrición sistemática da morfología do eúscaro.

Aproveitando o analizador morfológico automático realizado anteriormente, este programa desenvolvido durante os últimos tres anos foi froito da colaboración entre a Facultade de Informática da UPV/EHU, UZEI e a empresa Hizkia de Baiona. O equipo da Facultade de Informática desenvolveu e coordinado o prototipo, UZEI outorgoulle una garantía lingüística e Hizkia asumiu a responsabilidade do produto comercial. Preparáronse versións paira Macintosh e PC. Neste traballo non se pode obviar a colaboración de: IVAP/IVAP, Departamento de Economía da Deputación Foral de Gipuzkoa e Programa de Cooperación Euskadi/Aquitania.

Elh.- Cales son as características de deseño do programa Xuxen?

I.A.- Debido á complexidade morfológica do eúscaro, non se pode consultar una lista de palabras como se fai paira outras linguas paira decidir se una palabra está ben ou non, e acabouse; dado que as formas lexítimas que se poden crear a partir dun lema son moitas, a lista sería enorme. Por exemplo, se partimos dun nome, engadindo un só sufijo de declinación pódense obter 135 formas legais (si temos en conta as elipsis este número sobe enormemente). Ademais, se se actuou desta maneira, en lugar de comprender toda o seu declinación introducindo só a lema no dicionario do usuario, do mesmo xeito que sucede en Xuxen, o usuario debería introducir una a unha todas as formas que corresponden a esa lema. Por todo o anterior foi necesario realizar unha análise morfológico que permita identificar correctamente as palabras lícitas.

Fdo.- Comenta que a análise morfológico foi fundamental, que pasos deron paira abordalo?

I.A.- A análise morfológico baséase no formalismo a dous niveis proposto polo profesor Koskenniemi da Universidade de Helsinqui en 1.983. Aínda que este formalismo propúxose inicialmente paira o suomés, foi un éxito paira calquera outra lingua e paira linguas anejas como o eúscaro. As características principais de leste formalismo son a separación clara entre as palabras que aparecen nos textos, o nivel superficial, e o léxico, o nivel léxico, que serve paira a análise e a síntese, e a distinción entre o programa e o descubrimento lingüístico. A información lingüística está formada por léxicos morfemos e regras morfofónicas.

O léxico conta con máis de 60.000 entradas, almacenadas nunha base de datos e distribuídas en 120 submuestras. A cada entrada asígnaselle una clase de continuación que define o conxunto de sufijos que poden vir detrás dela. As alteracións superficiais na recolección de morfemas maniféstanse en vinte e catro regras morfo-fonológicas. Cada una destas regras indica cando se produce una inserción, eliminación ou modificación dun carácter. Por exemplo, na regra oitava descríbese a seguinte modificación: a letra k do léxico transfórmase en g da portada se a letra k é un sufijo “ko”, e se o anterior é unha lema acabado con n letras ou un nome de lugar terminado con l, m ou n letras. Por exemplo, ao recoller os morfemas de, créase a forma.

Coas palabras máis utilizadas paira aumentar a velocidade elaborouse una lista paira evitar a súa análise morfológico.

Fdo.- A proposta de corrección é una das opcións que ofrece o programa, en que consiste?

I. Alegría. Profesor da Facultade de Informática da Universidade do País Vasco. Uno dos autores do corrector ortográfico paira o eúscaro Xuxen.

I.A.- Ante un erro o usuario pode solicitar propostas ao programa. Neste traballo os erros tipográficos e ortográficos teñen un tratamento diferente. Nos tipográficos considérase como fonte do erro a perda dun carácter, a inserción ou a variación ou o intercambio de dous caracteres continuos, buscando de forma inversa as palabras apropiadas paira propor.

Os erros provocados polo escaso coñecemento do eúscaro, a falta de coñecemento dos últimos cambios na unidade ou o uso dialectal denomínanse ortográficos ou típicos. Paira a súa detección e corrección, Xuxen conta cunha adoite e unhas regras especiais. Por exemplo, haundi está relacionado coa forma grande preferida nunha forma léxica especial; ao realizar a análise da “grande” obtense de haundi+, pero cando haundi está marcado como erro faise grande e, por tanto, xorde como proposta una gran xeración de grande+area. Entre as regras especiais atópanse as que describen a perda de h e a variación de x-s. Deste xeito, ao analizar en zuaitxe obtense automaticamente árbore + ko e con creación a proposta de árbore.

Elh.- Que modelo lingüístico utilizastes?

I.A.- Tendo en conta a flexión do eúscaro, tívose que construír un sistema de declinación útil por computador. Paira iso baseámonos na táboa proposta por Euskaltzaindia e adaptámola ao noso sistema, é dicir, tomamos esta táboa e agrupamos os casos que se axustan a cada categoría de léxico. Así, a cada base correspóndelle un único sufijo, composto polos sufijos que pode tomar.

Na derivación hai algúns prefixos e sufijos traballados, pero os máis comúns son como entradas de dicionario. Con todo, o usuario pode introducir no seu dicionario novas palabras derivadas. Na asociación de palabras traballouse de momento o máis habitual e sistematizable segundo os criterios marcados pola Comisión LEF de Euskaltzaindia. O verbo factitivo tamén está tratado sistematicamente

Recomendación de Euskaltzaindia de 1992

En canto ao verbo, Xuxen coñece as formas tanto do verbo auxiliar como do macizo, sempre que Euskaltzaindia decida. Recoñece formas neutras, non marcadas ou hitanas.

Si no apartado de gramática a única fonte normativa foi a Real Academia da Lingua Vasca-Euskaltzaindia, non é así cando se empeza a traballar o léxico. As recomendacións e decisións en cada caso formuláronse nalgúns puntos: Letra H, -a propia, composición e escritura dos números, etc. Estes son os que seguimos á hora de completar o léxico, aínda que no caso dos números, polo momento, mantemos ambas as opcións (admitindo vinte e cinco e vinte e cinco). Outro tanto ocorreu cos nomes de persoas e lugares, así como na escritura dos préstamos.

Paira crear o vocabulario básico, é dicir, a lista de lemas máis frecuentes en calquera léxico, tivemos que recorrer a outras fontes actuais: Dicionario Vasco de Libre Elección de Ibon Sarasola, banco de datos Euskalterm de UZEI e base de datos lexicográfica EEBS, Xabier Kintana e outros Hiztegia 2000, J.M. Dicionario de Frecuencia e Dispoñibilidade de Etxebarria, etc. Cando non se axustaban aos criterios de Euskaltzaindia, as entradas adaptáronse”, e nas que non foron acordadas por Euskaltzaindia, o dicionario de Ibon Sarasola foi a fonte de criterios.

Paira completar o vocabulario básico, desde o SEE de UZEI adoptáronse expresións, locuciones e formas complexas. As siglas e abreviaturas tamén se traballaron segundo os criterios de UZEI. Partindo do vocabulario común, en ocasións foi necesario chegar á terminología. Euskalterm foi imprescindible nestes casos.

Paira completar a lista de nomes propios (aínda que os nomes propios non proceden de dicionarios comúns) recorreuse a dúas fontes: a primeira foi a lista de nomes vascos e de lugares propostos por Euskaltzaindia, pero paira obter a lista de nomes de lugar do mundo recorreuse a Elhuyar.

A partir de todas estas fontes elaboramos un vocabulario de gran tamaño que contén polo menos un léxico de textos comúns. Con todo, a terminología dos temas específicos será de libre inclusión no seu vocabulario persoal.

Elh.- Que miramos ao futuro?

I.A.- En grupo queremos facer fronte á análise sintáctico automático nos próximos anos. Desta maneira, XUXEN do futuro terá a oportunidade de realizar una corrección avanzada. Doutra banda, o noso grupo traballa tamén na elaboración de dicionarios, co obxectivo de obter un maior rendemento na aplicación de recursos informáticos aos dicionarios. Con todo, en base á análise morfológico, pretendemos extraer o lematizador automático EUSLEM dentro dun ano.

Buletina

Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian

Bidali

Bizitza