}

Co computador na corrección de textos

1988/12/01 Artola, Xabier Iturria: Elhuyar aldizkaria

Calquera texto, por suposto, tivo un proceso de corrección previo á súa publicación. Todos os coñecemos porque son probas provisionais que adoitan vir da imprenta en buel cando se imprime algo; antes de comezar a maqueta de imprenta do exemplar definitivo, o autor ou a autora ten que fixarse con coidado e facelo con orde. Con todo, moitas veces –por non dicilo sempre se bota unha ollada a ese corrector e dificilmente atoparemos ningún texto baleiro.
CONEXIÓN MINITER
1. Acender o terminal.
2. Levantar o teléfono e marcar o número marcado.
3. Ton(s) de chamada, alto e baixo.
4º Pulsar a tecla CONEXIÓN/FIN. Aparece en pantalla "CONEXIÓN REALIZADA".
5. Colgar o teléfono.

Na actualidade, cada vez máis, os textos son computados coa axuda dun programa de procesamiento de textos que ofrecen una gran facilidade e axuda paira posteriores tarefas de corrección e revisión.

Na produción de textos en eúscaro, ademais dos problemas de calquera lingua (erros de tecleado, etc.), tamén aparecen outros aspectos desde o punto de vista da corrección. Aí están, entre outras cousas, os erros de todo tipo que se derivan do feito de que a persoa que maquina o texto ou o compón na imprenta sexa una persoa sen alfabetizar, ou en castelán, os problemas que afectan á situación particular de unidade lingüística actual, que nos últimos anos o eúscaro estendeuse a infinidade de novos campos, etc.

Por todo iso, seguen aparecendo diversas "irregularidades" nos textos en eúscaro. Cada vez menos. Parece que cada vez son menos os erros debidos ao descoñecemento das normas ou á neglixencia. Pero a necesidade de corrección está aí e estará aí.

E en que pode axudar o computador? Xa se comentou que o uso do computador na produción actual é cada vez máis frecuente debido ás facilidades que ofrecen os programas de procesamiento de textos. Entre estas facilidades atópanse, entre outras, as axudas paira adaptar o formato do texto, paira cambiar dun texto a outro, paira introducir novos textos sen necesidade de reescribir todo o texto, etc. Ademais, están a aparecer sistemas que permiten comprobar automaticamente a ortografía do que escribimos en varios idiomas, sobre todo en inglés, por suposto, pero tamén noutros máis próximos. Algúns destes sistemas queren ir máis aló, ofrecendo axudas na corrección por puntos, sintaxes e estilo.

Por tanto, a partir de agora teremos a oportunidade de realizar una corrección ortográfica nos menús dos programas de procesamiento de textos, pero é evidente que o sistema que dará esta axuda non é paira todos os idiomas, senón que deberá ter una versión diferente paira cada idioma. E paira o euskara, eu creo que se non o facemos aquí, polo menos paira un tempo. En breve disporemos –xa existen– de sistemas que nos van a ofrecer esta axuda, aínda que nos seus orixinais en castelán permítano.

Imos ver que problemas presenta esta corrección automatizada. De momento limitarémonos ao ámbito da ortografía.

Temos dous tipos de programas ou sistemas: por unha banda , ortografías verificadoras, é dicir, que nos dan a coñecer as palabras que aparecen mal escritas nese texto e que logo deberemos corrixir. Doutra banda , dispomos de ortografías rectificativas ou que nos permiten realizar una revisión ortográfica e realizar una corrección en interacción co computador, propondo paira iso posibles alternativas á palabra errónea ou considerada errónea.

As primeiras investigacións neste campo datan de 1957. O primeiro produto acabado é o programa denominado SPELL (1971).

A única tarefa dos primeiros programas era proporcionar unha listaxe das diferentes palabras dun texto (ordenado xeralmente con frecuencia de aparición). Daquela algunha persoa con paciencia analizaría esa lista e atoparía palabras mal escritas (ten en conta que os erros aparecían ao final da lista debido á súa baixa frecuencia). Os seguintes programas comezaron a realizar unha certa análise das palabras (baseado sobre todo na análise de digramas e trigramas, é dicir, tendo en conta as distintas frecuencias que teñen as diferentes parellas de letras e triplos de letras en cada lingua, poderíase calcular un índice de singularidade da palabra), que só enumeran aquelas que poderían estar mal escritas. Pero a particularidade dos programas actuais é que son programas que utilizan o vocabulario. É dicir, paira saber se una palabra está correctamente escrita ou non, recórrese ao dicionario: se a palabra atópase aí dáse por boa e si non.

A construción do dicionario é moi importante nestes sistemas. E é que a medida do dicionario pasa por unha decisión fundamental: que incluír e que non?. Sen pensar demasiado, parece que o mellor é metelo todo. Pero enseguida darémonos conta do perigo de facelo: este dicionario terá moitas palabras obsoletas, a maioría inútiles, e a posibilidade de dar por boas as palabras comúns mal escritas será maior. Eúscaro, por exemplo:

coa palabra 'aueta' no dicionario

aueta

(bn-gar), augeta (bn-sal) serenata, alborada / aubade, sérénade (Col.)

'

terá que aceptar a palabra 'auetako', aínda que sexa moito máis seguro que en lugar de escribir 'estes' é un erro.

Os erros do vocabulario escaso tamén son evidentes, co perigo de que as palabras ben escritas (por non estar no dicionario) sexan consideradas malas.

Ademais, de face á eficacia destes sistemas é evidente que una das tarefas máis críticas a realizar é a procura no dicionario, polo que a medida e organización do dicionario resultan factores moi importantes. A estratexia máis utilizada paira gañar tempo na procura consiste no tratamento das palabras de maior frecuencia: a través dunha análise estatística identificaranse estas palabras e a procura no dicionario dividirase en dous niveis: primeiro comprobarase se a palabra do texto está entre as de maior frecuencia (esta procura realizarase con aguro, xa que non son tantas palabras), e si non existe (e só entón) recorrerase ao dicionario xeral. En leste subdiccionario de palabras de maior frecuencia poderíase dispor dun número de palabras que oscila entre 250 e 500, das cales se espera que aproximadamente o 50% das palabras do texto estean comprendidas.

Até agora limitámonos ás ortografías verificadoras. Con todo, a maioría dos programas que actualmente están á venda tamén ofrecen axuda paira a corrección interactiva: temos ortografías rectificativas. A súa peculiaridade radica na forma de traballar. Mentres o programa realiza a verificación ortográfica o usuario atópase ante a pantalla. No momento en que o programa detecte algún erro, fará notar a palabra na pantalla e preguntará ao usuario que debe facer. Entón o usuario ten diferentes opcións: pode corrixir a palabra ou pedir ao sistema que lle dea alternativas posibles a esa palabra e logo elixir entre elas, por suposto correcta. Tampouco se lle negará a posibilidade de manter a palabra. Ademais, a maioría dos sistemas manexan un vocabulario do usuario no que o usuario non coñece o sistema e pode introducir certas palabras que el mesmo utiliza habitualmente. Una vez que volva aparecer, o sistema non os considera erróneos.

Ante todo isto, hai meses nos que se iniciou un proxecto que ten como primeiro obxectivo o corrector ortográfico paira o eúscaro. Neste proxecto participan a empresa de servizos da área informática APIKA, UZEI e o equipo dedicado ao procesamiento da linguaxe natural na Facultade de Informática de San Sebastián. Como se dixo, a primeira intención deste grupo é ofrecer una ortografía correctora interactiva a todo aquel que escribe en eúscaro coa axuda do computador. Lémbrese que, polo momento, referímonos á ortografía e, por tanto, a esa sucesión de caracteres paira admitir una palabra (sucesión de caracteres entre espazos), sen tomar conciencia do seu contexto. Eu creo que moitos dos erros que aparecen nos textos en eúscaro non poden corrixirse desta maneira, xa que a miúdo son erros de sintaxes ou doutros.

Por exemplo , o ensino, o exame, ou a escritura das reviravoltas, considéranse equivocados, pero non se vai a atrapar en nada baleiro, como me dixeches, en frases como hoxe luns, porque as palabras poden ser aprobadas individualmente. Paira poder detectalos, ademais da mera información ortográfica de vocabulario, é necesario outra gran cantidade de información, como a proporcionada pola análise morfosintáctico da oración. Deixemos isto paira despois, porque non é un traballo lento, aínda que algún día haberá que abordalo.

Anteriormente mencionouse ao equipo da área de tratamento da linguaxe natural que forma parte do proxecto. As linguaxes artificiais utilizados habitualmente no mundo da informática deron lugar a unha curiosa denominación de linguaxe natural paira falar da linguaxe común. A importancia deste campo, que se centra na comprensión da lingua e a creación automática da lingua, é cada vez maior. Por unha banda, a importancia de poder comunicarse cos computadores en linguaxes naturais (no noso caso, en eúscaro), e por outro, a achega que esta adaptación á lóxica e sistemas dos computadores supón ao coñecemento teórico da propia lingua.

A existencia dunha serie de ferramentas e sistemas xerais paira este campo de traballo do procesamiento da linguaxe natural fai que cada lingua requira a súa propia infraestrutura: os básicos en calquera lingua son analizadores morfológicos e sintácticos automáticos. Logo virán os problemas máis confusos da semántica e a pragmática.

Una lingua cun alto grao de flexión como o eúscaro presenta problemas morfológicos especiais cando se quere facer fronte ao seu tratamento automático. Con todo, resolvendo estes problemas, a información obtida do mesma análise morfológico resulta moito máis rica que noutras linguas cunha morfología máis simple. Esta información é de gran importancia nos niveis posteriores á análise, é dicir, cando se pretende analizar a sintaxe e a semántica da linguaxe. En linguas como a nosa, a análise morfológico é o primeiro problema que calquera sistema de tratamento lingüístico deberá resolver.

Doutra banda, falamos da importancia das medidas do vocabulario que necesita o corrector ortográfico. É evidente que en linguas como o euskara, cada palabra falada con todas as súas flexións (e só falamos de flexións a nivel de declinación) aumentará enormemente o vocabulario, xa que o tempo de procura é demasiado longo. Noutras linguas (pénsese por exemplo na morfología do inglés) este problema foi subestimado e ás veces introduciu todas as formas de palabra no dicionario. Nas linguas de morfología máis complexa, con todo, este problema debe abordarse adecuadamente e no vocabulario só haberá lemas, aínda que o tratamento resulte máis complicado.

De acordo co devandito, comprobar a corrección ortográfica dunha palabra non é só asegurar que esa palabra está no dicionario. Porque a palabra completa non ten nada que ver no dicionario. Cando a raíz da palabra está no dicionario das lemas, máis a sucesión de sufijos que poderían asociarse a esa lema, será por detrás o que hai que verificar, para que a palabra sexa aceptada. Por tanto, realizarase unha análise morfológico (aínda que non exhaustivo) da palabra paira verificar a súa corrección.

Como se pode observar, a relación entre o analizador morfológico e o corrector ortográfico é extremadamente estreita e pode apreciarse como subproducto do bautismo. Ambos desexarían ser, pois, os primeiros resultados deste grupo, que partía da tarefa de romper o camiño do tratamento automático do eúscaro.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia