Amb l'ordinador en la correcció de textos
1988/12/01 Artola, Xabier Iturria: Elhuyar aldizkaria
En l'actualitat, cada vegada més, els textos són computats amb l'ajuda d'un programa de processament de textos que ofereixen una gran facilitat i ajuda per a posteriors tasques de correcció i revisió.
En la producció de textos en basc, a més dels problemes de qualsevol llengua (errors de teclejat, etc.), també apareixen altres aspectes des del punt de vista de la correcció. Aquí estan, entre altres coses, els errors de tota mena que es deriven del fet que la persona que maquina el text o el compon en la impremta sigui una persona sense alfabetitzar, o en castellà, els problemes que afecten la situació particular d'unitat lingüística actual, que en els últims anys el basc s'ha estès a infinitat de nous camps, etc.
Per tot això, continuen apareixent diverses "irregularitats" en els textos en basc. Cada vegada menys. Sembla que cada vegada són menys els errors deguts al desconeixement de les normes o a la negligència. Però la necessitat de correcció és aquí i serà aquí.
I en què pot ajudar l'ordinador? Ja s'ha comentat que l'ús de l'ordinador en la producció actual és cada vegada més freqüent a causa de les facilitats que ofereixen els programes de processament de textos. Entre aquestes facilitats es troben, entre altres, les ajudes per a adaptar el format del text, per a canviar d'un text a un altre, per a introduir nous textos sense necessitat de reescriure tot el text, etc. A més, estan apareixent sistemes que permeten comprovar automàticament l'ortografia del que escrivim en diversos idiomes, sobretot en anglès, per descomptat, però també en uns altres més pròxims. Alguns d'aquests sistemes volen anar més enllà, oferint ajudes en la correcció per punts, sintaxis i estil.
Per tant, a partir d'ara tindrem l'oportunitat de realitzar una correcció ortogràfica en els menús dels programes de processament de textos, però és evident que el sistema que donarà aquesta ajuda no és per a tots els idiomes, sinó que haurà de tenir una versió diferent per a cada idioma. I per a l'euskara, jo crec que si no ho fem aquí, almenys per a un temps. En breu disposarem –ja existeixen– de sistemes que ens oferiran aquesta ajuda, encara que en els seus originals en castellà ho permetin.
Veurem quins problemes presenta aquesta correcció automatitzada. De moment ens limitarem a l'àmbit de l'ortografia.
Tenim dos tipus de programes o sistemes: d'una banda, ortografies verificadores, és a dir, que ens donen a conèixer les paraules que apareixen mal escrites en aquest text i que després haurem de corregir. D'altra banda, disposem d'ortografies rectificatives o que ens permeten realitzar una revisió ortogràfica i realitzar una correcció en interacció amb l'ordinador, proposant per a això possibles alternatives a la paraula errònia o considerada errònia.
Les primeres recerques en aquest camp daten de 1957. El primer producte acabat és el programa denominat SPELL (1971).
L'única tasca dels primers programes era proporcionar un llistat de les diferents paraules d'un text (ordenat generalment amb freqüència d'aparició). Després alguna persona amb paciència analitzaria aquesta llista i trobaria paraules mal escrites (tingues en compte que els errors apareixien al final de la llista a causa de la seva baixa freqüència). Els següents programes han començat a realitzar una certa anàlisi de les paraules (basat sobretot en l'anàlisi de digramas i trigrames, és a dir, tenint en compte les diferents freqüències que tenen les diferents parelles de lletres i triples de lletres en cada llengua, es podria calcular un índex de singularitat de la paraula), que només enumeren aquelles que podrien estar mal escrites. Però la particularitat dels programes actuals és que són programes que utilitzen el vocabulari. És a dir, per a saber si una paraula està correctament escrita o no, es recorre al diccionari: si la paraula es troba aquí es dóna per bona i si no.
La construcció del diccionari és molt important en aquests sistemes. I és que la mesura del diccionari passa per una decisió fonamental: què incloure i què no?. Sense pensar massa, sembla que el millor és ficar-ho tot. Però de seguida ens adonarem del perill de fer-lo: aquest diccionari tindrà moltes paraules obsoletes, la majoria inútils, i la possibilitat de donar per bones les paraules comunes mal escrites serà major. Basc, per exemple:
amb la paraula 'aueta' en el diccionari
aueta
(bn-gar), augeta (bn-sal) serenata, alborada / aubade, sérénade (Col.)
'
haurà d'acceptar la paraula 'auetako', encara que sigui molt més segur que en lloc d'escriure 'aquests' és un error.
Els errors del vocabulari escàs també són evidents, amb el perill que les paraules ben escrites (per no estar en el diccionari) siguin considerades dolentes.
A més, de cara a l'eficàcia d'aquests sistemes és evident que una de les tasques més crítiques a realitzar és la cerca en el diccionari, per la qual cosa la mesura i organització del diccionari resulten factors molt importants. L'estratègia més utilitzada per a guanyar temps en la cerca consisteix en el tractament de les paraules de major freqüència: a través d'una anàlisi estadística s'identificaran aquestes paraules i la cerca en el diccionari es dividirà en dos nivells: primer es comprovarà si la paraula del text està entre les de major freqüència (aquesta cerca es realitzarà amb aguro, ja que no són tantes paraules), i si no existeix (i només llavors) es recorrerà al diccionari general. En aquest subdiccionario de paraules de major freqüència es podria disposar d'un nombre de paraules que oscil·la entre 250 i 500, de les quals s'espera que aproximadament el 50% de les paraules del text estiguin compreses.
Fins ara ens hem limitat a les ortografies verificadores. No obstant això, la majoria dels programes que actualment estan a la venda també ofereixen ajuda per a la correcció interactiva: tenim ortografies rectificatives. La seva peculiaritat radica en la manera de treballar. Mentre el programa realitza la verificació ortogràfica l'usuari es troba davant la pantalla. En el moment en què el programa detecti algun error, farà notar la paraula en la pantalla i preguntarà a l'usuari què ha de fer. Llavors l'usuari té diferents opcions: pot corregir la paraula o demanar al sistema que li doni alternatives possibles a aquesta paraula i després triar entre elles, per descomptat correcta. Tampoc se li negarà la possibilitat de mantenir la paraula. A més, la majoria dels sistemes manegen un vocabulari de l'usuari en el qual l'usuari no coneix el sistema i pot introduir certes paraules que ell mateix utilitza habitualment. Una vegada que torni a aparèixer, el sistema no els considera erronis.
Abans de res això, hi ha mesos en què s'ha iniciat un projecte que té com a primer objectiu el corrector ortogràfic per al basc. En aquest projecte participen l'empresa de serveis de l'àrea informàtica APIKA, UZEI i l'equip dedicat al processament del llenguatge natural en la Facultat d'Informàtica de Sant Sebastià. Com s'ha dit, la primera intenció d'aquest grup és oferir una ortografia correctora interactiva a tot aquell que escriu en basc amb l'ajuda de l'ordinador. Recordi's que, de moment, ens referim a l'ortografia i, per tant, a aquesta successió de caràcters per a admetre una paraula (successió de caràcters entre espais), sense prendre consciència del seu context. Jo crec que molts dels errors que apareixen en els textos en basc no poden corregir-se d'aquesta manera, ja que sovint són errors de sintaxis o d'uns altres.
Per exemple, l'ensenyament, l'examen, o l'escriptura dels secrets, es consideren equivocats, però no s'atraparà en res buit, com m'has dit, en frases com avui dilluns, perquè les paraules poden ser aprovades individualment. Per a poder detectar-los, a més de la mera informació ortogràfica de vocabulari, és necessari una altra gran quantitat d'informació, com la proporcionada per l'anàlisi morfosintàctica de l'oració. Deixem això per a després, perquè no és un treball lent, encara que algun dia caldrà abordar-lo.
Anteriorment s'ha esmentat a l'equip de l'àrea de tractament del llenguatge natural que forma part del projecte. Els llenguatges artificials utilitzats habitualment en el món de la informàtica han donat lloc a una curiosa denominació de llenguatge natural per a parlar del llenguatge comú. La importància d'aquest camp, que se centra en la comprensió de la llengua i la creació automàtica de la llengua, és cada vegada major. D'una banda, la importància de poder comunicar-se amb els ordinadors en llenguatges naturals (en el nostre cas, en basc), i per un altre, l'aportació que aquesta adaptació a la lògica i sistemes dels ordinadors suposa al coneixement teòric de la pròpia llengua.
L'existència d'una sèrie d'eines i sistemes generals per a aquest camp de treball del processament del llenguatge natural fa que cada llengua requereixi la seva pròpia infraestructura: els bàsics en qualsevol llengua són analitzadors morfològics i sintàctics automàtics. Després vindran els problemes més confusos de la semàntica i la pragmàtica.
Una llengua amb un alt grau de flexió com el basc presenta problemes morfològics especials quan es vol fer front al seu tractament automàtic. No obstant això, resolent aquests problemes, la informació obtinguda de la mateixa anàlisi morfològica resulta molt més rica que en altres llengües amb una morfologia més simple. Aquesta informació és de gran importància en els nivells posteriors a l'anàlisi, és a dir, quan es pretén analitzar la sintaxi i la semàntica del llenguatge. En llengües com la nostra, l'anàlisi morfològica és el primer problema que qualsevol sistema de tractament lingüístic haurà de resoldre.
D'altra banda, hem parlat de la importància de les mesures del vocabulari que necessita el corrector ortogràfic. És evident que en llengües com l'euskara, cada paraula parlada amb totes les seves flexions (i només parlem de flexions a nivell de declinació) augmentarà enormement el vocabulari, ja que el temps de cerca és massa llarg. En altres llengües (pensi's per exemple en la morfologia de l'anglès) aquest problema ha estat subestimat i a vegades ha introduït totes les formes de paraula en el diccionari. En les llengües de morfologia més complexa, no obstant això, aquest problema ha d'abordar-se adequadament i en el vocabulari només hi haurà lemes, encara que el tractament resulti més complicat.
D'acord amb el que s'ha dit, comprovar la correcció ortogràfica d'una paraula no és només assegurar que aquesta paraula està en el diccionari. Perquè la paraula completa no té res a veure en el diccionari. Quan l'arrel de la paraula està en el diccionari dels lemes, més la successió de sufixos que podrien associar-se a aquest lema, serà per darrere el que cal verificar, perquè la paraula sigui acceptada. Per tant, es realitzarà una anàlisi morfològica (encara que no exhaustiu) de la paraula per a verificar la seva correcció.
Com es pot observar, la relació entre l'analitzador morfològic i el corrector ortogràfic és extremadament estreta i pot apreciar-se com a subproducte del baptisme. Tots dos desitjarien ser, doncs, els primers resultats d'aquest grup, que partia de la tasca de trencar el camí del tractament automàtic del basc.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia