}

No et trenquis el cap, Matxin!

2016/09/01 Iñurrieta Urmeneta, Uxoa - EHUko IXA taldeko ikertzailea | Aduriz Agirre, Itziar - EHUko IXA taldeko ikertzailea | Díaz de Ilarraza Sánchez, Arantza - EHUko IXA taldeko ikertzailea | Labaka Intxauspe, Gorka - EHUko IXA taldeko ikertzailea | Sarasola Gabiola, Kepa - EHUko IXA taldeko ikertzailea Iturria: Elhuyar aldizkaria

Figura . Un exemple del procés de traducció de Matxin (01-02-2016).

Per als qui vivim en societats bilingües, són molt habituals els errors comesos per pensar en una llengua i parlar en una altra. Molts de nosaltres ens enrogiríem en alguna ocasió, per exemple, quan érem petits veient riures als nostres pares, gràcies a qui ens va donar No per això! perquè li vam respondre tranquil·lament. T'has fet mal al nen que ha caigut al carrer? Si es preguntés, la majoria dels bascos majors no ens sorprendríem tant, perquè a pesar que la frase sembla estranya, de seguida pensaríem que aquesta persona, probablement, és un nou euskaldun. I és que els que parlem de més d'una llengua sabem, amb l'experiència, que l'après en una d'elles no sempre serveix per a una altra cosa: no per això no és per això en castellà, sinó de res; i t'has fet mal no és un dolor en basc, sinó que t'ha fet mal.

En aquests casos, professors, pares o amics ens corregeixen els errors perquè aprenguem quina és la forma correcta per a la següent. Perquè aquí també parlarem d'alumnes i professors, però no de qualsevol tipus. L'alumne té més d'onze anys, es diu Matxin i no té ossos ni carn, és un traductor automàtic. Utilitza un munt de normes per a aprendre idiomes i traduir al basc el llegit en castellà, però moltes vegades li donen traduccions que queden fora d'aquestes normes, i el treball del professor és ajudar-lo al fet que no es trenqui el cap, que no s'equivoqui amb tanta freqüència.

Matxin, traductor

En l'actualitat, Matxin tradueix del castellà al basc. Es basa en una sèrie de normes gramaticals i dos diccionaris bilingües, dels quals obté informació per a passar d'un idioma a un altre. Desenvolupa el seu treball en tres fases: anàlisi, transferència i generació (Major et al., 2009).

Com es pot apreciar en la figura 1, en primer lloc, analitza el text en castellà, o en anglès, morfològica i sintàcticament: el lema de cada paraula (per exemple: vaig veure 8 veure), la categoria (verb, nom, adverbi...), la funció sintàctica (subjecte, objecte directe, modificador...) i altres característiques. Posteriorment, en la fase de transferència, compensa les paraules de la frase original i ajusta la informació gramatical. I finalment, en la fase de creació, crea el text en basc a partir de la informació obtinguda en la transferència: crea la forma corresponent a cada lema (per exemple: vaig veure amb 8) i ajusta l'ordre de les paraules.

No obstant això, no totes les traduccions poden ser traduïdes correctament a través d'aquestes normes i diccionaris generals, la qual cosa dóna problemes a Matxin. Veure, si no, quines frases produeix:

(1) ÉS: Eragin handia hissen zuen.

EU (Matxin): Va subministrar un gran efecte.

EU (correcte): Va tenir gran influència.

Unitats Fraseològiques (UF), fora de les normes gramaticals generals de Matxin

De fet, hi ha algunes combinacions de paraules que queden fora de les regles generals de les llengües, entre elles les Unitats Fraseològiques (Gurrutxaga, 2016). Corpas (1997) i Urizar (2011), entre altres, els han classificat en tres grups:

1. Enunciats fraseològics: poden utilitzar-se com a tals sense entrar en una frase i només en determinades circumstàncies. D'aquest grup són moltes gràcies i no com per això .

2. Locucions: no són frases completes i el significat de la combinació no és la suma dels significats de les paraules combinades. El significat de les intervencions, per exemple , no es correspon amb el que normalment tenen les mans i els comissionats.

Figura . Tres Unitats Fraseològiques (UF) amb la paraula coll, en la cinta publicada per Antton Olariaga el 15-01-2016 en Berria.

3. Encolaciones: aquestes tampoc són frases senceres, almenys una de les paraules conserva el seu significat i, per a expressar un significat concret, amb una paraula de combinació s'utilitza generalment una altra determinada, i no unes altres equivalents. Per exemple, ens dediquem a l'atenció i no a l'atenció localitzada o similar.

A més, les UF varien molt d'una llengua a una altra (Sanz, 2015), per la qual cosa sovint no són fàcils de traduir. Prenguem com a exemple els esmentats en la classificació:

• Com hem dit abans, no per això usem res en castellà i no per això.

Participar és a dir , prendre part o participar (en cap lloc s'esmenten mànecs, mans).

Normalment usem atenció com a contraprestació per l'atenció prestada.

És més, si portem aquest últim exemple al francès i a l'anglès, veurem que els verbs no coincideixen ni amb els del basc ni amb els del castellà: en francès, faire attention (parar esment ); i en anglès, pay attention (parar esment ).

Per tant, si el seu aprenentatge és laboriós per a l'ésser humà, imagina't el difícil que és traduir automàticament per a un ordinador, tenint en compte que els diccionaris en els quals es basa són limitats i les regles gramaticals molt generals.

En el diccionari que utilitza Matxin existeixen diverses entrades de diverses paraules que a vegades donen lloc a traduccions directes:

(2) ÉS: Ikasle batzuk irakasle pilota egin zuten.

EU (Matxin): Alguns alumnes van difuminar al professor.

(3) ÉS: 13.00

EU (Matxin): Acabo de fer la pedra.

Lamentablement, no són moltes les entrades i no sempre s'utilitzen correctament. Vegem, per exemple, què ocorre si canviem lleugerament els termes dels exemples 2 i 3:

(4) ÉS: Irakasle ezin zuen ikasle egiten ari ziren pilota.

Figura . Aspecte de la interfície de les còncaves.

EU (Matxin): El professor no podia creure la pilota que estaven fent els alumnes.

EU (correcte): El professor no podia creure com es difuminaven els alumnes.

(5) ÉS: Acabo de fregar el sòl.

EU (Matxin): Acabo de fer sòl de pedra.

EU (correcte): Acabo de netejar el sòl.

Matxin té dues dificultats principals: d'una banda, conèixer les UF en castellà o en anglès, i per un altre, traduir-les al basc. Actualment, només es detecten correctament les combinacions de paraules que sempre estan seguides i en el mateix ordre, per la qual cosa si separem les paraules de la combinació o les canviem d'ordre, es tracten com a paraules soltes i no com si formessin part d'una UF (Exemple 4). Així mateix, per a la creació de frases en basca, sovint mancada informació, ja que a cada entrada se li concedeix un únic pagament en el diccionari de Matxin. Per aquest motiu la frase de l'exemple 5 hagi estat erròniament traduïda, ja que no s'ha tingut en compte que al verb fregar, quan el sòl va acompanyat del sintagma nominal, netejar-li que li correspon el pagament i no el de pedra..

Konbitzul, nou professor de Matxin

Per tant, com posen de manifest els exemples fins ara, si Matxin traduirà correctament els UF, l'ajuda és fonamental, i per a això s'ha creat Konbitzul, l'eina que li ensenyarà a traduir combinacions de noms+verbs.

Konbitzul és una base de dades pública que recull la informació obtinguda d'una anàlisi lingüística. Conté dades sobre les característiques de les combinacions de paraules amb noms i verbs, i les seves contraprestacions, fins al moment en el parell d'idiomes espanyol-basc. Les combinacions nominal+verbals d'aquest estudi s'han agrupat en tres fonts: El diccionari bilingüe Elhuyar, els gegantescos conjunts de traduccions a mà i el diccionari Diu d'encolaciones en castellà (Alonso, 2004).

La major part de la informació treballada està disponible en Internet i el que falta també estarà a la disposició dels usuaris en breu. De fet, la interfície de la base de dades és de tipus cercador i qualsevol usuari pot realitzar cerques fàcilment, escrivint el que es desitja buscar i mostrant una llista de combinacions que coincideixen amb l'escrit, juntament amb els pagaments. A continuació, si es clica en compensació, es pot veure més informació lingüística (figura 3).

No obstant això, com ja s'ha comentat anteriorment, la principal tasca de Konbitzul és ajudar a Matxin a afrontar dos reptes: d'una banda, conèixer les UF de la llengua d'origen i per un altre, traduir al basc. Suposem que li donen les següents frases:

(6) El tema va despertar interès en els oïdors.

(7) Interes handia egin zuen gaia oïdors.

Figura . Interfície de Matxin i un exemple (02-02-2016).

-

La UF –despertar interès– que apareix en aquests tres exemples encara no està en el diccionari de Matxin, per la qual cosa actualment no tracta aquesta combinació de paraules com UF (Figura 4). No obstant això, encara que estigués en el diccionari de Matxin, amb el mètode que ha utilitzat fins ara, només el reconeixeria en l'exemple 6, on les dues paraules apareixen en el mateix ordre i sense altres elements.

No obstant això, amb l'ajuda de Konbitzul sabrà que despertar interès és una UF i que a més és una combinació flexible, és a dir:

• Que entre els dos components de la combinació poden aparèixer altres paraules.

• L'ordre de les paraules és variable.

Així, en analitzar la frase de la llengua d'origen, es tindrà en compte tota aquesta informació i serà capaç de saber que en els exemples 7 i 8 també hi ha una UF. Un experiment demostra que gràcies a la informació de la base de dades es coneixen gairebé un 30% més d'UF que amb el mètode anterior.

D'altra banda, una vegada que s'hagin detectat les combinacions, cal portar-les al basc i per a això Matxin també necessitarà informació addicional. Una vegada més, Konbitzule resoldrà els seus dubtes:

Pel verb despertar, encendre (i no despertar).

Pel nom d'interès, utilitza'l i posa'l en limitat.

Així, en lloc de crear frases com la que va despertar un gran interès, podrà crear frases com la que va despertar el Gran Interès. La informació per a aquesta segona tasca encara no s'ha integrat en el sistema, però s'ha realitzat l'anàlisi lingüística, per la qual cosa és lògic pensar que en breu podrem veure els resultats en la xarxa.

Omplint el sac per a satisfer la curiositat

No obstant això, el treball no acaba aquí, clar, perquè Matxin és un estudiant de gran curiositat. El següent pas serà recopilar informació per a traduir les UF en anglès, i a partir d'aquí Konbitzule haurà de continuar recopilant dades per a anar omplint el sac de manera progressiva, de manera que l'alumne, a mesura que vagi creixent, sigui cada vegada millor traductor.

Bibliografia

Corpas, G.: Manual de fraseologia espanyola. Editorial Gredos (1997).
Gurrutxaga, A.; Alegria, I. & Artola, X.: “Caracterització automàtica de la idiomaticidad: combinacions nomeni+ verb”. Revista de Ciència i Tecnologia de la Universitat del País Basc (2016).
Major, A.; Alegria, I.; Díaz d'Ilraza, A.; Lava, G.; Lersundi, M. & Sarasola, K.: “Matxin, primer traductor automàtic al basc”. Senez: revista de traducció 37 (2009), 197-220.
Sanz, Z. (2015): “Estudi de traducció d'unitats fraseològiques traduïdes de l'alemany al basc. Descripció de la tesi”. Senez: revista de traducció 46 (2009), 211-230.
Urizar, R.; Alegria, I.; Odriozola, J. C. & Ezeiza, N.: “Tractament computacional d'unitats lexicals plurilingües en basca”. Anuari del Seminari de Filologia Basca ”Juliol d'Urquijo”, 43(1-2) (2011), 891-908.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia