La màgia límits de la traducció automàtica
2014/01/01 Cortés Etxabe, Itziar - Elhuyarreko itzulpengintza-teknologien arduraduna Iturria: Elhuyar aldizkaria
Per definició, la traducció automàtica és un sistema informàtic que tradueix d'un idioma a un altre, sense la intervenció humana durant el procés de traducció. Aquesta traducció, que es produeix automàticament, pot utilitzar-se com a mitjà de comprensió o traducció de textos, la qual cosa pot ser degut a la confusió freqüent entre sistemes de traducció automàtica i diccionaris. Però tots dos recursos tenen diferències. Per exemple, els resultats que obtenim en realitzar cerques en els diccionaris han estat elaborats manualment per professionals. En canvi, en els sistemes de traducció automàtica, encara que les dades que s'utilitzen com a base són elaborats per professionals, la resposta sempre la genera la pròpia màquina, que es genera automàticament. No obstant això, la principal diferència des del punt de vista dels usuaris comuns és que els sistemes de traducció automàtica poden traduir frases completes o paraules.
Entre els sistemes de traducció automàtica més coneguts es troba Google Translator. Aquest sistema permet traduir de manera automàtica fins a 70 idiomes, entre els quals es troba el basc des de 2010. Però per què surten traduccions curioses en aquesta mena de sistemes?
Quan viatgem per Internet, és bastant habitual trobar la informació que busquem en un altre idioma i utilitzar un sistema de traducció automàtica per a comprendre aquesta informació. Per això, l'usuari ha de conèixer els avantatges i inconvenients de l'ús de la traducció automàtica. Un sistema d'aquest tipus no sempre proporciona una traducció exacta i està a la disposició de l'usuari de què fer amb aquesta traducció obtinguda automàticament. Els resultats obtinguts de manera automàtica han estat vists en la publicitat i en altres cartells.
Alguns exemples coneguts són: "Autobusos, matí i tarda", en basc "Autobusos matí i tarda"; "Combinació de trens", "Subcomissió de trens"; i "Primera planta", "Primera planta".
En el mateix mes de gener, Google barrejava els sistemes de traducció automàtica de Guardiola i Iniesta amb els seus països d'origen, ben coneguts en el món del futbol, en la traducció del català a l'anglès. Però, per què sorgeixen de manera automàtica aquest tipus de traduccions?
Els sistemes de traducció automàtica es poden classificar en dos grups en funció de les tècniques utilitzades per a la seva creació: sistemes basats en l'estadística i sistemes basats en regles.
El Google Translate abans esmentat és un dels sistemes de traducció automàtica basats en l'estadística més coneguts. Aquest tipus de sistemes es basen en models estadístics que es generen a partir de la utilització de col·leccions de textos. Per exemple, si volem crear un sistema entre el basc i el castellà, haurem de basar-nos en una col·lecció de textos del tipus: cada frase en basca haurà de ser traduïda al castellà. A partir d'aquestes col·leccions de textos es creen uns models estadístics que seran el nucli del sistema de traducció automàtica.
En la unitat Elhuyar de Llengua i Tecnologia també disposem d'aquesta mena de sistemes, i enguany estem implantant un sistema d'aquest tipus en el MINHAP (Ministeri d'Hisenda i Administracions Públiques d'Espanya). Les pàgines web utilitzaran aquest sistema per a traduir del castellà al basc i a l'anglès, i revisaran els resultats obtinguts automàticament mitjançant un repàs manual.
Per contra, els sistemes basats en regles tenen una base lingüística, és a dir, es basen en diccionaris i en recursos com les regles relacionades amb la llengua. Encara que habitualment ofereixen resultats més raonables que els estadístics, aquest tipus de sistemes també presenta dificultats i resultats estranys. Les paraules polisèmiques, per exemple, donen bastant treball a l'hora de tornar. Prenguem, per exemple, la paraula "temps" en castellà, amb dotze accepcions en basca (hiztegiak.elhuyar.org/es/tiempo): temps, temps...; cal ensenyar al sistema de traducció automàtica a triar quin de les accepcions és més adequada.
Matxin és un exemple d'un sistema que tradueix automàticament del castellà al basc a partir de les regles.El sistema Matxin (http://matxin.elhuyar.org) ha estat desenvolupat conjuntament per Elhuyar Hizkuntza eta Teknologia i el grup Ixa de la UPV/EHU i, a més de traduir el mer text, serveix per a traduir documents i pàgines web de diferents formats. No obstant això, tal com s'ha esmentat anteriorment, quan utilitzem la traducció automàtica, no hem d'oblidar que els resultats generats automàticament han de ser revisats.
Per a veure la diferència entre sistemes de base estadística i lingüística, heus aquí un parell d'exemples. Per exemple, Google Traslat tradueix la frase "L'home que va venir era el meu oncle" de la següent manera: "L'home va venir el meu oncle" i Matxin 2.0: "L'home que va venir era el meu oncle". D'altra banda, Google Translat retorna la frase "Han dit que demà farà bon temps" i Matxin 2.0, "Han dit que demà farà bon temps".
Quan parlem de traducció automàtica, hi ha qui ens mira amb recel. No obstant això, comprendre el tema pot canviar l'enfocament de la utilització d'aquest recurs. En dir que la traducció es realitza automàticament, no volem dir que el resultat sigui una traducció directa, és a dir, una traducció professional. El que volem transmetre és que oferirà un resultat generat automàticament, que transforma un text d'una llengua triada per nosaltres a una altra diferent. Si se sol·licités una opinió sobre els sistemes de traducció automàtica, obtindríem, lògicament, respostes en funció de l'usuari que estigui utilitzant el sistema. Per tant, l'ús conscient d'aquesta mena de recursos és imprescindible.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia