Andy Way: "Itzulpen automatikoaren erronka handiena kalitatea da"
2007/07/01 Rementeria Argote, Nagore - Elhuyar Zientziaren Komunikazioa Iturria: Elhuyar aldizkaria
Egia da, bai. Eta neurri handi batean itzulpengintza automatikoa arrazoi politikoengatik ere garatu zen. Garai batean, estatubatuarrek errusiarrek zer esaten zuten jakin nahi zuten, esaterako. Eta, gaur egun, Estatu Batuek diru asko inbertitzen dute arabieraren itzulpen automatikoa garatzen. Alde horretatik, segurtasunarekin lotuta doan kontu bat da.
Beste komunikazio-maila batean, bi lagunen arteko komunikazioa dago. Esate baterako, gu bion arteko komunikazioa askoz errazagoa izango litzateke, ni Dublinen nagoenean eta zu hemen Euskal Herrian, zuk niri euskaraz idatzi eta itzulpen automatikoko sistema baten bidez nik ingelesez jasoko banu. Nik ingelesez erantzungo nizuke eta zuk euskaraz jaso.
Izan ere, ez du axola ingeles zuzen-zuzena ez bada ere, nik ulertuko dut. Eta gakoa hor dago, euskaraz ez dakien ingeles batentzat hobe da ingeles kaskar bat euskara zuzena baino, eta, alderantziz, ingelesez ez dakien euskaldun batentzat hobe da euskara kaskarra ingeles zuzenena baino. Maila horretan, mezu nagusia jasotzea da garrantzizkoena.
Hortaz, itzulpengintza automatikoaren hazkunde-esparruaren oinarria gizabanakoa da. Hizkuntza bera hitz egiten ez duten bi lagun elkarrekin komunikatu ahal izatea.
Zalantzarik gabe. Interneten badira doako sistemak, Babel Fish, esaterako. Ez dira oso sistema sofistikatuak, baina jendea bere hizkuntzan komunikatzen da horiei esker. Esan bezala, debalde dira, eta ez dago inon izena eman beharrik. Eta egunero milioika aldiz erabiltzen dira, nahiz eta oso kalitate ona ez izan. Beraz, sistema horien kalitatea hobetzen badute, askoz gehiago erabiliko dira.
Europan ikaragarrizko aldaketa gertatu da. 80ko hamarkadan bederatzi baino ez ziren Europako Batasuneko hizkuntza ofizialak, eta orain hogei baino gehiago dira. Eta Batasunaren begietan hizkuntza horiek guztiak parekoak dira. Beraz, dokumentuak hizkuntza horietara guztietara itzuli behar izaten dituzte, eta 400 hizkuntza-bikote inguru daude.
Har ditzagun letoniera eta greziera. Zenbat itzultzaile dira bi hizkuntza horien arteko itzulpenak egiteko gai? Asko ez. Beraz, ez dago nahiko itzultzaile, eta testu pila bat dituzte itzultzeko. Bada, itzulpen automatikoa oso lagungarri zaie itzultzaile horiei.
Europako Batasunean etxe barrurako bereziki prestatutako itzulpen automatikoko sistema bat dute, SYSTRAN deiturikoa. Ez da dendetan salgai dagoen SYSTRAN sistema bera; barruan erabiltzeko diseinatu eta egokitu zuten, eta itzulpenaren lehenengo zirriborro bat egiteko erabiltzen dute. Ondoren, itzultzaileek editatu eta zuzendu egin behar izaten dute. Izan ere, bezeroei edo jendeari bidaltzeko agiri batek akatsik gabea izan behar du.
Makinak erabiltzen dira azken finean, eta horrek bere alde ona du: 24 orduz egin dezakete lan, eta itzultzaileek ez. Tresna horien abantaila da askoz azkarrago egin dezaketela lan, baina kalitate eskasagoan.
Hortaz, jendeak ez luke ikusi behar giza itzultzailearen lana ordezkatzera datorren jarduera baten gisan; beste edozein tresna bezalakoa da, telefonoa, txigorgailua edo autoa bezalakoa. Laguntza ematen digun tresna bat baino ez da.
Bai, besteak beste, Euskal Herriko Unibertsitatekoekin harremanetan gaude. Horiek ingelesa-euskara eta gaztelania-euskara bikoteekin egiten dute lan. Eta, pixkanaka, hizkuntza-bikote gehiago batzen goaz. Hala, hainbat hizkuntzarekin lan egiten duten taldeekin dugu harremana, hala nola arabiera, txinera, italiera, frantsesa, alemana, gaztelania, eta, orain, baita euskara ere.
Bestalde, ikasle bat daukagu ingelesaren eta Irlandako zeinu-hizkuntzaren arteko itzulpengintza lantzen, ingurune jakin batzuetarako --adibidez, aireportuetarako--. Izan ere, aireportuetan ez dute informazio guztia idatziz jartzen pantailetan. Hegazkinera igotzeko azken deialdiak eta antzeko abisuak bozgorailuetatik bakarrik ematen dituzte, eta gorrek ez dituzte entzuten. Bada, halako inguruneetan lan egiten ari gara.
Aplikazio-eremua murrizten bada, hizkuntza-bikotea dena dela ere, askoz errazagoa da itzulpena. Hala, aireportuaren esparrura mugatzen bagara, itzulpen orokorragoetan izaten diren arazo gehienak gaindituta daude.
Gaur egun itzulpen automatikoan lan egiten duten ikertzaile gehienek corpusetan (testu- eta agiri-bilduma bat) oinarritutako itzulpen automatikoan dihardute. Beraz, corpus bat behar da; batez ere corpus paraleloa behar izaten da, hau da, esaldi honi beste hizkuntzan beste esaldi hori dagokio. Eta hiztun askoko hizkuntza batzuetarako corpus paralelo handia dago. Ingelesaren eta frantsesaren artekoa badago, Kanadako parlamentuko aktak, esate baterako; eta, ingeles-txinerarako, Hong Kong-eko parlamentukoak.
Gaur egun erabiltzen diren itzulpen automatikorako teknikek edozein hizkuntza-bikotetarako balio dute berez, baina, oro har, hiztun gutxiko hizkuntzetarako corpus paraleloak falta dira. Hiztun askoko hizkuntzetan askoz testu gehiago daukagu, eta itzulpen gehiago, gaztelaniaz, ingelesez, frantsesez... Hori da hiztun gutxiko hizkuntzen arazo handiena. Gaelikoaren eta euskararen artean itzulpena egiteko, adibidez, ez daukagu testu paralelorik. Eta hori zailtasun handia da.
Erronka handiena, zalantzarik gabe, kalitatea da, oro har ez baita oso ona oraindik; eta, noski, aipatu berri dugunez, hizkuntza-bikote jakin batzuetarako ezin dela corpus bidezko hurbiltzerik egin, corpusa falta delako. Beraz, itzulpenerako arazoetako bat lehenengo urratsean bertan dago: dauden baliabideak bideratzean.
Nik uste dut itzulpen automatikoaren erronka handienetako bat jendearen etxeetara iristea dela. Izan ere, unibertsitatean oso arazo zailak konpontzen saiatzen gara normalean, baina badira soluzio sinple samar batzuk jendearen eguneroko bizitzan lagun dezaketenak, zeinu-hizkuntzan, esaterako.
Eta kaleko jendeak argi dauka itzulpen automatikoa beharrezkoa dela, eta oso erabilgarria. Hizkuntzalaritza konputazionaleko beste arazo batzuk oso zailak dira ulertzeko. Baina edonork daki itzulpengintza zer den eta ordenagailu bat zer den; eta itzulpen automatikoak komunikazioa errazten duela; eta, ondorioz, beharrezkoa dela.
Elkarrizketa amaitzear zegoela ikusita, zerbait gehitu nahi izan zuen Andy Way-k: "Hasieran komunikazioaz hizketan jardun gara. Nik uste dut hizketaren itzulpena laster etorriko dela. Urte batzuk barru, zuk zure hizkuntzan egingo dizkidazu galderak, euskaraz, eta nik ingelesez entzungo ditut. Hortaz, hizketaren ezagutza (speech recognition) erabiliko dugu, eta zuk euskaraz hizketan entzungo nauzu zure ordenagailuaren bidez. Laster izango da hori, eta aurrerapen handia izango da, hizketa komunikazio idatzia baino askoz naturalagoa baita".
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia