MultiMeteok euskaraz ere badaki
2001/11/01 Díaz de Ilarraza, Arantza | Sarasola, Kepa | Mayor, Aingeru | Loinaz, Miel | Chevreau, Karine | Coch, José Iturria: Elhuyar aldizkaria
Giza itzultzailearen lanaren kalitatea, zalantzarik gabe, hobea eta aberatsagoa izango da beti, baina gaur egun posible da, zenbait teknika automatiko erabiliz, meteorologia bezalako arlo zehatz eta tekniko batean dokumentuak sortzea.
Artikulu honetan, metereologiaren arloan testu-sorkuntza eleanitza darabilen Multimeteo sistema interaktiboa aurkezten dugu, baita bertan euskarazko sorkuntzarako egin dugun egokitzapena ere. Garatutako sistemak egunero eskaintzen ditu eguraldi-iragarpenak web helbide honetan: http: //www.inm.es/wwi/Multimeteo/Multimeteo.html
Aurrekariak
Testuen sorkuntza automatikoaz baliatzen ez den arren, eguraldi-iragarpenak automatikoki itzultzen dituen sistema bat aipatu behar da hemen. Montrealgo TAUM taldeak sortutako METEO sistema izan da inoiz lortu den itzulpen-sistemarik arrakastatsuena. Egunero-egunero oso antzekoak ziren itzulpen aspergarriak egiteko itzultzaileak aurkitzea zaila zen, eta Kanadako zerbitzu meteorologiko ofiziala hasi zen bide automatikoak ikertzen. Lortu zuten METEO sistema hura buletin meteorologikoak itzultzen ibili da 1977tik hona, ingelesetik frantsesera, eta egiten duen itzulpenaren % 80 erabat zuzena da. Hala ere, meteorologiaren inguruan lortu zen arrakasta ez da hedatu, sistema beste gai batzuetara egokitu arren ez baita lortu kalitate-maila bereko emaitzik. Nonbait, eguraldi iragarpenen esparruak egokitasun berezia du horrelako prozesu automatikoei begira.
Kanadan ere 1993an martxan jarri zen Forecast Generator (FoG) lan-ingurunea. Sistema horretan meteorologoak editore grafikoa erabiltzen du datu meteorologikoak erakusten dituen mapa egokitzeko, eta ondoren, sistemak automatikoki sortzen du eskualderako iragarpen meteorologikoa ingelesez eta frantsesez.
MultiMeteo sistemaren historia
HGMTNtWWiWpWeWtToTopToeVvVpVeVtTeDTeHDDFFFFtHN1995. urtean Frantziako Meteorologia Zerbitzuak (Meteo France) MultiMeteo proiektua bultzatu zuen eguraldi-iragarpenak hainbat hizkuntzatan argitaratu ahal izateko. Horretarako, elkarlanean hasi zen Espainiako Instituto Nacional de Meteorología -rekin (INM), Belgikako Royal Meteorological Institute -rekin (RMI), Austriako Zentralanstallt für Meteorologie und Geodynamik -arekin (ZAMG) eta sorkuntza linguistikoan adituak ziren bi enpresekin: Parisen egoitza duen Lexiquest eta Madrilgo CL Servicios Lingüísticos . Alemaniako meteorologia-zerbitzua (DWD) ere hasieran elkartu zitzaien, baina utzi egin zuen geroxeago.
Elkarte horiek “ Multilingual Production of Weather Forecasts ” deituriko proiektua aurkeztu zuten, eta Europako Batasunaren finantzazioa lortu zuten. Sistema lau hizkuntzetarako (frantsesa, ingelesa, gaztelania eta alemana) garatu zen. 1999ko otsailean egin zen ebaluazioaren emaitzak oso positiboak izan ziren.
2000. urtean INMk eta Lexiquest -ek akordio bat lortu zuten sistema lau hizkuntza gehiagotara zabaltzeko: nederlandera, katalana, galegoa eta euskara. Euskarara zabaltzeaz Donostiako Informatika Fakultateko Ixa Taldea eta UZEI Terminologia Zentroa arduratu izan gara, eta memento honetan proiektuaren garapen-fasea bukatzear gaude.
Eguraldi-iragarpenak sortzeko ohiko prozedura
Datu meteorologikoak jasotzeko bi iturri erabiltzen dira: lurrazaleko datu-bilketa eta espaziokoa. Lurrazaleko datuak meteorologia-behatokietanhartzen dira; horietan, une oro neurtu eta jasotzen dira atmosferaren egoera deskribatzen duten aldagai fisikoak. Espaziotik ere lortzen dira beste datu batzuk: satelite meteorologikoek, METEOSAT satelite geoestazionarioak eta TIROS-NOAA serieko satelite polarrak etengabe aritzen dira informazioa bidaltzen.
Jasotako datu numeriko guztiak eredu matematiko konplexuen bidez prozesatzen dira. Prozesu automatikoek aldagai fisikoek hurrengo egunetan izango duten bilakaera simulatzen dute eta horrela iragarpen meteorologikoetarako datu-matrizeak sortzen dituzte. Meteorologoak orduan aukera du datu-matrize horietan ukituak egiteko, alegia, bere eskarmentua erabiliz aurreikuspena osatu eta biribiltzeko. Ondorio gisa, 1. taulan ikusten dugun bezala, matrizeek hainbat ordutarako (3 orduko epeak INMren sistemaren kasuan) tenperatura (Te), haizearen norabidea (DD) eta indarra (FF), hodeiak, euria eta abarrei buruzko datuak azaltzen dituzte. Horrelako matrize bat lortzen da mapako puntu bakoitzerako.
Datu horiekin meteorologoek eskuz sortzen dituzte eguraldi-iragarpenak. Lan hori oso luzea eta garestia suertatzen da, batez ere iragarpen bakar batetik hainbat bertsio egin behar denean hizkuntza askotan edo estilo ezberdinetan (iragarpen orokorrak, hondartzetakoak, itsasokoak, mendikoak, erkidegoka, probintziaka...).
Hortxe kokatzen da MultiMeteoren interesa. Horren helburua ez da meteorologoen lana ordeztea, horien eginbeharretan modu interaktiboan laguntzea baizik, horrela iragarpenak hainbat hizkuntza eta estilotan zabaldu ahal izateko. Horrez gain, mapako toki askotarako iragarpenak egiteko aukera ere ematen du.
Tresna laguntzaile bat: sorkuntza eleanitza interaktiboa
Teknika honek lehenbizi, sorkuntza automatikoaren bidez, zirriborro bat sortzen du, agian guztiz osatu gabe dauden sarrera-datuetatik abiaturik. Testua hainbat hizkuntzatan sortzeko ahalmena badu ere, meteorologoari, zuzenketa-lanetan aritzeko, bere ama hizkuntzan soilik eskaintzen zaio, noski. Meteorologoak testu-zati batean zuzenketarik egin nahi badu, aldatu nahi duen zatian klik egin beharko du. Hor, gero zenbait aukera eta modifikatzaile alternatibo eskainiko dizkio “pop-up” menuak, eta horien arteko bat aukeratuz zuzenketa modu erosoan egingo du. Egindako aldaketak kontuan hartuta, sistemak hizkuntza guztietan sortuko ditu iragarpen-testuak.
Teknika honen abantailak ondokoak dira: bizkortasuna (hizkuntza bakoitzean testu bakoitza sortzeko 2 segundo inguru behar dira; giza itzultzaile batek 10 minutu inguru behar ditu); sorkuntzaren bidegarritasuna, nahiz eta daturen bat oraindik jaso gabe izan, sortutako testuen kalitate handia (batzuetan giza ukitutxoekin); mantentzeko eta moldatzeko erraztasuna; eta azkenik, giza erabiltzaileek onartzen dutela (meteorologoei ez die lanpostua kenduko, hizkuntza arrotzetan idazten lagunduko baizik).
Buletinen sorkuntza automatikoa
MultiMeteok bi modutan egiten du sorkuntza:
- Paragrafo bakoitzeko titulua idazteko, probintzien izena duen testu finkoa erabiltzen da; eta buletinen goiburukoa idazteko (ikus 1. irudia), barruan hainbat aldagai dituen txantiloia erabiltzen da, adibidez:
Eguraldi iragarpena *IS *CO. *MO *FD.
Bertako ordua: *LH.
Iragarpenaren balioa: *TT.
non:
- IS-ren balioa “probintziaka”, “uharteka” edo ezer ez izan daiteke.
- CO-ren balioa erkidegoen izena (adibidez "Galiziako Autonomia Erkidegorako”).
- MO-rena hilabetea ("Ekainak”)
- FD-rena eguna, zenbakitan adierazia.
- LH-k ordua adierazten du
- TT-k iragarpenaren periodoa (adibidez “gaur, goizeko 06:00etatik gauerdiko12:00ak arte”).
- Paragrafoetako gorputza idazteko, berriz, askoz metodo konplexuagoa erabiltzen da. Ondoko puntuetan azalduko dugu zer arkitektura eta zer modulu behar diren maila horretako sorkuntza automatikoari ekiteko.
Sistemaren arkitektura orokorra
Sistemak erabiltzen duen sorkuntza-motorra 1994an garatu zen frantsesez gutun komertzialak automatikoki sortzeko. 1995ean ingelesera zabaldu zen eskuliburu teknikoak itzultzeko prototipo batean integratuta. Eta urte berean baita ere, “ Multilingual Production of Weather Forecasts ” proiektuan integratu zen buletin meteorologikoen sorkuntzan hizkuntza eta funtzionalitate berriak gehitzeko (sorkuntza interaktiboa eta ezagutza estilistikoen kudeaketa).
Sistemaren arkitektura 2. irudian ikus daiteke. Lehenengo fasean datu meteorologikoen basea eskuratu eta birformateatzen da, sorkuntza-moduluak erabili ahal izateko moduan uzteko. Gero sorkuntza-moduluaren zeregina bitan banatzen da: planifikatu eta gauzatu.
Planifikazio-modulua
Planifikazioak kontzeptu eta estiloen ezagutza-baseak (EB) erabiltzen ditu eta beste bi fasetan banatzen da:
- Planifikazio orokorra: buletina zenbait paragrafotan antolatzen da (goiburukoa, probintzia bakoitzerako paragrafo bat...)
- Planifikazio meteorologikoa: sarrerako datuetan oinarrituta paragrafo bakoitzaren edukia zehazten da. Paragrafoan azaldu behar diren gertaerak ( event ) eta horien arteko loturak zerrenda batean biltzen dira interlingua bat erabiliz; horrela, deskribapena hizkuntzetatik independentea izatea lortzen da. Hurrengo moduluak hizkuntza bakoitzerako gauzatuko ditu.
Gertaera egoera meteorologikoari edo egoeraren eboluzioari lotutako objektu kontzeptuala da. Gertaerak bi motatakoak dira: atomikoak eta molekularrak.
Gertaera atomikoak eboluziorik gabeko parametro meteorologiko bat adierazten du, balio bakar bat lotuta duelarik ( Value atributua). Adibidez, zeru estalia adierazten duen gertaera atomikoa honako hau da:
Event_CloudCovering4: Event {Value= ClassCloudCovering_code4;
Time_Representation= TimeRepresentationMod{};
}
ClassCloudCovering_code4 ondoko kontzeptu sinpleen multzoa da: Overcast, NoSun eta VeryCloudy-Overcast . Kontzeptu horietako bakoitza hizkuntza bakoitzean termino batekin lotuta dago.
Gertaera molekularrak parametro bat baino gehiago adierazten du. Adibidez, haizeari buruz ari garenean indarra, norabidea eta eboluzio-datuak izan ditzakegu. Balio bat baino gehiago eraman ditzakete ( Value0 , Value1 , etab. atributuak), bai eta balio horiek biltzeko modua zehazten duen operadore bat ( Operator atributua). Adibidez, zerua hodeirik gabe egotetik estalita egotera deskribatzeko gertaera molekularra hauxe da:
GrowingCloudier_Min0: Event_mol {Value0= Event_CloudCovering0;
Value1= Event_CloudCovering4;
Operator= ClassGrowingCloudier_Min0;
Time_Representation= TimeRepresentationMod{};
}
Gertaera molekular hori bi gertaera atomiko eta operadore baten bidez adierazten da. Time - representation gertaerak denboran kokatzeko balio du (orainaldia, lehenaldia edo etorkizuna) eta periodoa adierazten du (eguna, goiza, arratsaldea, gaua...).
Planifikazio-moduluaren irteeran, gertaera atomiko bakoitzerako eta gertaera molekularretako Operator atributu-klase bakoitzerako kontzeptu bat hautatzen da. Gainera, beste atributu batzuk gehi daitezke (automatikoki edo meteorologoarekin elkarrekintzan): probabilitatearen indizea, fasea, periodoa...
Gauzatze-modulua
sinplea
semantikoa ( Rsem )
UsemR1_INV= Estali1Sem
Usem = Estali1Sem
Lortutako kontzeptuak hizkuntza bakoitzean linguistikoki gauzatzeko modulua Esanahi - Testu teorian (Mel’cuk 1988, Polguère 1988) oinarrituta dago. Ezagutza-base linguistikoa erabiltzen da fase honetan, eta bost etapatan banatzen da: aurredenotazioa, semantika, sintaxi sakona, azaleko sintaxia eta morfologia.
- Aurredenotazioa. Etapa honetan, planifikaziotik datorren kontzeptu sinple bakoitzerako hautatzen da hizkuntza horretan dagokion termino bat. Adibidez, arestian aipatutako ClassCloudCovering_code4 multzoko Overcast kontzeptu sinplerako Zerua , estalia edo Estalia terminoetako bat aukeratuko da. Termino horiek unitate semantikoetan ( USem ) banatzen dira, eta Usem horiekin adierazpide semantikoa ( RSem ) sortzen da (ikus 2. taula).
- Semantika. Rsem adierazpide semantikotik nodo eta erlazioz osatutako sakoneko sintaxiaren grafoa sortzen da, eta horretarako unitate semantiko bakoitzari dagokion unitate lexikala aukeratzen da.
- Sintaxi sakona. Sortu beharreko esaldiko hitz guztiak nodoetan kokatuta dauzkan grafoa eraikitzen da.
- Azaleko sintaxia. Nodoak ordenatzen dira esaldian hitz bakoitzak hartu behar duen tokia zehazteko.
- Morfologia. Nodo bakoitzaren informazio morfosintaktikoaren arabera dagokion hitz-forma hiztegitik jasotzen da. Hiztegian deklinatutako forma guztiak gordetzen dira sorkuntza morfologikorik egin behar ez izateko.
Euskararako egokitzapena
diurna
las temperaturas
las temperaturas
MultiMeteo sistema euskarara zabaltzeko lan konputazionala IXA taldeak garatu du eta lan terminologikoaz UZEI arduratu da. Galegora eta katalanera egin diren egokitzapenak gaztelaniako bertsiotik abiatuta egin dira, eta batez ere lexikoa landu behar izan dute, sintaxian eta morfologian aldaketa handirik ez baitzen behar. Euskararako, berriz, gaztelaniatik (eta zenbaitetan frantsesetik) abiatu bagara ere, esaldien egitura gehienak aldatu behar izan dira, eta morfologia-mailako deklinabide-markekin lan berezia egin behar izan dugu.
Hiru fasetan ekin genion lanari:
- eguraldiari buruzko euskarazko corpusaren bilketa eta azterketa,
- MultiMeteo sistemaren eta horren arkitekturaren ezagutza, eta
- sistemaren egokitzapena.
Egokitzapena hiru azpifasetan egin genuen: aurretik gertaera atomikoak landu (adibidez, “zerua, estalia”), gero errazak ziren gertaera molekularrak (adibidez, “haizea, ahula, iparraldekoa”), eta azkenik zailtasun bereziak zituzten gertaera molekularrak (adibidez “zerua, hasieran estalia, euriarekin, gerora oso estalia aldi baterako”).
Egokitzapeneko fase bakoitzean, aurretik azterketa linguistikoa egin genuen, ondoren ezagutza-basean sartu beharreko informazioaren azterketa eta diseinua, gero gertaera bakoitzerako adibide adierazgarri baten informazioa sartu eta probatu, eta azkenik, gertaera-mota bakoitzerako aukera guztiak sartu eta probatu.
Hauek dira egin dugun egokitzapenaren ezaugarri nagusiak:
- Kontuan harturik sistemak sortutako iragarpenek INMren estilo telegrafikoa jarraitu behar zutela, aditzak kentzea erabaki genuen. Era berean, esaldiko gunea den izenaren modifikatzaileak komaz bereizita joango dira atributu-sintagma gisa. Adibidez, “Iparraldeko haize ahula” edo “Haizea iparraldekoa eta ahula izango da” eman ordez, sistemak “Haizea, iparraldekoa, ahula” sortuko du.
- Frantsesez eta gaztelaniaz gerundio bidez adierazten diren eguraldi-bilakaerak bestela gauzatzen ditugu euskaraz. Adibidez, gaztelaniazko "Cielo despejado aumentando a nuboso" euskaraz honela sortuko dugu: “Zerua, hasieran oskarbia, gerora hodeitsua”.
- Hiztegian, buletinetan erabil daitezkeen kasuetako hitz-forma guztiak (batzuetan hitz anitzeko unitateak) idatzi ditugu. Mementoz bi kasu baino ez dira erabiltzen buletinetan: absolutiboa eta soziatiboa. Hitzaren lema soila agertzea ere posible da.
Aurrerago sistema beste estilo batzuekin zabaldu nahiko balitz, deklinabide-kasu gehiago erabili beharko liratekeenez, hiztegian kasu horiek sartu beharko genituzke. Ikus dezagun, adibidez, “euri” hitzaren hiztegiko sarrera:
BA_Euri1 : LexemeNomBA {CatMorph = NOM;
SsCatMorph = COMMUN;
UMorph= [ morpho{Cas= ABS; Nombre= SINGULIER;UMG= "euria";},
morpho{Cas= ABS; Nombre= PLURIEL; UMG= "euriak";}, morpho{Cas= SOZ; Nombre= SINGULIER;UMG= "euriarekin";},
morpho{Cas= SOZ; Nombre= PLURIEL; UMG= "euriekin";},
morpho{UMG= "euri";},
];
}
- Esaldiko guneak, besterik ezean, deklinabideko absolutibo kasua izango du, eta gunearen modifikatzaileen kasua kontzeptu edo terminoaren definizioan zehaztuko da. Adibidez, "Zerua, estalia, euriarekin" sortzen duen kontzeptuak zehaztu behar du estali terminoak absolutibo singularra hartuko duela eta euri soziatibo singularra. Absolutibo singularrean azalduko da zeru terminoa esaldiko gunea delako.
- Euskaraz, sintagma bakoitzeko azken hitzari itsasten zaio sintagmako deklinabide-kasua, eta sistemak ez zuen aukerarik ematen modu dotorean hori kudeatzeko. Horregatik, zenbait arau gehitu behar izan ditugu: batetik, kontzeptu-mailan, sistemak sintagma bakoitzeko hitz guztiei itsasten die kasu-marka, eta gero azaleko sintaxiaren etapan hitzak ordenatzen direnean, orduan azken hitza ez direnei kasua kentzen die. Adibidez, "Zerua, estalia, euri orokor eta ekaitzekin" esaldia sortzeko, kontzeptu batean adierazten da euri orokor eta ekaitz sintagma osoak soziatibo kasua eraman behar duela; hori egiteko termino guztiak markatu behar dira kasuarekin euri(soz)+orokor(soz)+eta(soz)+ekaitz(soz) ; geroxeago euri, eta eta orokor terminoei kasu-marka kentzen zaie "euriarekin orokorrarekin eta ekaitzarekin" sor ez dezan.
3. taulan, zenbait kontzeptu atomiko euskaraz nola gauzatu diren ikus dezakegu (erreferentzia gisa izan dugun gaztelaniazko eta frantsesezko gauzatzea ere idazten dugu konparatzeko).
4. taulan, berriz, zenbait kontzeptu molekular nola gauzatu diren ikus dezakegu. Aldagaiek, adierazten direnean, gertaera horren balioak adierazten dituzte: N aldagaiak hodeien egoera (oskarbia, hodei gutxikoa, estalia...); DD aldagaiak haizearen norabidea (iparraldekoa, hego-mendebaldekoa...); FF aldagaiak haizearen indarra (moderatua, indartsua,...); TS aldagaiak prezipitazioak (euria, zirimiria...), PER periodoa (goizez...)...
Etorkizunerako lanak
tormentas con granizo
/disminuyendo a N2
/disminuyendo a N2
tormentas a N2
disminuyendo a FF2
pasajeramente FF2
Proiektua, gaur egun, garapeneko azken faseetan dago. Sisteman egon daitezken akatsak aztertzeko proba masiboa dugu hurrengo urratsa. Ondoren, beharrezkoak diren aldaketak eta azken ebaluazioa egin. Hala ere, egindako egokitzapena dagoeneko INMren sisteman integratuta dago, eta egunero-egunero estatu espainoleko erkidegoetako eguraldi-iragarpenak eskaintzen dira http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html web helbidean.
Helburu orokorreko idazkera telegrafikoaz gain, helburu bereziko iragarpenak (hondartzetarakoak, mendizaleentzakoak, eskiatzaileentzakoak...) egitea eta idazkera aberatsagoak lantzea (adibidez, aditzak sartuta esaldi osoak eskaintzea) pauso egingarriak lirateke epe ertainean. Frantseserako egin dira horrelako bertsio osatuak, eta erabiltzen dira gaur egun. Euskararako oraingoz aski litzateke garatu den sistemaren erabilgarritasuna aztertzea, eta geroago beharra nabarituko balitz, orduan ekin beharko litzaioke aipatu hobekuntzak antolatzeari.