JJ8, hizkuntzaren oihanean galduta
2009/11/01 Roa Zubia, Guillermo - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Robotak makinak dira; ez dute belarririk. Entzun ahal izateko, mikrofono bat behar dute; ahotsaren uhin hori digitalizatu, eta datu horietatik hizlariaren mezua zein den aurkitzen dute. Ingeniariek eta informatikariek hartu dute parte ahotsa ezagutzeko sistema horretan. Helburua ez da erraza: hizlariaren tonua eta dikzioa ia edozein dela ere ulertu behar du makinak mezua.
Lan horretarako, aurrez trebatu behar du makinak. Adimen artifizialaren teknikak dira. Ikasi egin behar du. Ez da harritzekoa; gizakiak ere horrela ikasten du. Umeek urteak behar izaten dituzte esaten zaizkien hitzak ezagutzeko, eta hizketarekin ematen zaien mezua harrapatzeko. Helduek ere gauza bera egiten dute hizkuntza berri bat ikasten dutenean. "Belarria egin" behar dute. Eta belarria egite horrekin ere ez da bukatzen ikasi beharrekoa.
JJ8 robotak Nekez aurkituko duzu gatza egongelan esaldia jasotzen duenean, gauza asko egin behar ditu ulertu ahal izateko. Dagoeneko ezagutzen du bost hitzen segida, baina, orain, esaldiaren egitura zein den argitu behar du. Segmentatu egin behar du; alegia, jakin behar du Nekez aurkituko duzu hitzek multzo zentzudun bat osatzen dutela, gatza hitzak beste bat, eta egongelan hitzak beste bat. Eta argitu behar du zergatik osatzen dituzten multzo horiek eta ez beste batzuk.
Horrez gain, hitzez hitz aztertu behar du. Jakin behar du aurkitu aditza dela, gatza izena eta abar. Eta lemak identifikatu behar ditu: aurkituko hitzaren atzean aurkitu lema identifikatu behar du. Alegia, jaso dituen hitzen oinarrizko forma izan behar du esanahia bilatzeari ekiteko.
Gizakion munduan barrena
Oraingoz, JJ8k ez du ezer ulertu. Badaki zer hitzek osatzen duten esaldia, nola antolatuta dauden eta nondik abiatu behar duen hitz bakoitzaren esanahia bilatzeko, baina ez du ezer ulertu. Ez du jakintzarik esaldia ulertzeko, ezta testuinguru bat ere. Baina, nahitaez, hurrengo urratsa Faustok esandakoa ulertzea da. Koitadua anbiguotasunaren munduan murgiltzear dago.
Zorionez, hitz horiek ez dituzte adiera asko. Itxuraz, gatza gatza da, hau da, ez dirudi hitz horrek sodio kloruroa ez den beste ezer adierazten duenik. Baina ez da guztiz egia: graziaren edo bizitasunaren sinonimo ere izan daiteke. Kasu honetan, JJ8k esanahi hori baztertu, eta Fausto sodio kloruroaz ari dela argitu beharko du.
Informatikariek hori egiteko asmatu duten modurik eraginkorrena metodo estatistikoa da. JJ8k gatz lema testu askotan bilatu, eta aztertu beharko du zer beste hitzekin batera azaltzen den normalean. Lan zaila du; askotan azalduko zaio laborategi-giroko testuetan, baina horrek ez dio laguntzen. Argi eta garbi, Faustoren mezuak ez du kimikarekin inongo loturarik (edo hori uste du, behintzat). Hala ere, gatz eta aurkitu batera azaltzen diren testu gehienetan, gatza sodio kloruroaren sinonimoa izango da. Ez beti. Baina gehienetan hala bada, adiera horren aldeko erabakia --erabaki zaila-- hartu beharko du. Gaur egun, informatikariek lan txukuna egin dute makinek horrelako erabakiak har ditzaten, eta, hala ere, estatistika ez da beti modu onena hori lortzeko (litekeena da gatz eta aurkitu hitzak batera dituzten testuinguru batzuetan gatzaren esanahia grazia edo bizitasuna izatea).
Hitz bakoitzaren adiera zuzena aukeratzeko lanari desanbiguazioa deitzen diote informatikariek (eta hizkuntzalariek). Makinak hizketaldi bat ulertzeko ezinbestekoa da, eta, kasu askotan, gainditu beharreko arazo nagusia. Baina ez da arazo bakarra.
Faustori ulertzeko, JJ8k beste maila bateko irakurketa bat egin beharko luke. Nekez aurkituko duzu esaldiaren benetako esanahia da Ez duzu aurkituko . JJ8 gajoak, ordea, baietz uste du; nekez hitzak adierazten duela ahalegin berezia egin beharko duela, besterik ez.
Baina gizakiaren hizkera ez da argia eta zuzena izaten. Metaforaz, ironiaz, hiperbolez eta beste hainbat trikimailuz josita dago. Askotan, esaldi bat erabiltzen du esaldi horren esanahia ez den zerbait adierazteko. Gero arte esaten du jakinda gero ez dela inorekin elkartuko. Ordurik baduzu? esaten du zer ordu den galdetzeko, eta ez besteak ondo funtzionatzen duen erloju bat duela baieztatzeko. Beste adibide asko daude.
Erantzuna
JJ8k ahal izan duena ulertu du, eta ulertu duen horren arabera erantzuten du. Baina prozesu hori ere ez da erraza. Izan ere, elkarrizketa batean mota askotako erantzunak behar dira. Batzuetan datu bat bilatu behar da erantzuteko. Beste batzuetan azalpen oso bat. Beste batzuetan, probokazio bati erantzun behar zaio. Denetik dago.
Eta mota bakoitza bilatzeak berezko estrategia bat eskatzen du. Berriz ere, adimen artifizialarekin egiten dugu topo: galderak erantzuteko teknikak, bilaketa adimentsua, informazio-erauzketak, hizkuntza bat baino gehiagotan dagoen informazioaren itzulpen automatikoa eta abar. Eta, jakina, teknika horien konbinazioak ere beharrezkoak dira.
Robotaren lana forma hartzen ari da. Esan daiteke erantzuna bilatuta zailena egin duela. Baina ez du guztiz bukatu. Erantzun horri hizketa-forma eman behar dio. Hizkuntza sortzeko teknikak erabili behar ditu. Nolabait, atzeranzko bidea da. Ahotsa jaso du, esandakoaren hizkuntza analizatu du, ulertu du, erantzun bat bilatu du, eta, orain, alderantzizkoa egin behar du. Erantzunari hizkuntzaren arauak aplikatu, eta hitz egiteko egokia den testu bat sortu behar du.
Eta, azkenik, JJ8k ahotsa sintetizatu behar du testu horretan dagoena esateko. Agian, horixe da errazena. Ahots sintetikoaren sorrera garatuta dago neurri handi batean, ez bada emozioak eta oso tonu berezia behar direla.
Azkenean! Robotak erantzun du. Kasu honetan, Faustok sukaldera joateko esan dio JJ8ri. Besterik ez. Robotak ez zuen erantzuteko beharrik ere. Sukaldera itzuli, eta han gatza (gatzontzia) bilatzen hasi behar zuen. Baina erantzun egin du, eta, egia esan, erantzunari esker daki Faustok zer pentsatu duen JJ8k.
Fausto ez dago oso pozik, robot sukaldariak ez baitio guztiz ulertzen, eta horrek behartzen du modu zehatz eta argian hitz egitera. Baina elkarrizketa artifiziala sortzen zer zaila den ikusita, pozik egon beharko luke Faustok.
Errealitatea
JJ8 ez da benetakoa. Makina bati hitz egiteko gaitasuna emateak dituen zailtasunak aurkezteko adibide gisa jaio da. Baina haren ordezko robot errealek antzeko zailtasunak gainditu behar dituzte, izango dituzten aplikazioen arabera. Agian, ez dituzte JJ8 robotak egiten dituen urrats berberak edo ordena berberean egingo. Baina, kasu guztietan, atzean dagoen zientziak eta teknologiak hizkuntzaren prozesamenduarekin dute zerikusia. Benetako makina hizlariek dituzten zailtasun handienak gizakion hizkuntza prozesatzekoak dira.
Bide horretan, aurrera egin dute ikertzaileek. Dena dela, adituak ados daude: asko falta da oraindik pertsonek bezala hitz egiteko ahalmena izateko makinek. Ikerketa hasierako urratsetan besterik ez dago, baina jadanik eginda dagoen lana harrigarria da; alde batetik, informatikarien eta hizkuntzalarien elkarlanak erakutsi du zein diren solasaldi artifizialaren zailtasunak, eta, bestetik, urrats gehienetarako estrategiak garatzen hasita daude. Ez da gutxi.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia