}

Sare sozialetako mezuen sentimendua erauzteko sistema eleaniztuna garatu dute Elhuyarren

2019/09/27 Galarraga Aiestaran, Ana - Elhuyar Zientzia Iturria: Elhuyar aldizkaria

Euskarazko iritzi-erauzketan aitzindaria den lan bat garatu du Iñaki San Vicente Roncal Elhuyarreko ikertzaileak bere doktorego-tesian. Hain zuzen ere, euskarazko sare sozialetako mezuen polaritatea edo sentimendua (positiboa, neutroa ala negatiboa) hautemateko lehen sistema sortu du Elhuyarreko I+G unitateak, eta publiko jarri du, gainera.
sare-sozialetako-mezuen-sentimendua-erauzteko-sist
Mezuen sentimendua aztertzeko sistemak, testuak ez ezik, bideoak eta audioak ere arakatzen ditu. Arg. Elhuyar

Sare sozialetan, informazio ugari ematen dute erabiltzaileek, tartean, erakunde, enpresa edo gai jakinei buruz. Informazioa erauzteko sistemek enpresei aukera ematen diete, adibidez, jakiteko zenbaterainoko sona duten jendartean; edo erakunde publikoei, jakiteko gizarteak zer jarrera duen haien politiken gainean.

Lehendik bazeuden halakoak egiteko sistemak zenbait hizkuntzatan; ez euskaraz, ordea. Eta, ikertzaileak gogorarazi duenez, Euskal Herrian idatzitako txioen % 15 inguru dira euskarazkoak (guztira, urtean 2,5-2,8 milioi txio). Gainerakoak, gaztelaniaz eta frantsesez dira, batez ere, eta batzuk (gutxiago), ingelesez. Horrenbestez, San Vicentek lau hizkuntza horietan garatu ditu sare sozialetako mezuen sentimendua analizatzeko sistema osatzen duten baliabideak. 

“Lehen pausoa polaritate-lexikoak sortzea izan zen”, azaldu du San Vicentek; hau da, berez sentimendu positiboa edo negatiboa duten hitzen zerrendak osatzea: txarra-ona, gaiztoa-zintzoa… “Hori egitean, testuingurua ere kontuan izan behar da”, ohartarazi du ikertzaileak. Izan ere, testuinguruaren arabera, hitz berak polaritate desberdina izan dezake: “Salmentak jaistea txarra da; aldiz, langabezia jaistea, ona. Hortaz jaitsieren polaritatea aldatu egiten da testuinguruaren arabera”. Horrez gain, ezezkoak (ez, baina, aldiz, ordea...) eta ironia ere kontuan hartu behar dira.  

Bestalde, Twitterren berezko idazkera informalak ere sortzen ditu arazoak. “Twitterren ahozko hizkeraren transkribapen moduko bat egiten dute askok, edo bi hizkuntza nahasten dituzte txio berean. Batzuetan, hitz bati enfasia emateko, azken bokala errepikatzen da, eta emotikonoak ere erabiltzen dira, hain justu, sentimenduak adierazteko”. Horrez gain, partikula indartzaileak eta murriztaileak daude: oso, gutxi… Horiek guztiak hartu dituzte aintzat lexikoa osatzeko.

Ikasketa automatikoa

Hurrengo pausoa izan da lexikoa ikasketa automatikoko sistemetan integratzea. Horrelako sistemak entrenatzeko, milaka adibide erabili dituzte, eskuz sailkatuta: positibo, negatibo edo neutro. “Horiekin, sistemari eredu matematiko bat irakasten diogu; hala, adibide berri bat etorritakoan, aurrekoetan oinarrituta esango du positiboa, negatiboa ala neutroa den”. 

Donostia 2016ko proiektuen gaineko iritziari jarraipena egiteko erabili zen. Arg. Elhuyar

“Euskarazko sailkapenaren asmatze-tasa beste hizkuntzetan izaten denaren parekoa izatea lortu dugu”, adierazi du San Vicentek. Gaur egun, % 75 ingurukoa da asmatze-tasa, baina Elhuyarreko kideak emaitza hobetzeko lanean ari dira, sare neuronaletan oinarrituta. Halaber, hasiera batean sistemak testuetako iritziak soilik erauzten bazituen ere, orain gai da bideoak eta audioak ere aztertzeko eta haietan dauden iritziak hautemateko.

Dagoeneko erabili dute kasu errealetan. Adibidez, Behagunearen bidez, Donostia 2016 Hiriburutzako proiektuen jarraipena egin zuten. Berriarekin batera, berriz, 2016ko EAEko Legebiltzarrerako hauteskunde-kanpainari jarraitu zioten, eta 2018an, EHUko kriminologia Institutuarekin, terrorismoaren biktimen inguruko jarrera aztertu dute, sare sozialetan.

Ikerketa-lana IXA taldearekin elkarlanean egin da, eta emaitza guztiak eskura daude Elhuyarren Hizkuntza Teknologien webgunean.