“Datuak eman eta eman, guk geuk elikatu behar al dugu munstroa?”, galdetu zidan behin lagun batek. Iruditu zitzaidan ezen, galdera soila ez ezik, kontu-eskea ere bazela; alegia, benetan, “zertan habil hi ere, adimen artifiziala elikatzeko aitzakian sortzaileon lana gutxiesten?” esan nahi ote zidan. Adimen artifiziala munstrotzat hartzeak ere bazuen munta galderan.
Eta eman zidan zer pentsa. Lagunak argi marraztu zizkidan bi aldeak: batean, datu-emaileak; bestean, adimen artifizial sortzaile (AAS, engoitik) delakoaren ikerkuntzan eta garapenean gabiltzanok, datu-kontsumitzaileok. Bi aldeen artean arrakalarik sor ez dadin, komeni da batzuen eta besteen rolak eta ikuspegiak zertan diren argitzea.
Egilea da sortu duen obraren jabe, zeinahi dela ere formatua, eta egile-eskubideak ezin dira besterendu. Egileak erabakitzen du argitara eman edo ez eta, baiezkoan, nola argitaratu. Argitaletxe baten esku uztea erabakiz gero, kontratu bidez ezartzen dira ustiapen-eskubideak argitaletxearekin, eta han jasotzen dira obra erreproduzitzeko, banatzeko eta saltzeko baimenen baldintzak. Horraino ezer berririk ez.
Obra horiek, dei diezaiegun datu, ezinbestekoak dira AASaren garapenean. Erraldoi teknologikoak gu konturatzerako hasi ziren sistematikoki biltzen testuak, audioak eta bideoak, eta bilketa horrek ez du etenik izan geroztik. Izugarria da nola masifikatu den datuen bilketa. Nonahitik, noiznahi eta nolanahi biltzen dira datuak, zurrupatze intentsiboan.
Bilketa horren legezkotasunari eta zilegitasunari dagokienez, nahasmen handia dago. Hasteko, lizentzia aski irekiarekin argitaratzen badira, demagun webean, eskuragarri daude, eta, beraz, erabiltzeko moduan. Horrelakoetan, datu horien jabetza duenak kontrakorik esaten ez badu, hizkuntza-ereduen garatzaileak erabili eta argitaratu egin ditzake datu horiek. Aldiz, lizentzia murriztaileagoekin argitaratuz gero, hirugarren batek berriz argitaratzeko aukera ukatzen ahal da. Baina, horra galdera, entrena al litezke hizkuntza-ereduak datu horiekin?
Baietz esateko arrazoi pisuzkoak daude. Izan ere, hizkuntza-ereduek ez dituzte datuak beren horretan erreproduzitzen, banatzen edo saltzen. Datuak erabili egiten dituzte. Hori, zorrotzak izanda, ez da plagioa edo kopia. Hor bada AASak ekarritako berrikuntza erradikal bat. Orain artean pertsonak baizik ez ginen datuak geure burua janzteko erabiltzen genituenak, eta horregatik esaten da datuak argitaratzen diren momentutik ezagutza kolektibo bihurtzen direla. Bada, hizkuntza-ereduek horixe egiten dute, ezagutza hori baliatu beren baitan duten eredu matematikoa osatzeko. Hortaz, ez dirudi legezko eragozpen agerikorik dagoenik jardunbide horretan. Ikuspegi horrek indarra du AASaren arloko ikertzaileen eta garatzaileen artean.
Baina hor nabarmentzekoa da beste kontu bat: ezagutza kolektibo horren erabilera teknologikoak halako balio ekonomikoa duelarik, nola kudeatu behar da hori guztia? Horren atzean irabazien banaketaren auzia dago, jakina, eta horrek egileen eta datu-hornitzaileen lana aintzatestea eskatzen du. Nola? Konplexua da kontu hori, konplexuegia tarte txiki honetan horri heltzeko.
Argi dagoena da soluzioa ez dela kolektibizatu den ezagutzari, hots, argitaratu diren datuei, mugak eta oztopoak jartzea. Jokabide horrek datuen eta jakintza irekiaren aurka egiten du, eta, azken batean, hizkuntza txikiei eta baliabide urrikoei egiten die kalte. Izan ere, datuen erabilera oztopatu arren, hizkuntza handien teknologiek badute nahiko baliabide aurrera egiteko; aldiz, euskara bezalako hizkuntzek atzera edo enpresa handien menpe geratzeko arriskua dute. Euskarak datuen erabilera erraztea behar du, eta lizentzia irekien bidetik jotzea, euskaldunok euskaraz sortu duguna ere jasota gera dadin zerbitzu eta produktu teknologikoetan. Azken helburua da produktu horiek euskaraz ere taxuz egin dezaten, hizkuntza ahaltsuen mailan.
Datuen hornikuntzak badu beste iturburu bat, sarri ahazten dena: erabiltzaileak. Egileak, argitaletxeak, biltzaileak eta garatzaileak aipatu ditugun bezala, hor daude erabiltzaileak ere. AASaren aroan erabiltzaileak ez dira erabiltzaile soil, datu-emaile ere badira. Kontsultak egiten ditugunean, erantzunei baiespena edo ezespena ematen diegunean, informazioa ematen ari gara. Horren jakitun izatea da lehenengo zeregina, eta bigarrena, arduraz jokatzea.
Munstroa elikatzearen beldurraz mintzo zitzaidan adiskidea. Arduraz aritzea eta sortzaileen errekonozimendua beharrezkoak dira, bai, baina beldur paralizatzaileak eta datuak ukatzeak ez digu onik ekarriko euskaldunoi.
Xabier Arregi Iparragirre,
EHU