Web semantikoa, badauden eta beharko diren teknologiak
2009/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Web semantikoan, objektuak, pertsonak... eta haien arteko erlazioak deskribatzen dira etiketa bidez. Etiketetan, orriaren itxura eta egitura azaldu beharrean, orriko elementuen esanahia jasotzen da. Horri esker, HTML sarearekin batera existituko litzatekeen sare paralelo bat sor daiteke, makinek ulertzeko moduko ezagutza-base bat, semantika adierazteko formatuetan kodetua. Behin makinek ulertuta, modu eraginkorrean tratatu ahal izango lukete informazioa, eta milaka aplikaziotarako bidea ireki.
Teknologiak: RDF, OWL...
Baina, horretarako, amaraunean dauden kontzeptu guztiak definitu ahal izateko, etiketatze semantikoko eskema eta formatuak behar dira. W3Ck formatu horiek definitu ditu hainbat estandarretan; RDF eta OWL dira garrantzitsuenak eta ezagunenak.
RDF ( Resource Description Framework ) baliabideak deskribatzeko balio duen formatu bat da, XMLn oinarritua. Hiru elementutan oinarritzen da: baliabideak, propietateak eta propietateen balioak. Baliabidea deskribatuko den hori da, eta URL batez (web identifikatzaile edo helbide batez) identifikatzen da. Propietatea baliabidearen ezaugarri bat da, deskribatu nahi dena. Eta balioak deskribatu nahi diren ezaugarrien balio konkretuak dira (ikusi hurrengo orriko adibidea).
Era horretara, nahi duguna deskriba dezakegu. Baina gauza-mota bakoitza (pertsonak, musika taldeak, liburuak...) deskribatzeko erabili beharreko etiketetan ados jarri beharra dago; bestela, makinek ulertu gabe jarraituko lukete. Horretan laguntzen du OWL ( Web Ontology Language ) lengoaiak. OWLk ezagutza-arlo edo bizitzaren esparru jakin bateko objektu edo entitateak nola deskribatuko diren definitzea ahalbidetzen du.
Adibide erreal bat: RSS formatua
Web semantikoaren ahalmenaren adibide txiki bat geure artean dugu aspalditik: blogek hasieratik, eta, gaur egun, Interneteko bestelako albisteguneek ere erabiltzen duten RSS ( Really Simple Syndication ) formatua. Izatez, RDF mota bat da (jatorrizko izena RDF Site Summary da), albisteak deskribatzen espezializatutakoa. Blogek berrikuntza handia ekarri zuten, informatika edo HTML ezagutza teknikorik izan gabe Interneten edukia sortzeko aukera eman baitzioten erabiltzaileari, eta jende berri asko hasi zen Interneten testuak jartzen. Baina blogek ez zuketen halako arrakasta izango RSS formatuagatik ez balitz.
Izan ere, blogak HTML formatuan soilik publikatu izan balira, hainbat blogen gaiak atsegin dituen irakurle batentzat ez litzateke erraza izango haiei jarraipena egitea. Aldian behin horietako guztietara sartu beharko luke, zerbait berririk dagoen ikusteko. Eta lan hori, gainera, askotan ezer berririk ez egoteko, edo ez gogoratzeko azkeneko aldian zein irakurri genituen... Azkenean, ezingo luke blog gutxi batzuen jarraipena baino egin.
Baina blogek, pertsonentzako HTML bertsioaz gain, makinentzako RSS bertsioa ere bazuten. Bertsio horretan, azken sarrera edo artikuluak agertzen ziren, horietako bakoitza etiketen bidez ondo ezberdinduta, eta bakoitzaren izenburua, egilea, data, laburpena, esteka eta abar ondo egituratuta, makinek ulertzeko moduan. Hala, RSS-irakurgailuak sortu ziren, norberak atsegin dituen blogen jarraipena egiteko. Irakurgailuak gure blog gogokoen RSSen jarraipen periodikoa egiten du, eta erabiltzaileari azkeneko sartu zenetik dauden berriak soilik erakutsi; horrela, hamarka edo ehunka blogen jarraipena egin daiteke. Eta blogetan espezializatutako bilatzaileak ere sortu ziren, eta RSSak batu eta filtratzeko zerbitzuak, egunkari eta aldizkarien webguneek ere jarri zuten RSSa, sare sozialek ere bai... Web 2.0ren iraultzaren benetako "errudunetako" bat RSSa izan zen.
Pentsa, blog eta albisteentzako etiketatze semantiko sinple batek hori egin badu, zer ez den gertatuko beste edonolako kontzeptuak (pertsonak, salgaiak, ekitaldiak...) ere semantikoki etiketatzen direnean...
Web semantikoaren ajeak
Hala ere, ezin guztia ona izan. Badira jada urte batzuk web semantikoaren ideia sortu zela, eta gauzatzea asko kostatzen ari zaio. Izan ere, ez da lan erraza. Batetik, existitzen diren kontzeptu guztientzako ontologiak definitu eta adostu behar dira, eta, hainbat gauza jada egin diren arren, lan ikaragarria da.
Baina, bestetik, are garrantzitsuagoa dena, gero edukia formatu horietan sortu behar da, eta hori oso neketsua izan daiteke. Ezin dugu espero webguneak sortzen dituen jendeak RDF formatuan eskuz etiketatzea. Webguneak tresnak erabiliz sortzen dira aspalditik, eta tresna horiek izan beharko dira egokitu eta edukia formatu semantikoan ere sortuko dutenak, blog-plataformek zuzenean RSSa ere publikatzen duten bezala. Kasu jakin batzuetan, espero izatekoa da hori nahiko laster gertatzea, hala nola edukia berez nahiko egituratua den kasuetan (ekitaldien egutegiak, adibidez) edo enpresen interesekoak direnetan (on line dendetako produktuen deskribapen orriak, adibidez).
Zailagoa izango da gaur egun lengoaia naturalean idatzitako testuetan agertzen den informazio guztia ere semantikoki etiketatzea. Testu batean pertsonak, liburuak, haien ezaugarriak, haien arteko erlazioak eta abar deskribatzen direnean, hori semantikoki etiketatzea, tresna bisualen laguntzarekin ere, izugarrizko lana da. Eta ez dago, egutegiaren edo dendetako produktuen kasuetan bezala, automatikoki egiterik...
Makinak testua ulertzen?
Edo bai. Hainbat esperimentutan, Lengoaia Naturalaren Prozesamenduko (NLP) teknikak erabiltzen ari dira testu arruntetatik automatikoki etiketatze semantikoa erauzteko, batzuetan arrakastaz. Webgintzako tresnek agian horrelako LNPko teknikak integratu ditzakete, eta eduki sortzaileari lagundu diezaiokete etiketatze semantikoa sortzen, etorkizun ez hain urrun batean. Baina, bestalde, makinak hori benetan ongi egiteko gai badira, ez dago web semantikoaren beharrik, horrek esan nahi baitu makinak gai direla testua "ulertzeko", eta Interneteko bilatzaile eta bestelako agenteek zuzenean modu eraginkor batean tratatu ahal izango dituztela HTML formatuan dauden testuak.
Ez dakigu zein iritsiko den lehenago, semantikoki etiketatutako weba ala makinek testuaren semantika edo esanahia ulertzea. Eta, lehenengo kasua bada, ezin jakin zenbat eduki egongo den web semantikoan: web osoa etiketatuko den semantikoki, edo gauza jakin batzuk soilik (sinpleenak eta enpresen interesekoak), edo bien arteko zerbait... Edonola ere den, modu batera edo bestera, webean esanahiak gero eta garrantzi handiagoa izango du, eta, semantikari esker, zerbitzu gero eta hobeak izango ditugu. Sir Tim Berners-Leek berak aurtengo martxoan esana da: "Weba ez dago amaituta. Gaur egungo weba izebergaren punta besterik ez da. Teknologia berriak iritsiko dira, askoz ere boteretsuagoak, inoiz pentsatuko ez genituzkeen gauzak egitea ahalbidetuko digutenak. Onena iristear dago". Hala bedi!
Igor Leturia Azkarate. Informatikaria eta ikertzailea.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia