Web semàntica: Encara queda el poder real d'Internet
2009/05/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Utilitzar tota la informació i les opcions d'Internet no sempre és fàcil. D'una banda, hi ha una enorme quantitat d'informació, i per a submergir-nos sense ofegar-nos en aquesta inundació d'informació, necessitem cercadors com Google o Elebila. Però amb ells, moltes vegades no és fàcil trobar el que necessitem. Per exemple, quan hi ha molts resultats, no és fàcil distingir entre els possibles significats de la paraula que hem donat per a buscar, quines són les pàgines sobre el significat que volem (en buscar la paraula "Texas" apareixeran, per exemple, pàgines sobre l'estat dels EUA, el grup musical, el llibre o moltes altres coses alhora). O moltes vegades no hi ha bona manera de diferenciar entre bona i mala informació, ja que la demostració per part dels cercadors en les primeres posicions no sempre assegura la qualitat. D'altra banda, en molts casos no és possible unificar tot tipus de serveis, i quan volem comprar alguna cosa, per exemple, per a comparar preus i opcions, no tenim més que mirar en les pàgines web de diferents botigues.
Font de problemes, format HTML
Tots aquests problemes provenen del disseny inicial de la xarxa. La web és, en definitiva, una col·lecció d'hipertexts situats en la infraestructura d'Internet, és a dir, una col·lecció de documents que es fan referència entre si, i per a codificar l'hipertext s'utilitza el format HTML creat pel propi Berners-Lee. Les característiques i limitacions d'aquest format són la causa de tots els problemes.
HTML o HyperText Markup Language és un llenguatge de marcat de text que explica com descriure un text o les seves parts. En llenguatge HTML, aquest marcat descriptiu es realitza mitjançant etiquetes que s'insereixen entre els símbols en el propi text. Per exemple, en HTML per a indicar que una part de text és un títol de primer grau s'utilitza l'etiqueta h1 ( h1 Títol de primer grau /h1 ) i per a escriure en cursiva l'etiqueta em ( em text de cursiva /em ). Existeixen multitud d'etiquetes d'aquest tipus per a enllaços, imatges, etc. Els navegadors interpreten aquesta marcació i mostren a l'usuari la pàgina d'una manera adequada.
Però la majoria de les etiquetes d'HTML són per a descriure l'estructura i l'aparença del text, perquè un ésser humà pugui veure i comprendre el text de manera adequada. No estan pensats per a millorar o facilitar el tractament automàtic de les màquines. I els cercadors i altres eines d'Internet són només màquines. Només amb les etiquetes HTML no disposen d'informació suficient per a treballar bé i no poden entendre el text com el fem les persones. Així, en tractar-se únicament de text i etiquetes HTML, un cercador no pot saber si una pàgina en la qual apareix la paraula "Java" es refereix a l'illa o al llenguatge de programació, o si, en una pàgina que parla d'un producte, la gent parla bé o malament sobre ell, o que una pàgina és d'una botiga online que embeni un determinat producte...
La web semàntica té solució
El propi creador de la World Wide Web està buscant una solució. De fet, la web semàntica és una de les directrius més treballades últimament per l'organització internacional World Wide Web Consortium dirigida per Tim Berners-Lee: un projecte que pretén corregir els errors del disseny inicial.
L'etiquetatge del format HTML serveix per a descriure els documents i les seves relacions. En la web semàntica es descriuen objectes, persones, etc. i les seves relacions. En lloc que les etiquetes reflecteixin la forma i estructura de la pàgina, s'etiqueta el significat dels elements de la fulla. En la web semàntica podrien existir etiquetes per a, per exemple, la declaració i descripció de grups musicals, unes altres per a la declaració i descripció de persones, unes altres per a la descripció que unes persones formen un grup musical i així amb totes les coses.
D'aquesta manera, els cercadors podrien diferenciar de les pàgines que contenen la paraula "Scorpions" quines són les corresponents al grup musical i quins animals, i mostrar els resultats agrupats sobre la base d'aquests significats possibles. O crear cercadors especialitzats en grups musicals. O bé es podria detectar amb relativa facilitat que s'embeni el mateix producte en diferents botigues online i construir serveis que exposessin totes les opcions de preus conjuntament. O, en detectar els esdeveniments teatrals i la seva localització, podríem completar automàticament un calendari de totes les representacions teatrals d'un país. O mitjançant l'etiquetatge semàntic de les puntuacions atorgades pels usuaris a una pàgina web o a un producte, els cercadors o botigues també podrien realitzar rànquings per puntuació. I la web semàntica tindria milers d'aplicacions d'aquest tipus que encara no podem imaginar.
Per tant, la web semàntica seria una xarxa paral·lela a la xarxa HTML codificada per a les persones, una base de coneixement comprensible per les màquines, codificada en formats expressius de semàntica. A més de la web en llenguatge natural, tindríem un altre text estructurat. Aquesta representació del coneixement podria ser entesa per les màquines, tractada eficaçment, inferida del nou coneixement...
No hi ha dubte que la web semàntica pot suposar un gran canvi en Internet. Però, com es fa per a fer realitat el poder? Quines eines són necessàries? I quins tenim?
Seguirà...
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia