Web semántica: Aínda queda o poder real de Internet
2009/05/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Utilizar toda a información e as opcións de Internet non sempre é fácil. Por unha banda, hai una enorme cantidade de información, e paira mergullarnos sen afogarnos nesta inundación de información, necesitamos buscadores como Google ou Elebila. Pero con eles, moitas veces non é fácil atopar o que necesitamos. Por exemplo, cando hai moitos resultados, non é fácil distinguir entre os posibles significados da palabra que demos paira buscar, cales son as páxinas sobre o significado que queremos (ao buscar a palabra "Texas" aparecerán, por exemplo, páxinas sobre o estado de EE.UU., o grupo musical, o libro ou outras moitas cousas á vez). Ou moitas veces non hai boa maneira de diferenciar entre boa e mala información, xa que a demostración por parte dos buscadores nas primeiras posicións non sempre asegura a calidade. Doutra banda, en moitos casos non é posible unificar todo tipo de servizos, e cando queremos comprar algo, por exemplo, paira comparar prezos e opcións, non temos máis que mirar nas páxinas web de diferentes tendas.
Fonte de problemas, formato HTML
Todos estes problemas proveñen do deseño inicial da rede. A web é, en definitiva, una colección de hipertextos situados na infraestrutura de Internet, é dicir, una colección de documentos que se fan referencia entre si, e paira codificar o hipertexto utilízase o formato HTML creado polo propio Berners-Le. As características e limitacións deste formato son a causa de todos os problemas.
HTML ou HyperText Markup Language é unha linguaxe de marcado de texto que explica como describir un texto ou os seus partes. En linguaxe HTML, este marcado descritivo realízase mediante etiquetas que se inseren entre os símbolos no propio texto. Por exemplo, en HTML paira indicar que una parte de texto é un título de primeiro grao utilízase a etiqueta h1 ( h1 Título de primeiro grao /h1 ) e paira escribir en cursiva a etiqueta em ( em texto de cursiva /em ). Existen multitude de etiquetas deste tipo paira enlaces, imaxes, etc. Os navegadores interpretan esta marcación e mostran ao usuario a páxina dunha maneira adecuada.
Pero a maioría das etiquetas de HTML son paira describir a estrutura e a aparencia do texto, para que un ser humano poida ver e comprender o texto de forma adecuada. Non están pensados paira mellorar ou facilitar o tratamento automático das máquinas. E os buscadores e outras ferramentas de Internet son só máquinas. Só coas etiquetas HTML non dispoñen de información suficiente paira traballar ben e non poden entender o texto como o facemos as persoas. Así, ao tratarse unicamente de texto e etiquetas HTML, un buscador non pode saber se una páxina na que aparece a palabra "Xava" refírese á illa ou á linguaxe de programación, ou si, nunha páxina que fala dun produto, a xente fala ben ou mal sobre el, ou que una páxina é dunha tenda online que vende un determinado produto...
A web semántica ten solución
O propio creador da World Wide Web está a buscar una solución. De feito, a web semántica é una das directrices máis traballadas ultimamente pola organización internacional World Wide Web Consortium dirixida por Tim Berners-Le: un proxecto que pretende corrixir os erros do deseño inicial.
A etiquetaxe do formato HTML serve paira describir os documentos e as súas relacións. Na web semántica descríbense obxectos, persoas, etc. e as súas relacións. En lugar de que as etiquetas reflictan a forma e estrutura da páxina, se etiqueta o significado dos elementos da folla. Na web semántica poderían existir etiquetas paira, por exemplo, a declaración e descrición de grupos musicais, outras paira a declaración e descrición de persoas, outras paira a descrición de que unhas persoas forman un grupo musical e así con todas as cousas.
Deste xeito, os buscadores poderían diferenciar das páxinas que conteñen a palabra "Scorpions" cales son as correspondentes ao grupo musical e que animais, e mostrar os resultados agrupados en base a estes significados posibles. Ou crear buscadores especializados en grupos musicais. Ou ben se podería detectar con relativa facilidade que se vende o mesmo produto en diferentes tendas online e construír servizos que expuxesen todas as opcións de prezos conxuntamente. Ou, ao detectar os eventos teatrais e a súa localización, poderiamos completar automaticamente un calendario de todas as representacións teatrais dun país. Ou mediante a etiquetaxe semántico das puntuacións outorgadas polos usuarios a unha páxina web ou a un produto, os buscadores ou tendas tamén poderían realizar rankings por puntuación. E a web semántica tería miles de aplicacións deste tipo que aínda non podemos imaxinar.
Por tanto, a web semántica sería una rede paralela á rede HTML codificada paira as persoas, una base de coñecemento entendible polas máquinas, codificada en formatos expresivos de semántica. Ademais da web en linguaxe natural, teriamos outro texto estruturado. Esta representación do coñecemento podería ser entendida polas máquinas, tratada eficazmente, inferida do novo coñecemento...
Non cabe dúbida de que a web semántica pode supor un gran cambio en Internet. Pero, como se fai paira facer realidade o poder? Que ferramentas son necesarias? E cales temos?
Seguirá...
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia