Web semántica, tecnoloxías existentes e necesarias
2009/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Na web semántica descríbense mediante etiquetas os obxectos, as persoas... e as súas relacións. Nas etiquetas, en lugar de explicar a forma e estrutura da páxina, recóllese o significado dos elementos da mesma. Isto permite crear una rede paralela á rede HTML, una base de coñecemento entendible polas máquinas, codificada en formatos expresivos de semántica. Una vez entendidas as máquinas, poderían tratar a información de forma eficaz e abrir o camiño a miles de aplicacións.
Tecnoloxías: RDF, OWL...
Con todo, paira poder definir todos os conceptos presentes na rede, é necesario dispor de esquemas e formatos de etiquetaxe semántico. W3C definiu estes formatos en diferentes estándares, sendo RDF e OWL os máis importantes e coñecidos.
RDF ( Resource Description Framework ) é un formato de descrición de recursos baseado en XML. Baséase en tres elementos: recursos, propiedades e valores de propiedades. O recurso é o que se describe e identifícase por unha URL (identificador web ou dirección). A propiedade é una característica do recurso que se desexa describir. Os valores son valores concretos das características que se queren describir (ver exemplo na páxina seguinte).
Desta maneira podemos describir o que queremos. Pero hai que porse de acordo nas etiquetas que hai que utilizar paira describir cada tipo de cousa (persoas, grupos de música, libros...), si non, as máquinas seguirían sen entendelas. A iso contribúe a linguaxe OWL ( Web Ontology Language ). OWL permite definir como se describirán os obxectos ou entidades dunha determinada área de coñecemento ou vida.
Un exemplo real: Formato RSS
Un pequeno exemplo da capacidade da web semántica témolo entre nós desde hai tempo: o formato RSS ( Really Simple Syndication ) que utilizan os blogs desde o principio e hoxe en día outros informativos de Internet. De feito, trátase dun tipo RDF (cuxo nome orixinal é RDF Site Summary) especializado na descrición de noticias. Os blogs introduciron una gran innovación, xa que permitiron ao usuario crear contido en Internet sen coñecementos técnicos de informática ou HTML, e moita xente nova empezou a pór textos en Internet. Pero os blogs non terían tanto éxito se non fóra por formato RSS.
De feito, se os blogs só se publicaron en formato HTML, paira un lector interesado nos temas dalgúns blogs non sería fácil facer un seguimento dos mesmos. Debería acceder periodicamente a todos eles paira ver si hai algo novo. E ese traballo, ademais, moitas veces para que non haxa nada novo, ou para que non se acorde do que liamos a última vez... Ao final non podería facer máis que o seguimento duns poucos blogs.
Pero os blogs, ademais da versión HTML paira persoas, tamén tiñan a versión RSS paira máquinas. Nesta versión aparecían as últimas entradas ou artigos, cada un deles ben diferenciado por etiquetas, e ben estruturado o título de cada un, o autor, a data, o resumo, o enlace, etc., de forma que as máquinas compréndanas. Desta forma creáronse lectores de RSS paira facer un seguimento dos blogs que cada un ten ao seu gusto. O lector realiza un seguimento periódico dos RSS dos nosos blogs favoritos e mostra ao usuario só as noticias existentes desde a súa última entrada, o que permite facer un seguimento de decenas ou centenares de blogs. Tamén se crearon buscadores especializados en blogs, servizos de recollida e filtrado de RSS, webs de xornais e revistas, redes sociais, etc. Uno dos "culpables" reais da revolución da Web 2.0 foi o RSS.
Pensa que se unha simple etiquetaxe semántico paira blogs e noticias fíxoo, que non ocorrerá cando outros conceptos como persoas, mercadorías, eventos se etiqueten semánticamente...
Contidos da web semántica
Con todo, todo é bo. Hai xa uns anos que xurdiu a idea da web semántica e estalle custando moito facelo. Non é tarefa fácil. Por unha banda, hai que definir e acordar ontologías paira todos os conceptos que existen, e aínda que hai cousas que xa se fixeron, é un traballo enorme.
Pero, doutra banda, o que é máis importante, daquela o contido debe crearse neses formatos, e iso pode ser moi laborioso. Non podemos esperar que a xente que crea a web se etiquete manualmente en formato RDF. As páxinas web créanse desde hai tempo utilizando ferramentas que deberán ser as que adapten e xeren contido en formato semántico, como as plataformas de blogs publican directamente o RSS. En determinados casos, é de esperar que isto ocorra con certa rapidez, por exemplo naqueles nos que o contido é bastante estruturado en si mesmo (calendarios de eventos, por exemplo) ou nos que son de interese paira as empresas (por exemplo, follas descritivas de produtos en tendas online).
Será máis difícil etiquetar semánticamente toda a información que aparece actualmente nos textos escritos en linguaxe natural. Cando nun texto descríbense as persoas, os libros, as súas características, as súas relacións, etc., etiquetar semánticamente isto, mesmo con axuda de ferramentas visuais, é una tarefa tremenda. E non se pode facer automaticamente, como no caso do calendario ou dos produtos das tendas...
A máquina entende o texto?
Ou si. En varios experimentos, están a utilizarse técnicas de Procesamiento da Linguaxe Natural (NLP) paira extraer automaticamente a etiquetaxe semántico de textos convencionais, ás veces con éxito. As ferramentas web poden integrar este tipo de técnicas de LNP e axudar ao contido creativo a crear unha etiquetaxe semántico nun futuro non tan afastado. Con todo, se as máquinas son realmente capaces de facelo ben, non é necesaria a web semántica, o que significa que as máquinas son capaces de "entender" o texto e que os buscadores e outros axentes de Internet poderán tratar directamente os textos en formato HTML dunha maneira eficaz.
Non sabemos quen chegará antes, a web semánticamente etiquetada ou as máquinas comprender a semántica ou o significado do texto. E, no primeiro caso, non se sabe canto contido estará na web semántica: semántica na que se etiquetará toda a web, ou só algunhas cousas (as máis sinxelas e de interese empresarial), ou algo entre ambas... En calquera caso, dunha maneira ou outra, o significado na web vai ter cada vez máis importancia, e grazas á semántica teremos servizos cada vez mellores. O propio Sir Tim Berners-Le dixo en marzo deste ano: "A web non está terminada. A web actual é só a punta do iceberg. Chegarán novas tecnoloxías, moito máis poderosas, que nos permitan facer cousas que nunca pensariamos. O mellor está a piques de chegar". Así sexa!
Igor Leturia Azkarate. Informático e investigador.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia