Web sémantique, technologies existantes et nécessaires
2009/06/01 Leturia Azkarate, Igor - Informatikaria eta ikertzaileaElhuyar Hizkuntza eta Teknologia Iturria: Elhuyar aldizkaria
Le site sémantique décrit les objets, les personnes... et leurs relations. Dans les étiquettes, au lieu d'expliquer la forme et la structure de la page, il recueille la signification des éléments de celui-ci. Cela permet de créer un réseau parallèle au réseau HTML, une base de connaissances compréhensible par les machines, codée dans des formats expressifs de sémantique. Une fois les machines comprises, elles peuvent traiter efficacement l'information et ouvrir la voie à des milliers d'applications.
Technologies: RDF, OWL...
Cependant, pour pouvoir définir tous les concepts présents sur le réseau, il est nécessaire d'avoir des schémas et des formats d'étiquetage sémantique. W3C a défini ces formats dans différentes normes, RDF et OWL étant les plus importants et les plus connus.
RDF ( Resource Description Framework ) est un format de description des ressources basé sur XML. Elle repose sur trois éléments : ressources, propriétés et valeurs de propriétés. La ressource est celle qui est décrite et identifiée par une URL (identifiant web ou adresse). La propriété est une caractéristique de la ressource que vous souhaitez décrire. Les valeurs sont des valeurs concrètes des caractéristiques que vous voulez décrire (voir exemple sur la page suivante).
De cette façon, nous pouvons décrire ce que nous voulons. Mais il faut se mettre d'accord sur les étiquettes à utiliser pour décrire chaque type de chose (personnes, groupes de musique, livres...), sinon, les machines continueraient à ne pas les comprendre. Le langage OWL (Web Ontology Language) y contribue. OWL permet de définir comment les objets ou entités d'un domaine particulier de connaissance ou de vie seront décrits.
Un exemple réel: Format RSS
Nous avons un petit exemple de la capacité du web sémantique entre nous depuis longtemps : le format RSS ( Really Simple Syndication ) utilisé par les blogs depuis le début et aujourd'hui d'autres informations sur Internet. En fait, il s'agit d'un type RDF (dont le nom original est RDF Site Summary) spécialisé dans la description des nouvelles. Les blogs ont apporté une grande innovation, car ils ont permis à l'utilisateur de créer du contenu Internet sans connaissances techniques en informatique ou HTML, et beaucoup de nouvelles personnes ont commencé à mettre des textes sur Internet. Mais les blogs n'auraient pas eu autant de succès si ce n'était par format RSS.
En fait, si les blogs n'avaient été publiés qu'au format HTML, pour un lecteur intéressé par les sujets de certains blogs, il ne serait pas facile de les suivre. Vous devriez y accéder régulièrement pour voir s'il y a quelque chose de nouveau. Et ce travail, en outre, souvent pour qu'il n'y ait rien de nouveau, ou pour qu'il ne se souvienne pas de ce que nous lisions la dernière fois... En fin de compte, je ne pourrais faire que le suivi de quelques blogs.
Mais les blogs, en plus de la version HTML pour les personnes, avaient aussi la version RSS pour les machines. Dans cette version apparaissaient les dernières entrées ou articles, chacun d'eux bien différencié par des étiquettes, et bien structuré le titre de chacun, l'auteur, la date, le résumé, le lien, etc., de façon que les machines les comprennent. De cette façon, des lecteurs RSS ont été créés pour suivre les blogs que chacun a à son goût. Le lecteur suit régulièrement les flux RSS de nos blogs préférés et montre à l'utilisateur que les nouvelles existantes depuis sa dernière entrée, ce qui permet de suivre des dizaines ou des centaines de blogs. Des chercheurs spécialisés ont également été créés sur les blogs, les services de collecte et de filtrage de RSS, les sites de journaux et de magazines, les réseaux sociaux, etc. Un des vrais "coupables" de la révolution du Web 2.0 était le RSS.
Pensez que si un simple étiquetage sémantique pour les blogs et les nouvelles l'a fait, ce qui ne se produira pas quand d'autres concepts comme les personnes, les marchandises, les événements sont marqués sémantiquement...
Contenu du site sémantique
Cependant, tout est bon. Il y a déjà quelques années que l'idée du web sémantique est née et il lui coûte beaucoup de le faire. Ce n'est pas une tâche facile. D'une part, il faut définir et consensuer des ontologies pour tous les concepts qui existent, et bien qu'il y ait des choses qui ont déjà été faites, c'est un travail énorme.
Mais, d'autre part, ce qui est plus important, le contenu doit être créé dans ces formats, et cela peut être très laborieux. Nous ne pouvons pas attendre que les gens qui créent le web soient étiquetés manuellement au format RDF. Les pages Web sont créées depuis longtemps à l'aide d'outils qui doivent être ceux qui adaptent et génèrent du contenu au format sémantique, comme les plateformes de blogs publient directement le RSS. Dans certains cas, il faut s'attendre à ce que cela se produise rapidement, comme par exemple dans ceux où le contenu est assez structuré en soi (calendriers d'événements, par exemple) ou dans ceux qui sont d'intérêt pour les entreprises (par exemple, feuilles descriptives de produits dans les magasins en ligne).
Il sera plus difficile d'étiqueter sémantiquement toutes les informations qui apparaissent actuellement dans les textes écrits en langage naturel. Lorsqu'un texte décrit les personnes, les livres, leurs caractéristiques, leurs relations, etc., étiqueter sémantiquement cela, même à l'aide d'outils visuels, est une tâche énorme. Et il ne peut pas être fait automatiquement, comme dans le cas du calendrier ou des produits des magasins...
La machine comprend-il le texte ?
Ou oui. Dans plusieurs expériences, des techniques de traitement du langage naturel (NLP) sont utilisées pour extraire automatiquement l'étiquetage sémantique des textes conventionnels, parfois avec succès. Les outils Web peuvent intégrer ces techniques LNP et aider le contenu créatif à créer un étiquetage sémantique dans un avenir pas si lointain. Cependant, si les machines sont vraiment capables de bien faire, le web sémantique n'est pas nécessaire, ce qui signifie que les machines sont capables de "comprendre" le texte et que les chercheurs et autres agents Internet peuvent traiter directement les textes au format HTML d'une manière efficace.
Nous ne savons pas qui arrivera avant, le web sémantiquement étiqueté ou les machines comprendre la sémantique ou la signification du texte. Et, dans le premier cas, on ne sait pas combien de contenu sera sur le web sémantique: sémantique dans laquelle sera étiqueté tout le web, ou seulement quelques choses (les plus simples et d'intérêt d'entreprise), ou quelque chose entre les deux... Dans tous les cas, d'une manière ou d'une autre, la signification sur le web aura de plus en plus d'importance, et grâce à la sémantique nous aurons des services toujours meilleurs. Sir Tim Berners-Lee lui-même a dit en mars de cette année: "Le site n'est pas terminé. Le site actuel n'est que la pointe de l'iceberg. De nouvelles technologies, beaucoup plus puissantes, nous permettront de faire des choses que nous ne penserions jamais. Le meilleur est sur le point d'arriver". C'est vrai !
Igor Leturie Azkarate. Informaticien et chercheur.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia