Les standards en matière d’interopérabilité sémantique sont apparus en vue de répondre à la prolifération anarchique de langages hétérogènes, a priori incompatibles entre eux. Quand les applications concernées sont stratégiques et constituent des instruments d’action sur le réel, telles que dans l’egovernment, les enjeux en termes de coûts-bénéfices de cette problématique sont considérables.
Dans la foulée de SKOS (Simple Knowledge Organization System), recommandation officielle du W3C depuis le 18 août 2009, la norme ISO 25964-1 adaptée à l’interopérabilité des thesauri multilingues est parue le 15 août 2011 : “Information and documentation — Thesauri and interoperability with other vocabularies — Part 1: Thesauri for information retrieval”.
Nous avons déjà eu l’occasion d’aborder ces modèles de représentation dans le cadre de l’inventaire « open source » du département “Recherche” de Smals. Dans la pratique, le succès opérationnel de telles normes repose sur une organisation solide impliquant des accords bilatéraux entre les parties concernées et sur un investissement intellectuel humain conséquent. Il est fondamental par ailleurs de bien cerner les forces et les limites de ces standards d’interopérabilité, en vue de les exploiter au mieux.
Nous proposons ici de souligner plusieurs points forts de SKOS et d’initier un débat relatif aux points d’attention et questions ouvertes que pose cette recommandation du W3C à la lumière de la récente norme ISO 25964 en matière de thesaurus multilingue.
Construit sur la base du langage RDF (“Resource Description Framework”), SKOS permet théoriquement, dans l’environnement du Web sémantique, la conversion de tout type de langage documentaire contrôlé préexistant (thésaurus, classification, …) dans une syntaxe homogène. Par exemple, il pourrait être maintenant possible de faire communiquer entre eux des langages documentaires aussi différents que le thésaurus de l’UNESCO, le MESH (Medical Subject Headings) ou tout autre langage documentaire contrôlé développé en interne au sein d’une entreprise.
Les points forts du modèle sont les suivants :
- Il offre, de par son ouverture et sa rigueur, un standard répondant potentiellement à la prolifération anarchique des langages documentaires hétérogènes sur le Web ou au sein d’une entreprise.
- Il inclut une syntaxe riche (compatible avec tous les langages documentaires existants et avec les normes, plus complexes, du Web sémantique) et flexible (toutes les propriétés sont optionnelles) : l’utilisateur peut choisir de n’exploiter qu’un sous-ensemble de fonctionnalités en fonction de ses besoins. On ne se trouve dès lors pas nécessairement confronté à la lourdeur et aux coûts de maintenance que soulèvent les normes les plus riches du Web sémantique.
- Par rapport à un thésaurus, il propose un réel apport syntaxique, par exemple, en permettant aux concepteurs de caractériser les propriétés des descripteurs (“pour expert”, “pour néophyte”, …) ou encore, de leurs relations hiérarchiques (partitives, d’instantiation, …).
- La parution du nouveau standard ISO 25964-1 adapté à SKOS en matière de conception de thésaurus le 15 août 2011 en reforce la reconnaissance opérationnelle (le nouveau standard ISO inclut notamment une réflexion approfondie sur la conception des concepts composés, dans le contexte de la postcoordination, sur la notion de « rôle » pour spécifier les descripteurs et sur les degrés d’équivalence entre langues).
- Enfin, il existe à l’heure actuelle plusieurs langages documentaires d’envergure reposant sur SKOS, par exemple :
- Agrovoc, le thésaurus de la FAO (Food and Agriculture Organization of the United Nations), auquel est associé un Web service
- Le GEMET (General Multilingual Environmental Thesaurus) de l’Agence européenne pour l’environnement
- Le langage documentaire de la Library of Congress
A cela s’ajoutent toutefois des questions ouvertes et points d’attention, sans doute inhérents à ce type de formalisme tendant à l’interopérabilité sémantique :
- L’arbitrage “coût-richesse de représentation” : plus le pouvoir de représentation d’un langage documentaire est riche, plus sa mise en place et sa maintenance sont coûteuses.
- Un certain laxisme syntaxique, inévitablement lié à la souplesse qu’offre la norme : toutes les propriétés étant optionnelles, le concepteur doit veiller lui-même au maintien de l’intégrité de l’application. Paradoxalement, une bonne utilisation de cette norme, offrant à la fois flexibilité et richesse, requiert des compétences de conception de très haut niveau. Celle-ci n’est certainement pas à la portée de l’utilisateur lambda auquel s’adressent uniquement les applications finales.
- La syntaxe de SKOS permettant de distinguer explicitement les notions de termes et de concepts, de nombreux auteurs affirment que SKOS place définitivement et de manière stable le concept au cœur du système d’information, contrairement à un thesaurus au sein duquel il faut identifier en fonction du contexte les descripteurs et les non descripteurs (voir par exemple : “A method to Convert Thesauri to SKOS”). Nous pensons que cet avantage est illusoire : car les termes et les concepts sont des constructions historiques destinées à représenter certains aspects du réel observable. Les concepts empiriques évoluent intrinsèquement avec le contexte et seront toujours évolutifs (voir par exemple : Boydens I., Les bases de données sont-elles solubles dans le temps? In La Recherche hors série (“Ordre et désordre”). Hors série n° 9, novembre-décembre 2002, p. 32-34). Croire en leur caractère statique est un leurre ne pouvant donner lieu qu’à une impasse sur le plan opérationnel alors que la prise en compte de leur nature évolutive permet d’améliorer la qualité de l’information avec un ROI important (voir par exemple, l’initiative “Free your metadata“, I. Boydens, “Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium” (New York, Springer, 2011) et I. Boydens, Linked Open Data Quality Around-The-Clock, 2011).
- Enfin, SKOS est censé remédier à l’hétérogénéité des langages sur le Web. Nous l’avons vu, ce mode de représentation normalisé inclut beaucoup de points forts dans ce sens. Toutefois, il ne faut pas perdre de vue qu’en informatique plus qu’ailleurs, les normes et standards finissent souvent par faire l’objet de déviances. La norme SKOS n’échappe donc pas a priori aux maux qu’elle vise à traiter…
Ces évolutions (émergence de SKOS au sein du W3C depuis le 18 août 2009 et d’une nouvelle norme ISO adaptée à l’interopérabilité des thesauri le 15 aout 2011) concernent de près l’egovernment, au sein duquel les projets terminologiques, documentaires et liés au contenu et à la qualité de l’information sont aussi nombreux que stratégiques.
Merci à vous. SD
Bonjour,
Merci pour ce billet, et merci d’avoir initié en français ces questions de fond.
Je voudrais ici rebondir sur un seul point car je ne suis pas sûre de comprendre correctement le sens de votre phrase : “La parution du nouveau standard ISO 25964-1 *adapté* à SKOS”.
Je fais ici (faute de mieux) une distinction entre la modélisation “SI” et la modélisation “métier”. SKOS s’appuie pour le modèle “métier” sur les normes ISO de thésaurus (des années 80). ISO 25964-1 (qui a mis 5 ans à sortir…) est dans la continuité de ces anciennes normes qu’elle remplace. Sur ce plan ce serait plutôt SKOS qui est adapté aux normes thésaurus ou plutôt qui a adapté à l’environnement du web, le modèle “thésaurus” .
Par contre il est clair que sur le plan du formalisme (je suppose que c’est surtout de cela que vous parliez), pour cette nouvelle version de la norme thésaurus, le choix a été de privilégier l’écosystème de SKOS – mais la norme comporte toutefois des différences par rapport à SKOS.
Pour la norme ISO, SKOS constitue un format d’exposition de ces vocabulaires, un format parmi d’autres. De plus la norme ISO intègre d’autres éléments utiles à la création et la maintenance de ces vocabulaires et à leur usages dans différents environnements. Les vocabulaires que vous citez (Agrovoc, Gemet, …) s’exposent sur le web en SKOS, mais intègrent de nombreux autres éléments qui n’appartiennent pas à SKOS mais qui permettent de gérer dans le temps ces vocabulaires et leurs relations à des sources externes ou autres vocabulaires. Un aspect (qualité dans le temps) qui est me semble-t-il au coeur de votre billet bien sûr.
En particulier j’espère que les professionnels qui ont à maintenir ces vocabulaires, s’appuieront bien sur les consignes et recommandations de la norme ISO en continuité des anciennes normes ISO pour – par exemple- pallier au “laxisme syntaxique” ou terminologique que vous évoquez, et manager dans le temps ces systèmes d’organisation de concepts.
Dernier point concernant l’interopérabilité des thésaurus entre eux ou des thésaurus et d’autres formes de “vocabulaires”. C’est l’objet de la partie 2 de la norme attendue fin 2012, la partie 1 portant sur la conception et fabrication de ces vocabulaires.
Merci de ce commentaire fort riche. Il est vrai que le processus d’adaptation évoqué au seuil de votre message doit être entendu sur le plan formel et qu’il répond du reste à une chronologie donnée dans la parution des normes évoquées. Sur le fond, comme vous le notez très justement, la syntaxe des thesauri reste au coeur de l’une et l’autre norme. Quant à la question concrète de l’interopérabilité sémantique appliquée au sein large, il faut en effet espérer que les normes seront respectées au mieux, tout en ayant conscience qu’on ne pourra jamais aboutir qu’à un compromis d’ordre pratique, en fonction des enjeux et que celui-ci sera toujours soumis à l’évolution permanente des concepts, de leur sens et des usages.
A ce propos, cette citation de Jean Paulhan me semble toujours d’actualité “Tout a été dit. Sans doute. Si les mots n’avaient changé de sens; et les sens, de mots.” (“Notes liminaires au tome IV des oeuvres complètes”, 1966).