Des vocabulaires contrôlés pour décrire et indexer les données de Data INRAE

Les vocabulaires contrôlés jouent un rôle crucial pour améliorer la qualité des métadonnées dans l’entrepôt Data INRAE en facilitant l’indexation des données et en favorisant leur réutilisation. Découvrez comment les vocabulaires contrôlés ont été intégrés dans la collection Data INRAE pour améliorer la gestion et la diffusion des métadonnées en respectant les principes FAIR.

Dans le contexte d’une production toujours croissante de données scientifiques, issues notamment de la recherche, leur stockage, leur accessibilité et leur réutilisation sont des enjeux majeurs. Les entrepôts de données comme Recherche Data Gouv proposent des solutions de stockage et de partage de ces données, ils permettent leur description via une notice de métadonnées. Ces métadonnées doivent permettre, d’une part, de proposer une description fine et non ambiguë des données mises à disposition et, d’autre part, de favoriser leur découverte et leur réutilisation.

Ce retour d’expérience présente une fonctionnalité de Data INRAE visant à améliorer la qualité de la métadonnée « mots-clés » par l’utilisation de vocabulaires contrôlés.

Les vocabulaires contrôlés pour améliorer la qualité FAIR des métadonnées

Les principes FAIR (Findable, Accessible, Interoperable, Reusable) guident les travaux menés sur l’ouverture des données. Un grand nombre de ces principes portent sur l’amélioration (quantité et qualité) des métadonnées dont le principe I2 : « Les données et les métadonnées utilisent des vocabulaires qui respectent les principes FAIR ». Ce principe incite à l’utilisation des vocabulaires contrôlés dans les métadonnées. Ces vocabulaires permettent l’ajout de termes non ambiguës puisqu’associés à un contexte hiérarchique, des synonymes, des traductions, une définition, etc. Ils procurent donc une plus-value importante par rapport à des termes saisis « librement » dont le sens est à la discrétion de l’auteur et qui engendrent une très grande variation des libellés.

Les vocabulaires sont cependant difficilement exploitables puisqu’ils sont dispersés sur le web, dans des formats différents et peuvent être partiellement redondants. Pour y pallier, les entrepôts de vocabulaires contrôlés permettent de rassembler et améliorer la qualité FAIR des vocabulaires. Par exemple, AgroPortal expose les vocabulaires (ontologies, thésaurus, lexique, taxonomie, etc.) dans les domaines de l’agriculture, l’alimentation et l’environnement. Développé sur la base de la technologie OntoPortal, AgroPortal permet notamment d’associer des métadonnées riches aux vocabulaires et d’accéder à leur contenu via une API (Application Programming Interface).

Dans le contexte du projet FAIR IMPACT, plusieurs connecteurs permettant de mettre en relation un entrepôt de données avec un entrepôt de vocabulaires ont été développés. Nous présentons l’un d’entre eux qui permet l’utilisation des vocabulaires d’AgroPortal dans la collection Data INRAE de l’entrepôt de données Recherche Data Gouv.

L’utilisation des vocabulaires contrôlés facilitée

Le travail présenté ici a pour objectif de faciliter l’utilisation des vocabulaires contrôlés depuis les entrepôts de données par un public non expert en sémantique, mais ayant une expertise dans des domaines scientifique précis (producteur de données, déposants et réutilisateurs).

  • Améliorer la qualité de la métadonnée mots-clés dans Data INRAE :
    • Faciliter son remplissage pour augmenter le nombre de mots-clés par jeu de données
    • Améliorer la qualité des mots-clés en favorisant l’utilisation de concepts issus de vocabulaires contrôlés plutôt que les termes en saisie libre
  • Améliorer la qualité FAIR des jeux de données de Data INRAE
    • Facile à trouver : les mots-clés contrôlés améliorent l’indexation des jeux de données  avec l’ajout de synonymes et traductions
    • Interopérabilité : les identifiants (URI) des mots-clés permettent d’améliorer l’interopérabilité entre les SI qui utilisent ces vocabulaires contrôlés
    • Réutilisabilité : les données sont mieux décrites. Les vocabulaires contrôlés permettent de désambiguïser le sens que leurs auteurs cherchent à transmettre, grâce au contexte fourni par la hiérarchie des concepts et leurs définitions.
  • Améliorer l’accès aux vocabulaires contrôlés pour des utilisateurs non experts et favoriser le retour d’expérience, pour améliorer la qualité et la pertinence des vocabulaires.

Développement d’un connecteur entre vocabulaires contrôlés et entrepôt de données

Etat des lieux

Les équipes responsables de Data INRAE (développeur et curateur de l’entrepôt) ont observé la faible quantité et qualité des mots-clés décrivant les jeux de données. En effet, cette métadonnée n’étant pas obligatoire et le mode de saisie complexe (4 champs à remplir par mot-clé), elle était souvent ignorée ou mal remplie. Des comptages ont été réalisés via l’API de Recherche Data Gouv qui ont permis de confirmer les observations des équipes Data INRAE (cf. fig 3) : moins de 50 % des jeux de données en 2019, 2020 et 2021 contiennent des mots-clés, on note une progression avec 74 % en 2022 et 63 % en 2023, lorsqu’elle est remplie c’est majoritairement avec des termes « libres » c’est-à-dire non référencés dans un vocabulaire contrôlé (<10 % par année des jeux de données avec un référencement complet (‘ref complet’ sur la figure) entre 2018 et 2022, on note une faible progression à 15 % en 2023).

Solution mise en place

Un connecteur  (autrement appelé MAS – Metadata Annotation System) entre Data INRAE et AgroPortal a donc été conçu, déployé et paramétré pour répondre au besoin de simplification du remplissage de la métadonnée « mots-clés ». L’utilisateur saisit son mot-clé et si ce terme existe dans un vocabulaire connecté, les informations associées à ce terme dans le vocabulaire (identifiant, synonymes et traductions) sont récupérées via le connecteur et intégrées dans les métadonnées.

L’architecture du connecteur et la liste des vocabulaires branchés sont présentés ci-après :

Figure 1: Architecture du connecteur et liste des vocabulaires branchés

Pour valider l’approche et affiner les paramétrages, des tests utilisateurs ont été réalisés, pour une première version de la fonctionnalité, sur un panel de testeurs ayant des profils variés : curateur Data INRAE, administrateur de collection, Référent Données, déposants de Data INRAE. Ces tests visaient à identifier la façon dont les utilisateurs de Data INRAE interagissent avec le formulaire de saisie de métadonnées et le module de recherche de jeux de données. Des entretiens individuels ont eu lieu en visioconférence dans un format semi-dirigé, c’est-à-dire que des « missions » étaient confiées au testeur, qu’il devait compléter librement (cf. Tableau 1).

Une première version de ce connecteur a été mise en production le 2 octobre 2024, dans la partie Data INRAE de l’entrepôt Recherche Data Gouv.

Une nouvelle interface utilisateur

Sur le portail Data INRAE, le connecteur prend désormais la forme d’un champ de saisie unique quand l’ancienne interface en contenait quatre. L’utilisateur sélectionne un mot-clé appartenant à un vocabulaire ou, s’il n’en trouve pas, peut utiliser la saisie libre. Un bouton « développer tous les champs » permet à des utilisateurs plus experts de saisir des termes issus d’autres vocabulaire que ceux branchés au connecteur, en précisant manuellement leurs URI, le nom du vocabulaire source et son URL.

Figure 2 : maquette du connecteur et de ses paramètres, juin 2025.

Nous présentons ici les résultats obtenus après une période de 6 mois de test. 

Des premiers résultats prometteurs

 Les tests utilisateurs et l’analyse des métadonnées récemment renseignées montrent déjà que la métadonnées mots-clés est mieux remplie par les utilisateurs de l’entrepôt Data INRAE. Le tableau ci-dessous montre un extrait des résultats des tests utilisateurs.

Missiontest quoi ?Extrait des résultats
Créer un jeu de données, lui associer 4 ou 5 mots-clés OU Modifier les mots-clés d'un jeu de données existantL'utilisateur trouve une métadonnée précise dans le formulaire de métadonnées. Il sait à quoi correspond la métadonnée "mots-clés", parvient à saisir des termes et à choisir un terme parmi ceux que le connecteur lui propose.Les testeurs savent où et comment ajouter des mots-clés à leur jeu de données. Lors de la saisie ils sont souvent surpris de devoir saisir un terme en entier, s'attendant à de l'auto complétion, ils déduisent parfois à tort que leur mot-clé n'existe dans aucun vocabulaire. Les plus expert souhaiteraient ajouter des vocabulaires dont ils ont l'habitudes et qui contiennent des termes spécifiques à leur domaine de recherche dans le connecteur. Lorsqu'un même terme est proposé dans plusieurs vocabulaires, l'a priori de confiance va au thésaurus INRAE, dans certains cas, les testeurs cherchent à ouvrir les pages d'AgroPortal pour consultés les définitions et le contexte hiérarchique des termes.
Dans l'entrepôt, faire une recherche pour retrouver le jeu de donnéesL'utilisateur sait comment utiliser la fonction de recherche de l'entrepôt. Quel est le type de métadonnée exploiter pour trouver un jeu de données.Les testeurs n'exploitent, à ce stade, pas du tout les mots-clés dans leur recherche de jeux de données, préférant s'appuyer sur le titre ou la description. Dans le cas d'experts dans un domaine en particulier, ils se réfèrent au noms des auteurs et des unités productrices de jeux de données.
Accéder aux mots-clés d'un jeu de données.L'utilisateur sait comment consulter les métadonnées dans la notice d'un jeu de données. Il sait retrouver et exploiter une information précise parmi l'ensemble des informations disponible.Les testeurs savent où et comment accéder aux informations demander, ils déclarent parfois que dans leurs activités, ils pourraient être amener à vouloir désambiguïser un mot-clé d'un jeu de données ne leur appartenant pas. La présence du lien cliquable vers le terme dans son vocabulaire (URI) est pour cela apprécié (il pourrait néanmoins être appréciable de présenter ce terme dans l'interface standardisée d'AgroPortal).

L’analyse des métadonnées des jeux de données publiés après la mise en place du connecteur montre une nette amélioration de la quantité et de la qualité des mots-clés saisis par les utilisateurs de Data INRAE, comme montré sur la figure 3, on obtient plus de 50 % des jeux de données référencés avec des mots-clés issus des vocabulaires contrôlés et près de 80% des jeux de données publiés sur cette période contiennent des mots-clés. Cette métadonnée n’étant toujours pas obligatoire, on peut en déduire que la simplification du mode de saisie a grandement encouragé les utilisateurs à saisir des mots-clés.

Figure 3 : Proportion de jeux de données avec et sans mots-clés et pourcentage avec des mots-clés issus de vocabulaire contrôlés (Ref complet) par année. Données extraites via l'API Recherche Data Gouv dans l'espace Data INRAE.

Enjeux : la sélection des vocabulaires et l’optimisation de l’interface utilisateur

Le premier enjeu, lié à la sémantique, dans le développement du connecteur est le choix des vocabulaires à brancher. Pour le test, la sélection des vocabulaires parmi ceux disponibles sur AgroPortal a été basée sur :

  • leur fréquence d’utilisation avant l’introduction du connecteur,
  • leur pertinence par rapport aux activités de l’institut,
  • leur pérennité,
  • la confiance envers le producteur et sa capacité à prendre en compte les besoins et retours utilisateurs.

Le second enjeu est lié au type d’informations associées aux termes pour aider l’utilisateur à sélectionner un mot-clé : lui permettre de faire un choix parmi les différents vocabulaires, et s’assurer que le sens porté par le mot-clé correspond à son usage, sans que l’interface ne devienne illisible si l’affichage se complexifie.

Amélioration du connecteur et autres perspectives

L’étude sur la qualité FAIR des données de Data INRAE est en cours. Les premiers résultats  sont très encourageants en ce qui concerne les pratiques des utilisateurs. Cependant, nous manquons encore de recul pour établir un effet du connecteur sur une utilisation accrue des vocabulaires dans d’autres contextes.

D’autres développements sont à prévoir sur le connecteur, à commencer par l’amélioration de l’ergonomie, par exemple, en rendant possible de retrouver tous les jeux de données comportant un mot-clé particulier dans l’entrepôt, en cliquant sur un terme dans un jeu de données.

La plus importante perspective de développement de ce connecteur serait sa généralisation à d’autres collections de Recherche Data Gouv. Pour cela, le connecteur devrait être branché à d’autres vocabulaires, potentiellement issus d’autres instances d’OntoPortal ou d’autres catalogues de vocabulaires contrôlés. Les développements récent de la fédération OntoPortal et l’implémentation du standard de métadonnées pour les vocabulaires MOD et de son API dans les différents portails offrent pour cela des pistes très intéressantes.

Enfin, un enjeu ultime porte sur la généralisation de l’utilisation de vocabulaires contrôlés dans les systèmes d’information de l’institut, pour permettre de retrouver et d’assembler sur des critères thématiques des produits de recherche variés et potentiellement dispersés.

  • FAIR Principles. (s. d.). GO FAIR. Consulté 3 juin 2025, à l’adresse https://www.go-fair.org/fair-principles/
  • Aubin, S., Corre, C., Jonquet, C., Cabrera-Bosquet, L., Rosati, I., NESTOLA, E., Ramezani, P., Tykhonov, V., Flohr, P., Scharnhorst, A., Christelle, P., Alviset, G., Szabo, D., Cecconi, B., pichot, christian, Clastre, P., Seinturier, J., & Caminha Juaçaba Neto, R. (2025). D4.6—Use case driven validation of semantic artefact exploitation within data repositories. https://zenodo.org/records/14917164
  • Kihal, B., Corre, C., Jonquet, C., Szabo, D., Roucou, J., & Aubin, S. (2024). Leveraging AgroPortal ontologies to ease metadata completion and data discovery in Data INRAE. https://zenodo.org/records/14191078
Retour en haut