Questions / Réponses

Vocabulaires Ouverts, c’est un site web avec :

  • une introduction à de nombreux sujets concernant les vocabulaires et le Web sémantique
  • des fiches méthodologiques et des bonnes pratiques
  • des liens vers des ressources utiles pour trouver, utiliser et concevoir des vocabulaires
Vocabulaires Ouverts, c’est aussi un ensemble de services proposé par le pôle Numérique pour la Science de la Direction pour la Science Ouverte. Ces services s’adresse aux agents INRAE qui souhaitent mettre en oeuvre des vocabulaires et les technologies du Web Sémantique. C’est aussi :
  • des solutions d’hébergement avec un accès pérenne pour vos vocabulaires
  • des conseils et un accompagnement pour rendre vos vocabulaires plus faciles à trouver et plus facilement réutilisables
  • l’attribution d’identifiants type URIs et DOI

Il existe plusieurs possibilités en fonction de la nature et du format de votre vocabulaire :

  • le portail Recherche Data Gouv (tous types, tous formats). Vocabulaires Ouverts met à votre disposition un sous-dataverse dédié avec des métadonnées adaptées.
  • Agroportal, BioPortal, Ecoportal,… sont des portails thématiques communautaires pour les ontologies et thésaurus aux formats du web sémantique. Ils offrent de nombreuses fonctionnalités et API pour travailler avec les vocabulaires
  • Loterre est un portail terminologique francophone proposé par l’INIST-Cnrs. Il expose des glossaires, terminologies, etc. au format SKOS
  • un triple store (une base de données RDF). La DipSO propose un service d’hébergement pour les vocabulaires et données aux formats du web sémantique
  • une forge logicielle. Même si elles n’ont pas été conçues pour cela, de nombreux collectifs utilisent les forges pour développer des vocabulaires de manière collaborative et s’en servent également pour les stocker et les partager
  • un serveur d’unité, de département, de plateforme, etc.

Quel que soit l’endroit où il est hébergé, nous recommandons de référencer les vocabulaires produits à INRAE sur le portail Recherche Data Gouv (RDG).  La métadonnée « Link to Data » permet d’indiquer l’accès au vocabulaire quand celui-ci n’est pas stocké directement sur RDG.

En septembre 2021, les 32 vocabulaires référencés sur RDG (alors Data INRAE) étaient hébergés sur 7 portails différents : AgroportalLoterreICO (IATE)URGIVO@INRAEForge MIAGithub

Tous les formats ouverts sont acceptés. En fait, tout dépend du niveau de conformité aux principes FAIR que vous visez pour rendre votre vocabulaire (plus ou moins) réutilisable.

Il n’y a pas de restriction pour référencer ou faire héberger une ressource sur Recherche Data Gouv. Tous les formats et sérialisations sont acceptés : texte, CSV, RDF/XML, OWL, OBO, SKOS, etc.

Pour une publication sur un portail comme Agroportal, les formats OWL, SKOS, OBO et UMLS sont acceptés.

Loterre accepte les fichiers en SKOS étendu, qui associe au standard SKOS un certain nombre de catégories appartenant à d’autres formats ou langages (SKOS-XL, Dublin Core, Isothes, OWL, RDFS, etc.).

Pour une publication dans le Triple store DipSO, un fichier au format RDF avec des URIs dans le domaine http://opendata.inrae.fr/ est nécessaire.

VO@INRAE peut vous conseiller et vous accompagner pour transformer vos fichiers dans le format adéquat.

Identifiants pour les vocabulaires

Un DOI est un identifiant pérenne et unique permettant de référencer, citer et fournir un lien stable vers un objet scientifique et sa citation.

Comment attribuer un DOI

Attribuer un DOI à un vocabulaire permet de :

  • le référencer de manière unique et pérenne ;
  • le rendre citable de façon fiable et précise ;
  • faciliter sa découverte, son accès et sa réutilisation.

Comment attribuer un DOI

Droits des vocabulaires

  • Si une seule personne y a contribué, c’est celle-ci.
  • Si plusieurs personnes y ont contribué, elles en sont co-auteurs, il s’agit d’une œuvre de collaboration. Tous les co-auteurs doivent être cités.
  • Si une seule personne initie et coordonne la création du vocabulaire et que la participation des divers contributeurs se fond dans l’ensemble, il s’agit d’une œuvre collective. Le droit d’auteur revient alors à l’initiateur. Dans ce cas seulement, l’auteur peut être une personne morale, par exemple INRAE.

Nous recommandons d’utiliser les éléments de métadonnées « creator » et « contributor » définis par la Dublin Core Matadata Initiative.

Ce sont le ou les auteurs du vocabulaire qui décident de la licence.
Lorsque le vocabulaire a été produit dans le cadre d’un projet de recherche impliquant plusieurs partenaires, le choix de la licence peut avoir été prévu dans le contrat.

Aide pour choisir une licence

Le décret 2017-368 (https://www.legifrance.gouv.fr/eli/decret/2017/4/27/2017-638/jo/texte) précise les licences gratuites utilisables. Pour les documents et les bases de données, c’est la Licence Ouverte d’Etalab qui s’applique.

Il est à noter que la licence ouverte d’Etalab est compatible avec la licence Creative Commons CC-BY. La Licence Ouverte permet une réutilisation libre avec seule obligation de citer la source.

Exception : dans le cas où votre vocabulaire est dérivé d’une ressource ou d’un projet contraignant le choix de la licence, vous pourrez être amené à faire un autre choix : consultez le guide INRAE de choix des licences.

Oui, si sa structure ou son contenu sont originaux. Vous considérez que votre vocabulaire est une œuvre de l’esprit .

Oui, si sa constitution, vérification, ou présentation ont nécessité un investissement substantiel (qu’il faut prouver), même si sa structure ou son contenu ne sont pas originaux (une taxonomie d’espèces, par exemple). Vous considérez que votre vocabulaire est une base de données.

 

Oui, si sa structure ou son contenu sont originaux et que sa constitution, vérification, ou présentation ont nécessité un investissement substantiel (qu’il faut prouver).

Un thésaurus est un ensemble organisé de termes qui expriment les concepts utiles à la description de contenus propres à un domaine de connaissance. Les concepts sont organisés entre eux à l’aide de relations hiérarchiques et peuvent présenter d’autres relations d’association entre eux ou d’alignement avec d’autres vocabulaires. Un thésaurus permet de gérer le multilinguisme et la synonymie. C’est un outil documentaire généralement utilisé pour indexer des contenus à l’aide de mots-clés. Partagé par plusieurs systèmes d’informations, il permet d’interconnecter les ressources qui y sont hébergées.

Un comité éditorial dédié s’assure de la maintenance et de l’évolution du thésaurus :

  • il reçoit et traite les demandes des utilisateurs et initie des chantiers d’enrichissement ;
  • il est garant du respect des règles de rédaction et de l’adaptation du thésaurus aux besoins des utilisateurs ;
  • il accompagne l’intégration du thésaurus dans des systèmes d’information et forme les utilisateurs à son utilisation.

Le comité éditorial s’appuie sur les experts des domaines représentés en les sollicitant ponctuellement pour relecture et avis. 

Périmètre et contenu

Le comité éditorial a défini un certain nombre de critères :

  1. Le concept à ajouter doit être en rapport avec un objet d’étude ou une méthode de recherche d’intérêt pour l’Institut.
  2. Le concept doit être nouveau dans le thésaurus. Si un concept désigné par un terme synonyme est déjà présent, on complètera ce concept.
  3. Le concept doit être utilisé au sein d’une ou plusieurs communautés (scientifique, de pratique…)  – on peut par exemple vérifier le nombre d’apparitions dans une archive ouverte comme HAL, dans un moteur de recherche, etc.
  4. Les termes proposés doivent désigner précisément le concept.
  5. Idéalement, une définition pourra aider à évaluer la pertinence du concept.

Note : le comité éditorial se réserve le droit de refuser l’ajout de concepts en dehors du périmètre thématique ou trop spécifiques. En effet, le thésaurus n’a pas vocation à se substituer aux référentiels plus spécialisés et développés pour des applications précises.

Au moment de sa création, le comité éditorial s’est basé sur deux ressources existantes : le thésaurus Irstea (5 825 concepts pour environ 10 000 termes) et le référentiel mots-clés INRA (22 057 concepts pour 39 000 termes). Une analyse des usages dans les  archives Irstea-Doc et ProdInra, dans le référentiel Inra des activités ainsi que d’autres ressources publiques ont permis d’écarter les termes peu ou pas usités.

Les définitions des concepts du Thésaurus INRAE sont pour certaines directement issues de sources scientifiques (ouvrages, glossaires, sites de projets de recherche…) ou de référentiels existants, e.g. French Crop Usage ou Agrovoc. D’autres définitions sont originales ou résultent de la combinaison de sources multiples.

Pour initier la collecte de définitions, le comité a choisi comme stratégie d’identifier et d’exploiter quelques sources fiables et riches sur certaines thématiques d’intérêt de l’institut. Les sources qui fournissent actuellement le plus de définitions au Thésaurus INRAE sont :

  • ROUSSEY, Catherine, 2021, « French Crop Usage », https://doi.org/10.15454/QHFTMX, Portail Data INRAE, V1
  • Denis Baize. 2016. Petit lexique de pédologie. Editions Quae [ISBN 978-2759224456]
  • Bernard Fischesser, Marie France Dupuis Tate. 2017. Le guide illustré de l’écologie, Coédition Cemagref Editions – Delachaux et Niestlé [ISBN : 978-2603025277]
  • Sciences, Eaux et Territoires 
  • Y. Dattée, G. Pelletier, Pourrons-nous vivre sans OGM? 60 clés pour comprendre les biotechnologies végétales, Ed. Quae, 2014, p.132-139 [ISBN : 9782759220588]
  • William Martin-Rosset, coord., 2012. Nutrition et alimentation des chevaux, éditions Quae [ISBN 978-2759216680]
  • Jean Boiffin, François Laurent, Guy Richard. Réussir l’implantation des cultures : Enjeux agroécologiques, itinéraires techniques. Editions Quae; Arvalis – Institut du végétal, pp.440, 2020, Savoir faire, 9782759229550. ⟨hal-02946526⟩
  • Le dicoAE de A à Z : Dictionnaire d’agroécologie (dicoagroecologie.fr)
  • INRAE, 2020, « Agriculture et systèmes d’élevage », https://doi.org/10.15454/ZBD3IV, Portail Data INRAE, V1

Le thésaurus INRAE contient actuellement plus de 1900 alignements (ou correspondances) vers Agrovoc, GEMET et le thésaurus French Crop Usage. Tous les alignements sont évalués et validés par le comité éditorial. D’autres alignements seront réalisés avec plus de ressources sémantiques, en particulier les ontologies et thésaurus publiés via le service Vocabulaires Ouverts @INRAE.

Nous mettons en correspondance des concepts dont le sens est le même. Ainsi, nous n’utilisons que la propriété skos:exactMatch (équivalence exacte).

Les concepts présentant un alignement sont rassemblés dans des groupes correspondant à chaque vocabulaire aligné :

Le Thésaurus INRAE inclue des concepts correspondant aux principaux organismes vivants étudiés ou impliqués dans les recherches de l’institut.

Ces concepts peuvent correspondre à un taxon précis (ex: Actinobacteria), plusieurs taxons (ex : truite) ou à un ensemble d’organismes partageant des caractéristiques (ex: aquatique) ou une fonction (ex: allaitante). Selon les cas, les concepts sont placés dans différents microthésaurus (MT) en fonction des règles suivantes, de la plus générique à la plus spécifique :

  • dans le MT ORG taxonomie d’organismes vivants : les noms qui correspondent aux taxons, quel que soit leur niveau dans la taxonomie (ex : Actinobacteria). L’organisation s’appuie sur la classification phylogénétique. Tous les niveaux de la classification ne sont pas représentés. En général, le niveau famille est représenté et les niveaux sous-familles ne sont représentés que s’ils correspondent à des besoins pour classer les objets d’étude. Ex : Bovidae n’est pas présent mais Bovinae et Caprinae le sont.
  • dans le MT ORG notions liées aux organismes : les noms vernaculaires qui renvoient à plusieurs taxons : soit qui sont ambigus (ex : truite) soit qui désignent un genre (ex : brebis), un stade (ex : agneau), un comportement (ex : oiseau migrateur), un collectif (ex : ovin), un groupe relatif à un type d’habitat (ex : champignon du sol, flore digestive).
  • dans le MT AGR produits agricoles : les noms qui désignent un produit issu d’une culture (ex : melon (fruit)), un objectif de production ou un usage (ex : brebis laitière), etc.
  • dans le MT SAN causes et vecteurs de maladie lorsque le concept mentionne explicitement une implication dans une maladie ou une affection (ex : nématode parasite)
Répartition des concepts dénotant des organismes vivants dans le thésaurus INRAE

Dans la mesure du possible, des relations associatives sont déclarées entre les noms vernaculaires ambigus et les taxons auxquels ils renvoient, entre le produit agricole (fruit) et le taxon (plante), etc.

Avertissement : le microthésaurus ORG taxonomie d’organismes vivants ne constitue en aucun cas une taxonomie complète. Des alignements vers les taxonomies de référence (GBIF, NCBI Taxonomy, TaxRef, Catalogue of Life, etc.) seront progressivement ajoutés au thésaurus.

Utiliser le Thésaurus INRAE

INRAE, 2021, « Thésaurus INRAE », https://doi.org/10.15454/J8GANU, Recherche Data Gouv, V1

Le Thésaurus INRAE peut être utilisé en tout ou partie par toute personne ou organisation à condition de citer ses auteurs. Il est distribué sous Licence Ouverte Etalab (équivalente CC-BY).

Via une API

Les données sont disponibles en JSON, RDF/XML, Turtle, RDF/JSON selon les services. En savoir plus.
 

Dans un fichier

La version publique du thésaurus est représentée en SKOS. Le fichier de la version courante est téléchargeable sur le portail de consultation au format RDF/XML à cette adresse : https://consultation.vocabulaires-ouverts.inrae.fr/exports/thesaurus/latest/thesaurusINRAE.rdf.

Une version SKOS-XL est téléchargeable sur la forge : https://forgemia.inra.fr/dipso/thesaurus-inrae/-/tree/main/SKOS-XL

D’autres formats (JSON-LD, Turtle, TSV…) sont disponibles à la demande. Contactez le comité éditorial.

Contribuer au Thésaurus INRAE

Tous les utilisateurs du Thésaurus INRAE peuvent proposer une évolution (ajout de concept, de synonyme, de définition, d’alignement, de collection ou de microthésaurus). Les demandes venant d’utilisateurs INRAE ou liées au fonctionnement d’applications INRAE sont traitées en priorité. Les autres demandes sont recevables à condition qu’elles soient conformes aux besoins des utilisateurs INRAE.

Les demandes d’évolution peuvent porter sur un ou plusieurs concepts.  Pour une demande plus conséquente, il est possible d’envoyer une liste dans un fichier ou de mettre en place un chantier collaboratif entre le demandeur et le comité éditorial. 

Vous pouvez adresser votre demande via le formulaire de contact ou par simple mail à thesaurusINRAE[AT]inrae.fr. 

Spécialiste d’un sujet, vous pouvez proposer des sources de définitions pour alimenter le Thésaurus INRAE ou des définitions que vous auriez produites vous-même ou qui proviendraient d’un projet, d’un ouvrage auquel vous avez contribué. Contactez le comité qui étudiera vos propositions.

Confiez vos définitions au Thésaurus INRAE. Ainsi, elles seront toujours disponibles en ligne pour y faire référence ou pour les intégrer dans des applications, sites web, etc.

Vous aimez les mots ? Vous cherchez une activité qui change du quotidien ? Vous avez un intérêt particulier pour un domaine ou une discipline et vous souhaitez partager votre expertise ? Rejoignez le comité éditorial du Thésaurus INRAE.

Les membres du comité participent en fonction de leur goût et de leurs compétences à :

  • l’amélioration continue du thésaurus : proposition d’ajout et de modification de concepts, d’enrichissement avec des synonymes et des traductions ainsi que des alignements vers des vocabulaires tiers
  • la stratégie d’évolution du thésaurus : structuration et choix éditoriaux
  • la promotion du thésaurus et l’identification de nouveaux usages
  • la rédaction de la documentation et l’accompagnement des utilisateurs
  • des chantiers avec des experts mobilisés ponctuellement ou qui se proposent pour avancer sur un sujet

Certains membres du comité prennent en charge une responsabilité particulière :

Le comité éditorial fonctionne sur un mode très collaboratif en s’appuyant sur des documents partagés sous Nextcloud,  un éditeur de thésaurus en ligne et collaboratif (VocBench), des listes d’échange par mail et des rencontres régulières en visioconférence :

  • une réunion mensuelle du comité dans son ensemble
  • une réunion mensuelle du groupe Définitions
  • un rendez-vous libre d’une heure par semaine sur un créneau fixe
  • des réunions de travail initiées par les membres selon les besoins

Participer au comité éditorial du thésaurus INRAE, c’est contribuer au partage des connaissances  tout en bénéficiant d’un espace d’échange convivial autour des sujets qu’on affectionne. Contactez-nous.

Retour en haut