Présentation du thésaurus INRAE à la journée du GDR TAL

Le thésaurus INRAE a été présenté sous la forme d’un poster à la journée du Groupement de Recherche sur le Traitement Automatique de la Langue (GDR TAL) le 19 octobre dernier à Rennes.

Cette journée, dédiée au thème de l’accès à l’information, a regroupé environ 80 personnes. Plus de 35 posters y ont été présentés et 4 conférenciers invités sont intervenus :

  • Géraldine Damnati (Orange Labs) : Extraction d’information et gestion de la connaissance au sein d’une organisation. Comment mener des travaux de Recherche ouverte sur des données « fermées » ?
  • Patrick Paroubek (CNRS, LISN): Du traitement automatique du langage naturel et de l’accès aux données expérimentales
  • Anastasia Bezerianos (Université Paris Saclay, LISN) : Visual text analytics in data journalism
  • Cyril Labbé (Université Grenoble, LIG) : Flagging suspect scientific publications for post-publication reassessments

Des échanges intéressants sur des outils liant ressource terminologique et extraction automatique ont eu lieu entre des membres du comité Thésaurus INRAE et des participants à la journée.

Notamment, un contact plus approfondi est envisagé pour tester un outil d’extraction automatique de mots-clés sur un corpus de publications représentant les différents domaines du Thésaurus INRAE et qui possède déjà une indexation manuelle. Cette expérience permettrait d’évaluer la pertinence des extractions et la faisabilité d’une (semi-)automatisation de l’indexation des publications avec le Thésaurus INRAE. À suivre.

Chargeur En cours de chargement…
Logo EAD Cela prend trop de temps ?

Recharger Recharger le document
| Ouvert Ouvrir dans un nouvel onglet

Sophie Aubin, Emilie Bernard, Sonia Bravo, Colette Cadiou, Eric Cahuzac, et al.. Le thésaurus INRAE : une ressource terminologique pour l’interopérabilité sémantique. Journée du GdR Traitement automatique des langues (GDR TAL), Oct 2022, Rennes, France. ⟨hal-03824794⟩

Stage Master – Construction d’une ontologie dédiée à la métabolomique

Ingénierie des connaissances

Titre du stage :

Construction d’une ontologie dédiée à la métabolomique

Contexte :

INRAE est un institut de recherche public œuvrant pour un développement cohérent et durable de l’agriculture, l’alimentation et l’environnement.

Pour répondre à des questions scientifiques de plus en plus complexes, il est souvent nécessaire de combiner des données provenant de banques de données publiques. La manière de représenter ces données peut varier en fonction des communautés scientifiques ou des outils utilisés pour les produire par exemple. Dans ce cas, il est nécessaire de formaliser la manière de représenter et de nommer les objets du domaine d’étude ainsi que leurs propriétés. Cette étape se concrétise généralement par la constitution de ressources sémantiques telles que les thésaurus et les ontologies.

L’infrastructure nationale de métabolomique MetaboHUB a pour objectif de fournir des outils technologiques de pointe et des services en métabolomique et fluxomique aux équipes de recherche académiques et à des partenaires industriels dans les domaines de la santé, de la nutrition, de l’agriculture, de l’environnement et des biotechnologies. Dans le cadre de sa nouvelle feuille de route, un des objectifs principaux est de favoriser une meilleure intégration des données et des services MetaboHUB au sein du consortium et au-delà. Les études actuelles sur le métabolisme nécessitent l’utilisation d’un nombre croissant de ressources de données, complexes, produites ou stockées et au sein des plateformes de métabolomique et sur le Web.

C’est dans ce contexte que le projet du stage s’inscrit. Ainsi, le projet MetaSaurus réunit des experts en ingénierie des connaissances et en science des données du domaine de la métabolomique avec pour objectif de bâtir un modèle de connaissance adapté aux études métabolomiques en s’appuyant sur les ontologies, thésaurus et vocabulaires contrôlés publiés (Thesaurus INRAE, Ontologies OBO Foundry / BioPortal).

Objectifs du stage

Produire une ontologie adaptée au domaine de la métabolomique et les supports méthodologiques d’accompagnement de la démarche.

Déroulement du stage

A partir des spécifications du projet MetaSaurus et de la description des étapes d’intégration de données en métabolomique, le projet consistera à élaborer la première version d’une ontologie dédiée à la métabolomique. Vous étudierez les modalités de réutilisation des ressources sémantiques existantes en lien avec la maintenance de cette ontologie (mis en œuvre des principes OBO) et intégrerez l’environnement de gestion de l’ontologie dans une forge logicielle. L’implémentation de l’ontologie sera réaliser au format OWL.

Cette démarche fera l’objet d’une proposition de méthodologie générique qui pourra être transposée à d’autres cas d’études.

Compétences requises

Étudiant de niveau master 2 avec :

  • Connaissances générales des standards du web sémantique (OWL/RDF) et des outils : Protégé, Github.
  • Aptitude à la rédaction de documentation technique
  • Maîtrise de l’anglais technique (lu)

Modalités d’accueil

Lieu du stage : Site INRAE – Le Rheu (35)
Durée : 6 mois
Gratification : selon le barème en vigueur au 1er janvier 2023 (environ 600 euros)
En rejoignant INRAE, vous bénéficierez (selon le type de contrat et sa durée) :

Environnement scientifique :

Vous serez intégré dans l’équipe RCA (Rendement sous Contraintes Abiotiques) de l’unité IGEPP (Institut de Génétique, Environnement et Protection des Plantes) et vous travaillerez au sein de l’équipe informatique de la plateforme P2M2 (plateau de profilage métabolique et de métabolomique) dédiée aux analyses de produits du métabolisme végétal. P2M2 dispose d’une infrastructure informatique associée à plusieurs équipements dédiés (systèmes de spectrométrie de masse couplés à des systèmes de chromatographie gazeuse et de chromatographie liquide) pour l’analyse, la caractérisation et la quantification de composés biochimiques complexes dans des matrices végétales.

Le stage se déroulera en interaction étroite avec les ingénieurs de la plateforme « Exploration du Métabolisme » PFEM et la DipSO, Direction pour la Science Ouverte en charge de l’accompagnement à l’ingénierie des ressources sémantiques à INRAE (sites d’Angers et de Nantes).

Réunion régulières avec les partenaires du projet en visio-conférence et en présentiel.

Responsables scientifiques du stage / contact :

Co-encadrants : Sophie Aubin, Olivier Filangi, Magalie Weber

Contact : Olivier Filangi olivier.filangi/ AT / inrae.fr

CDD Ingenieur portail ontologies pour le systeme Terre et l’Environnement (Cnrs)

Contexte

Les vocabulaires et les ontologies sont des éléments clés pour assurer l’interopérabilité des données.  Dans le cadre du projet européen FAIR-IMPACT, l’infrastructure de recherche DATA TERRA va développer un portail d’artefacts sémantiques de référence pour le Système Terre et l’Environnement (EarthPortal). Pour mettre en place cette plateforme, nous utiliserons la technologie  OntoPortal, développé à Stanford pour le projet NCBO BioPortal, et nous collaborerons avec l’INRAE et le l’université de Montpellier qui ont développé et maintiennent l’AgroPortal.
Les artefacts sémantiques référencés sur la plateforme devront ensuite être alignés entre eux, et avec les standards utilisés dans le contexte européen (ex : GeoDcat-AP). Un outil d’évaluation de la FAIRness des artefacts sémantique sera proposée afin d’être en accord avec les directives européennes et françaises. Cet outil sera basé sur l’outil O’FAIRe développé par l’équipe d’AgroPortal.
Enfin, la plateforme sera connectée au service « Entrepôt de Données de Data Terra » afin de valider l’utilisation de cette plateforme pour améliorer l’indexation et la recherche des données.

Mission

La personne sera recrutée dans le cadre du projet Horizon Europe FAIR-IMPACT. Ses activités se dérouleront essentiellement dans le work-package « Metadata and Ontologies ». Dans ce cadre, il/elle devra mettre en place la plateforme EarthPortal, développer des fonctionnalités de gestion, d’alignement d’ontologies et d’évaluation de la FAIRness et connecter la plateforme avec l’entrepôt de données Data Terra.
Nous réutiliserons la technologie développée par le National Center for Biomedical Ontologies de l’Université de Stanford: l’application Web OntoPortal mise à disposition via sa machine  virtuelle (https://ontoportal.org).
En nous appuyant également sur l’expérience et la technologie développées par nos partenaires, nous ferons d’EarthPortal une plate-forme de référence pour l’extraction, la génération, la validation, l’évaluation, le stockage et la récupération d’alignement entre ontologies, cela en adoptant une approche Web sémantique et de données ouvertes et liées, et en engageant la communauté.
Votre rôle consistera à la fois à mettre en place la plateforme et à analyser les décisions techniques nécessaires au développement de nouvelles fonctionnalités. Vous aurez pour mission de :

  • Mettre en place, gérer et administrer la plateforme EarthPortal et l’outil d’évaluation de la FAIRness des artefacts sémantiques, en collaboration avec les équipes de l’AgroPortal et de l’OntoPortal.
  • Travailler à l’intégration des artefacts sémantiques des différents pôles de données de Data Terra et plus largement des communautés du Système Terre et de l’Environnement.
  • Faciliter l’interopérabilité des différents artefacts sémantiques (vocabulaires, thesaurus, ontologies, schémas de métadonnées, …) dans le EarthPortal.
  • Travailler avec l’équipe de développement de l’entrepôt de données DATA-TERRA pour connecter l’EarthPortal à l’entrepôt.
  • Encadrer des stages techniques dans ce cadre.

Technologies

Développement Web et full stack, Java/JEE, TypeScript, Ruby/Rails, RESTful web services, XML/JSON, technologies Web (HTML5, Bootstrap, JavaScript), technologies du Web sémantique (OWL, RDF, SPARQL, triplestore, Linked data), technologie OntoPortal.

Référentiels GitHub pour plus de détails:

Profil

Nous recherchons un ingénieur et/ou un développeur full stack motivé, curieux et intéressé, possédant une expérience dans le développement d’applications Web pour développer et gérer la plateforme. Le candidat sera titulaire d’un diplôme d’ingénieur ou d’un master en informatique. Le candidat démontrera des aptitudes ou des correspondances avec le plus des aspects suivants :

  •  Développeur Web possédant une expérience de développement et connaissant bien les services Web REST / JSON, les technologies JEE, Ruby / Ruby On rails, Bootstrap, TypeScript. Quelques connaissances DevOps.
  • Motivation pour les travaux exploratoires en relation avec les scientifiques dans le cadre d’un projet européen.
  • Expérience des technologies du Web sémantique, notamment JSON-LD / RDF / OWL / SKOS / SPARQL
  • Une connaissance et/ou expérience dans le domaine du Système Terre et de l’Environnement est préférable
  • Excellentes capacités de travail à distance (emails, trackers, outils de collaboration, etc.)
  • Excellente aptitude à travailler avec les autres et à impliquer des utilisateurs externes
  • Très bonne maîtrise du français et de l’anglais à l’oral et à l’écrit
  • Autonomie et initiative, prise de décisions techniques dans le cadre du projet et justification des choix
  • Développeur open source
  • Personne sympathique pour rejoindre une petite équipe de recherche à Montpellier

Employeur : CNRS
Contexte : Projet FAIR-IMPACT (www.fair-impact.eu)
Durée : 20 mois (avec extensions possibles)
Où : IR Data Terra- UAR CPST, Montpellier, France
Collaboration : MISTEA (INRAE), LIRMM (UMontpellier), BMIR (Stanford, USA)

Contact : christelle.pierkot@data-terra.org

Pour postuler : https://emploi.cnrs.fr/Offres/CDD/UAR2013-KARLEJ-012/Default.aspx

 

Temps fort pour le comité Thésaurus INRAE

Le comité thésaurus INRAE s’est retrouvé le temps d’un « atelier » à Paris les 10 et 11 octobre 2022.

Pour préparer la prochaine livraison qui aura lieu en janvier 2023, le groupe a planché sur différents points pour améliorer le fonctionnement global et la cohérence du thésaurus :

  • La polyhiérarchie, initiée dans la V1.3 avec un nombre limité de cas a été rediscutée et les conditions nécessaires pour justifier son utilisationont été affinées.
  • Les citations des sources pour les définitions ont été harmonisées.
  • La procédure de traitement de demandes externes d’ajout ou de modification de contenu (via le formulaire ou par mail) a été ré-examinée.
  • Les périmètres du domaine « Approche scientifique » et des MT Physique et état de la matière, MT Science des matériaux,  MT Sociologie, MT Neurosciences et MT Ethologie ont été revus.

Cet atelier a aussi été l’occasion de créer un poster : Le thésaurus INRAE : une ressource terminologique pour l’intéopérabilité sémantique. Il sera présenté lors d’une journée scientifique sur le thème de « l’accès à l’information » le 19 octobre à Rennes dans le cadre du GdR Traitement automatique des langues .

Merci aux 13 membres du comité ayant participé à ces deux jours de travail :
Sophie Aubin, Émilie Bernard, Sonia Bravo, Colette Cadiou, Eric Cahuzac, Véronique Decognet, Olivier Dupré, Agnès Girard, Pascale Hénaut, Marie-Pierre Maleyran-Raymond, Valérie Pagneux, Mohamad Taha, et Magalie Weber

 

 

La version 1.4 du Thésaurus INRAE est disponible

Lien vers le journal de modifications
Lien vers le portail de consultation
Lien vers le téléchargement
Utiliser l’API.

Cette nouvelle version inclut :

  • 155 nouvelles définitions principalement dans les domaines de la santé et les sciences du sol. Les sources utilisées sont l’Organisation Mondiale de la Santé, Ephytia,  Plateforme d’Épidémiosurveillance en Santé Végétale, European Food Safety Authority, Association pour l’Étude de l’Épidémiologie des Maladies Animales pour le domaine santé et le Petit lexique de pédologie.
    L’ensemble des concepts définis sont visibles depuis l’onglet « Groupes » sous « GR. CONCEPTS DEFINIS ».
  • des améliorations de l’organisation des concepts notamment avec un travail de reclassement des concepts autour de l’élevage et des systèmes d’élevages qui a été réalisé en collaboration avec Stéphane Ingrand du département Phase.
  • l’ajout de nouveaux 31 concepts

Nouveauté ! Intégrez le thésaurus dans votre système d’information avec l’API Thésaurus INRAE

Le thésaurus INRAE est un thésaurus ouvert et partagé couvrant les domaines de recherche d’INRAE avec plus de 15 000 concepts en français et en anglais (2/3 des concepts sont déjà traduits). Cette ressource institutionnelle est administrée par un comité éditorial piloté par la DipSO. Elle est mise à disposition des équipes scientifiques et d’appui INRAE pour référencer de manière unique les sujets d’intérêt : objets d’étude, méthodes et environnements de recherche.

Des questions sur la manière d’utiliser le thésaurus dans le cadre de vos activités ?  Vous souhaitez proposer des ajouts, des corrections ? Contactez le comité : thesaurusINRAE[AT]inrae.fr

En savoir plus sur le thésaurus : https://vocabulaires-ouverts.inrae.fr/a-propos-du-thesaurus-inrae/

L’API Thésaurus INRAE fait son entrée au catalogue

Le catalogue des APIs mises à disposition des système d’information INRAE s’est enrichi avec les données du Thésaurus INRAE.

 

Accessible en intranet, l’API permet d’utiliser le Thésaurus INRAE comme référentiel thématique au sein d’un SI ou d’une application informatique. Vous disposez ainsi d’une base mutualisée de concepts couvrant les domaines d’étude d’INRAE. Chaque concept a un identifiant unique et au moins un terme en français, parfois des synonymes. Pour une grande partie, les concepts sont proposés dans leur version anglaise. Des définitions et des équivalents dans d’autres vocabulaires sont aussi disponibles.

Nous vous présentons les données et services disponibles, quelques cas d’utilisation et indique comment accéder au service. Lire la suite

SKOS, un allié pour les principes FAIR

Découvrez le premier volet de notre série autour autour de SKOS, un modèle RDF standard pour représenter et échanger des vocabulaires simples.

En effet, les vocabulaires et autres référentiels terminologiques jouent un rôle important dans le cycle de vie de la donnée et contribuent à la mise en œuvre des principes FAIR.

Ils permettent de documenter les objets étudiés, les variables enregistrées dans les bases de données, les méthodes utilisées dans le cadre des expérimentations… Ils facilitent la recherche et la réutilisation des jeux de données et des publications par exemple. Les vocabulaires participent également à réaliser l’interopérabilité sémantique des objets numériques et des systèmes d’information qui les stockent et les exposent. Ils permettent de savoir si deux systèmes font référence ou non à une même notion. Pour qu’ils puissent remplir pleinement ces différents rôles, les vocabulaires doivent être représentés selon un modèle standard. Ils doivent aussi être partagés avec la communauté dans des portails dédiés qui facilite leur réutilisation et leur interconnexion.

En collaboration avec le projet ANR FooSIN, nous avons choisi de nous intéresser à SKOS car :

  • c’est un modèle créé par le W3C plutôt simple à comprendre,
  • suffisamment expressif pour gérer des listes et des hiérarchies de concepts,
  • il permet le multilinguisme,
  • il est assez facile à intégrer aux systèmes d’information et
  • bien adapté pour travailler avec des API,
  • il a gagné une certaine popularité au sein des communautés scientifiques.

SKOS : un standard pour une ressource sémantique simple et FAIR

Dans ce premier volet de la série, découvrez en quoi SKOS peut contribuer à votre démarche de mise en œuvre des principes FAIR. Cette ressource vous propose également une introduction à SKOS.

Lire l’article SKOS : un standard pour une ressource sémantique simple et FAIR