Stage Master – Construction d’une ontologie dédiée à la métabolomique

Ingénierie des connaissances

Titre du stage :

Construction d’une ontologie dédiée à la métabolomique

Contexte :

INRAE est un institut de recherche public œuvrant pour un développement cohérent et durable de l’agriculture, l’alimentation et l’environnement.

Pour répondre à des questions scientifiques de plus en plus complexes, il est souvent nécessaire de combiner des données provenant de banques de données publiques. La manière de représenter ces données peut varier en fonction des communautés scientifiques ou des outils utilisés pour les produire par exemple. Dans ce cas, il est nécessaire de formaliser la manière de représenter et de nommer les objets du domaine d’étude ainsi que leurs propriétés. Cette étape se concrétise généralement par la constitution de ressources sémantiques telles que les thésaurus et les ontologies.

L’infrastructure nationale de métabolomique MetaboHUB a pour objectif de fournir des outils technologiques de pointe et des services en métabolomique et fluxomique aux équipes de recherche académiques et à des partenaires industriels dans les domaines de la santé, de la nutrition, de l’agriculture, de l’environnement et des biotechnologies. Dans le cadre de sa nouvelle feuille de route, un des objectifs principaux est de favoriser une meilleure intégration des données et des services MetaboHUB au sein du consortium et au-delà. Les études actuelles sur le métabolisme nécessitent l’utilisation d’un nombre croissant de ressources de données, complexes, produites ou stockées et au sein des plateformes de métabolomique et sur le Web.

C’est dans ce contexte que le projet du stage s’inscrit. Ainsi, le projet MetaSaurus réunit des experts en ingénierie des connaissances et en science des données du domaine de la métabolomique avec pour objectif de bâtir un modèle de connaissance adapté aux études métabolomiques en s’appuyant sur les ontologies, thésaurus et vocabulaires contrôlés publiés (Thesaurus INRAE, Ontologies OBO Foundry / BioPortal).

Objectifs du stage

Produire une ontologie adaptée au domaine de la métabolomique et les supports méthodologiques d’accompagnement de la démarche.

Déroulement du stage

A partir des spécifications du projet MetaSaurus et de la description des étapes d’intégration de données en métabolomique, le projet consistera à élaborer la première version d’une ontologie dédiée à la métabolomique. Vous étudierez les modalités de réutilisation des ressources sémantiques existantes en lien avec la maintenance de cette ontologie (mis en œuvre des principes OBO) et intégrerez l’environnement de gestion de l’ontologie dans une forge logicielle. L’implémentation de l’ontologie sera réaliser au format OWL.

Cette démarche fera l’objet d’une proposition de méthodologie générique qui pourra être transposée à d’autres cas d’études.

Compétences requises

Étudiant de niveau master 2 avec :

  • Connaissances générales des standards du web sémantique (OWL/RDF) et des outils : Protégé, Github.
  • Aptitude à la rédaction de documentation technique
  • Maîtrise de l’anglais technique (lu)

Modalités d’accueil

Lieu du stage : Site INRAE – Le Rheu (35)
Durée : 6 mois
Gratification : selon le barème en vigueur au 1er janvier 2023 (environ 600 euros)
En rejoignant INRAE, vous bénéficierez (selon le type de contrat et sa durée) :

Environnement scientifique :

Vous serez intégré dans l’équipe RCA (Rendement sous Contraintes Abiotiques) de l’unité IGEPP (Institut de Génétique, Environnement et Protection des Plantes) et vous travaillerez au sein de l’équipe informatique de la plateforme P2M2 (plateau de profilage métabolique et de métabolomique) dédiée aux analyses de produits du métabolisme végétal. P2M2 dispose d’une infrastructure informatique associée à plusieurs équipements dédiés (systèmes de spectrométrie de masse couplés à des systèmes de chromatographie gazeuse et de chromatographie liquide) pour l’analyse, la caractérisation et la quantification de composés biochimiques complexes dans des matrices végétales.

Le stage se déroulera en interaction étroite avec les ingénieurs de la plateforme « Exploration du Métabolisme » PFEM et la DipSO, Direction pour la Science Ouverte en charge de l’accompagnement à l’ingénierie des ressources sémantiques à INRAE (sites d’Angers et de Nantes).

Réunion régulières avec les partenaires du projet en visio-conférence et en présentiel.

Responsables scientifiques du stage / contact :

Co-encadrants : Sophie Aubin, Olivier Filangi, Magalie Weber

Contact : Olivier Filangi olivier.filangi/ AT / inrae.fr

CDD Ingenieur portail ontologies pour le systeme Terre et l’Environnement (Cnrs)

Contexte

Les vocabulaires et les ontologies sont des éléments clés pour assurer l’interopérabilité des données.  Dans le cadre du projet européen FAIR-IMPACT, l’infrastructure de recherche DATA TERRA va développer un portail d’artefacts sémantiques de référence pour le Système Terre et l’Environnement (EarthPortal). Pour mettre en place cette plateforme, nous utiliserons la technologie  OntoPortal, développé à Stanford pour le projet NCBO BioPortal, et nous collaborerons avec l’INRAE et le l’université de Montpellier qui ont développé et maintiennent l’AgroPortal.
Les artefacts sémantiques référencés sur la plateforme devront ensuite être alignés entre eux, et avec les standards utilisés dans le contexte européen (ex : GeoDcat-AP). Un outil d’évaluation de la FAIRness des artefacts sémantique sera proposée afin d’être en accord avec les directives européennes et françaises. Cet outil sera basé sur l’outil O’FAIRe développé par l’équipe d’AgroPortal.
Enfin, la plateforme sera connectée au service « Entrepôt de Données de Data Terra » afin de valider l’utilisation de cette plateforme pour améliorer l’indexation et la recherche des données.

Mission

La personne sera recrutée dans le cadre du projet Horizon Europe FAIR-IMPACT. Ses activités se dérouleront essentiellement dans le work-package « Metadata and Ontologies ». Dans ce cadre, il/elle devra mettre en place la plateforme EarthPortal, développer des fonctionnalités de gestion, d’alignement d’ontologies et d’évaluation de la FAIRness et connecter la plateforme avec l’entrepôt de données Data Terra.
Nous réutiliserons la technologie développée par le National Center for Biomedical Ontologies de l’Université de Stanford: l’application Web OntoPortal mise à disposition via sa machine  virtuelle (https://ontoportal.org).
En nous appuyant également sur l’expérience et la technologie développées par nos partenaires, nous ferons d’EarthPortal une plate-forme de référence pour l’extraction, la génération, la validation, l’évaluation, le stockage et la récupération d’alignement entre ontologies, cela en adoptant une approche Web sémantique et de données ouvertes et liées, et en engageant la communauté.
Votre rôle consistera à la fois à mettre en place la plateforme et à analyser les décisions techniques nécessaires au développement de nouvelles fonctionnalités. Vous aurez pour mission de :

  • Mettre en place, gérer et administrer la plateforme EarthPortal et l’outil d’évaluation de la FAIRness des artefacts sémantiques, en collaboration avec les équipes de l’AgroPortal et de l’OntoPortal.
  • Travailler à l’intégration des artefacts sémantiques des différents pôles de données de Data Terra et plus largement des communautés du Système Terre et de l’Environnement.
  • Faciliter l’interopérabilité des différents artefacts sémantiques (vocabulaires, thesaurus, ontologies, schémas de métadonnées, …) dans le EarthPortal.
  • Travailler avec l’équipe de développement de l’entrepôt de données DATA-TERRA pour connecter l’EarthPortal à l’entrepôt.
  • Encadrer des stages techniques dans ce cadre.

Technologies

Développement Web et full stack, Java/JEE, TypeScript, Ruby/Rails, RESTful web services, XML/JSON, technologies Web (HTML5, Bootstrap, JavaScript), technologies du Web sémantique (OWL, RDF, SPARQL, triplestore, Linked data), technologie OntoPortal.

Référentiels GitHub pour plus de détails:

Profil

Nous recherchons un ingénieur et/ou un développeur full stack motivé, curieux et intéressé, possédant une expérience dans le développement d’applications Web pour développer et gérer la plateforme. Le candidat sera titulaire d’un diplôme d’ingénieur ou d’un master en informatique. Le candidat démontrera des aptitudes ou des correspondances avec le plus des aspects suivants :

  •  Développeur Web possédant une expérience de développement et connaissant bien les services Web REST / JSON, les technologies JEE, Ruby / Ruby On rails, Bootstrap, TypeScript. Quelques connaissances DevOps.
  • Motivation pour les travaux exploratoires en relation avec les scientifiques dans le cadre d’un projet européen.
  • Expérience des technologies du Web sémantique, notamment JSON-LD / RDF / OWL / SKOS / SPARQL
  • Une connaissance et/ou expérience dans le domaine du Système Terre et de l’Environnement est préférable
  • Excellentes capacités de travail à distance (emails, trackers, outils de collaboration, etc.)
  • Excellente aptitude à travailler avec les autres et à impliquer des utilisateurs externes
  • Très bonne maîtrise du français et de l’anglais à l’oral et à l’écrit
  • Autonomie et initiative, prise de décisions techniques dans le cadre du projet et justification des choix
  • Développeur open source
  • Personne sympathique pour rejoindre une petite équipe de recherche à Montpellier

Employeur : CNRS
Contexte : Projet FAIR-IMPACT (www.fair-impact.eu)
Durée : 20 mois (avec extensions possibles)
Où : IR Data Terra- UAR CPST, Montpellier, France
Collaboration : MISTEA (INRAE), LIRMM (UMontpellier), BMIR (Stanford, USA)

Contact : christelle.pierkot@data-terra.org

Pour postuler : https://emploi.cnrs.fr/Offres/CDD/UAR2013-KARLEJ-012/Default.aspx

 

Temps fort pour le comité Thésaurus INRAE

Le comité thésaurus INRAE s’est retrouvé le temps d’un « atelier » à Paris les 10 et 11 octobre 2022.

Pour préparer la prochaine livraison qui aura lieu en janvier 2023, le groupe a planché sur différents points pour améliorer le fonctionnement global et la cohérence du thésaurus :

  • La polyhiérarchie, initiée dans la V1.3 avec un nombre limité de cas a été rediscutée et les conditions nécessaires pour justifier son utilisationont été affinées.
  • Les citations des sources pour les définitions ont été harmonisées.
  • La procédure de traitement de demandes externes d’ajout ou de modification de contenu (via le formulaire ou par mail) a été ré-examinée.
  • Les périmètres du domaine « Approche scientifique » et des MT Physique et état de la matière, MT Science des matériaux,  MT Sociologie, MT Neurosciences et MT Ethologie ont été revus.

Cet atelier a aussi été l’occasion de créer un poster : Le thésaurus INRAE : une ressource terminologique pour l’intéopérabilité sémantique. Il sera présenté lors d’une journée scientifique sur le thème de « l’accès à l’information » le 19 octobre à Rennes dans le cadre du GdR Traitement automatique des langues .

Merci aux 13 membres du comité ayant participé à ces deux jours de travail :
Sophie Aubin, Émilie Bernard, Sonia Bravo, Colette Cadiou, Eric Cahuzac, Véronique Decognet, Olivier Dupré, Agnès Girard, Pascale Hénaut, Marie-Pierre Maleyran-Raymond, Valérie Pagneux, Mohamad Taha, et Magalie Weber