Le projet MetaSaurus : retour d'expérience sur la construction d'une ressource sémantique pour les recherches en métabolomique.

Nous présentons ici les étapes de la construction d’une ressource sémantique permettant de répondre aux besoins d’annotation sémantique de données générées par les études métabolomiques.

La démarche s’est basée sur la méthodologie LOT-Linked Open Terminology et a consisté à préciser le  choix de l’ontologie (modèle pivot) et le vocabulaire destinés à structurer et annoter les données afin d’obtenir des graphes de connaissances stockés au format RDF dans un triple store.

Origine du besoin

Les ingénieurs spécialisés en science des données de l’infrastructure nationale de Métabolomique et de Fluxomique MetaboHUB  travaillent depuis près de quatre ans sur les technologies du Web sémantique et du « Big Data » et leurs applications au domaine de la métabolomique.  Les soutiens du PIA MetaboHUB V2.0 [1], du dispositif SAPI (Soutien à Projets Innovants) de la DipSO  et du département ALIMH INRAE ont permis le financement d’une infrastructure de lac de donnée prototype. La mise en place d’une telle infrastructure et son exploitation pour la mise à disposition de graphes de connaissances posent de nouvelles problématiques, notamment la question de la représentation  des données au moyen d’ontologies ou des vocabulaires de référence. A partir de ce besoin, un projet collaboratif a été initié avec le double intérêt de construire un modèle qui soit spécifique à la métabolomique tout en restant ré-applicable à d’autres données omiques.

Ainsi, le projet MetaSaurus, financé par le dispositif SAPI 2021  de la DipSO et le PIA MetaboHub 2.0, a eu pour objectifs de :

  1. Développer un  » modèle pivot  » adapté aux études métabolomiques en s’appuyant sur des ontologies déjà publiées dans un premier temps, puis proposer des extensions pour l’adaptation à des cas d’usage traités dans le contexte de l’infrastructure nationale MetaboHUB ;
  2. Sélectionner des méthodologies d’intérêt pour la construction de  » modèle(s) pivot(s) » en science ;
  3. Partager cette expérience avec d’autres communautés scientifiques souhaitant s’engager dans une démarche similaire.

Le projet s’est déroulé entre septembre 2022 et janvier 2024. Il a réuni sept personnes de profils et d’horizons variés : deux ingénieures en organisation de la connaissance (Sophie Aubin, DipSO et CATI Prosodie et Magalie Weber, DipSO et CATI DIISCICO, département Transform) et cinq informaticien.nes ou bioinformaticien.nes des CATI Empreinte et Prosodie travaillant sur des plateformes de métabolomique (Franck Giacomoni, Marie Lefebvre, Nils Paulhe, Olivier Filangi, David Benaben,  départements AlimH, BAP et SPE).

L'équipe du projet (source: https///metasaurus.fr/project.html)

Etapes de la construction

Un premier atelier en séance plénière a permis de réfléchir à la méthodologie et au périmètre du projet (T1). La méthodologie LOT a été retenue car elle propose une stratégie adaptée à la construction (T2). Concernant l’élaboration du modèle pivot (T3), une série de séances de travail ont eu lieu en distanciel entre janvier 2023 et janvier 2024. Enfin, un second séminaire en présentiel a permis de clôturer le projet et d’élaborer de nouvelles pistes d’action (T4).

Organisation du projet (source: https///metasaurus.fr/project.html)

Compréhension générale du besoin

Conformément à la méthodologie LOT, la première tâche a consisté à définir le périmètre et les cas d’usage, puis à identifier des ressources sémantiques candidates (ontologies ou nomenclatures et vocabulaires existants).  Une cartographie des besoins et des ressources sémantiques ou schémas de métadonnées couvrant la métabolomique a ainsi été élaborée.

 

Proposition d’un modèle d’intégration pour les études en métabolomique

Pour la construction du modèle (tâche 3), le groupe s’est appuyé sur des séances de travail régulières à l’aide de l’outil collaboratif Klaxoon.

Le modèle ISA [2] étant un standard très utilisé dans la communauté, un premier atelier a eu pour objectif de tester sa représentation RDF Linked ISA [3] sur un jeu de données issu de MetaboLights [4]. Un deuxième atelier a permis de tester son application au modèle de données de PeakForest, la base de données spectrales en métabolomique de l’infrastructure MetaboHUB [5].

Définition du périmètre d'étude à l'aide de l'outil Klaxoon

Conclusion

Ce projet a permis d’expérimenter la phase de spécification de la méthode LOT.  Cependant, le travail prévu après cette phase n’a pas pu être réalisé, notamment en raison de l’échec à recruter un stagiaire ayant des compétences en ingénierie des connaissances et/ou en web sémantique qui devait  réaliser l’implémentation. Malgré cela, la constitution d’un groupe de travail nous a permis de sélectionner différents cas d’usage, ce qui a facilité la présélection d’ontologies d’intérêt dans le domaine de la métabolomique.

En résumé, la philosophie générale de la conception du modèle pivot s’appuie sur la réutilisation d’un modèle générique adaptable à l’aide de vocabulaires spécialisés pour le domaine d’étude. Linked ISA a été le modèle retenu en raison de son utilisation par le portail de référence européen de dépôt d’études en métabolomique (EBI MetaboLights),  mais des questions ont néanmoins été soulevées : d’une part autour de la maintenance du modèle et la version utilisée, et d’autre part, autour  de l’interopérabilité avec d’autres modèles, en particulier SOSA/SSN, publié par le World Wide Web Consortium (W3C).

Pour conforter le choix du modèle et valider les exigences fonctionnelles pour aller vers une implémentation concrète, un travail complémentaire a été programmé au sein de la communauté en métabolomique de l’infrastructure  européenne en bioinformatique ELIXIR. Une proposition de projet porté par Franck Giacomoni a été déposé dans ce cadre lors de l’appel 2024 « Science of the Commissioned Services » au travers de l’Institut Français de Bioinformatique (IFB) et de MetaboHUB.

Par ailleurs, les ontologies OBO Foundry [6] ont été identifiées comme étant des ressources intéressantes à réutiliser pour le vocabulaire contrôlé permettant l’annotation des données. Une réflexion sur les alignements avec le Thésaurus INRAE est également engagée.

Le projet Metasaurus a été présenté lors du Séminaire résidentiel INRAE « Semantic Linked Data » organisé en 2023 [7], permettant de faire un premier retour auprès des communautés scientifiques intéressées par la structuration de leurs données.

  • [1] METABOHUB, Développement d’une infrastructure française distribuée pour la métabolomique dédiée à l’innovation, https://anr.fr/ProjetIA-11-INBS-0010
  • [2] Sansone, SA., Rocca-Serra, P., Field, D. et al. Toward interoperable bioscience data. Nat Genet 44, 121–126 (2012). https://doi.org/10.1038/ng.1054
  • [3] González-Beltrán, A., Maguire, E., Sansone, SA. et al. linkedISA: semantic representation of ISA-Tab experimental metadata. BMC Bioinformatics 15 (Suppl 14), S4 (2014). https://doi.org/10.1186/1471-2105-15-S14-S4
  • [4] MetaboLights: a database for metabolomics studies and derived information https://www.ebi.ac.uk/metabolights/about
  •  [5] Paulhe, N., Canlet, C., Damont, A. et al. PeakForest: a multi-platform digital infrastructure for interoperable metabolite spectral data and metadata management. Metabolomics 18, 40 (2022). https://doi.org/10.1007/s11306
  • [6] Open Biological and Biomedical Ontology Foundry, https://obofoundry.org/
  • [7] Filangi, O., Aubin, S., Weber, M., Lefebvre, M., Paulhe, N., Benaben, D., & Giacomoni, F.  MetaSaurus: Towards FAIR metabolomics analyses.  Séminaire semantic linked data INRAE- 11 octobre 2023, Cap Agde, France. ⟨hal-04613582⟩
Retour en haut