Construction d’une nouvelle ontologie, PO2/TransformON
Nous présentons ici les étapes de la construction d’une ontologie couvrant le domaine de recherches du département INRAE Transform.
Cette ontologie est basée sur le modèle « Process and Observation Ontology » (PO2) qui permet de décrire de façon générique les observations et les étapes intervenant dans un procédé de transformation.
Origine du besoin
Historiquement, plusieurs ontologies de domaine ont été développées au sein du département Transform, selon deux modèles différents : le modèle @web et le modèle PO2, Process and Observation Ontology. Le modèle @web est un modèle conçu pour des relations tabulaires (modèle n-aire) qui ne permet pas de décrire des enchaînements séquentiels d’étapes au cours d’un procédé contrairement au modèle PO2. Par ailleurs, plusieurs ontologies de domaines ont été développées en spécialisant le modèle PO2 sur des périmètres différents. Un effort de ré-ingénierie de ces ontologies s’est donc avéré nécessaire afin d’harmoniser le vocabulaire utilisé pour l’annotation des jeux de données. C’est la méthodologie LOT qui a été mise en œuvre pour conduire cet exercice.
Etapes de la construction
Spécification
Le périmètre et les objectifs de la nouvelle ontologie ont été définis : le périmètre couvre l’ensemble des transformations de la biomasse, depuis les matières premières jusqu’aux produits finis, aliments ou bioproduits, en intégrant le recyclage des co-produits ou résidus et l’analyse de cycle de vie, conformément au périmètre de recherche du département Transform. De nouvelles compétences requises par l’ontologie ont été identifiées et ont conduit à la révision du modèle PO2.
Par ailleurs, différents cas d’études constitués par les jeux de données contenus dans la base de connaissance ont permis de définir des sous-domaines d’application de l’ontologie TransformON : i) évaluation du cycle de vie des systèmes agro-alimentaires et optimisation des procédés, ii) réduction des pertes alimentaires et valorisation des déchets agroalimentaires, iii) fabrication de bioproduits et de composites biosourcés avec des fonctionnalités ciblées, iv) évaluation et amélioration de la qualité nutritionnelle et sanitaire des aliments en relation avec la perception et les préférences des consommateurs.
Implémentation
L’implémentation s’est appuyée sur différents standards :
- Ontologies SOSA/SSN, TIME, QUDT, BFO
- Schémas de données Schema.org, DCAT
- Code unifié pour les unités de mesure UCUM
- Modèle I-ADOPT pour la description des variables à partir des propriétés observées
Les nouvelles compétences requises identifiées à l’étape de spécification ont été implémentées dans le modèle :
Compétences requises :
- Modéliser un processus global de transformation de la biomasse
- Identifier ce qui provient de la production primaire, de la transformation secondaire en étant capable de distinguer les produits alimentaires des produits non alimentaires et les déchets ou résidus.
- Représenter les observations expérimentales tout au long du processus en étant capable de distinguer l’objet d’intérêt dans l’observation.
- Représenter les types d’équipements d’une plateforme analytique ou technologique.
- Pouvoir retrouver les réplications d’un processus par rapport à un plan d’expérience.
- Identifier les métadonnées permettant la traçabilité des ensembles de données correspondant à un projet.
Modifications réalisées en conséquence :
- Spécialisation des branches PO2 Component, PO2 Process, PO2 Step
- Création des branches Food, Feed, Non-Food en intégrant le référentiel FoodEX2 de l’EFSA et en se basant sur le catalogue européen des déchets EWC et la nomenclature IUPAC
- Création de la relation PO2 hasObjectOfInterest
- Intégration des concepts sosa:Platform et sosa:System
- Création de la relation PO2 hasReplicate
- Ajout de métadonnées DCAT au niveau des datasets associés aux projets
En outre, un écosystème logiciel a été développé pour l’édition du vocabulaire, et l’annotation et l’interrogation des données : i) l’outil PO2 Manager pour l’annotation des données et l’enrichissement du vocabulaire, ii) l’outil SPOQ (Simple PO2 Query) pour l’interrogation de la base de données graphe stockant les triplets de données RDF.
Publication et maintenance
Les versions de l’ontologie PO2/TranformON sont déposées dans l’espace BaGaTel sur Recherche Data Gouv où se trouvent également tous les jeux de données du projet. Les jeux de données et l’ontologie sont diffusés sous licence Etalab 2.0.
Par ailleurs, PO2/TranformON est diffusée sur AgroPortal pour lui donner plus de visibilité et bénéficier des fonctionnalités de découverte et d’exploitation des ontologies du portail.
La maintenance de l’ontologie et la synchronisation entre les versions est assurée avec l’écosystème logiciel mis en place en lien avec une forge GitLab.
Conclusion
La mise en oeuvre de la méthode LOT a permis de créer l’ontologie PO2/TransformON à partir de ressources sémantiques existantes, sur un domaine couvrant l’ingénierie des aliments, des bioproduits et des biodéchets ou résidus agroalimentaires. Cette ontologie rend possible la description des jeux de données avec un vocabulaire standardisé et une structure homogène, facilitant ainsi leur réutilisabilité.
Les données annotées à l’aide de l’ontologie peuvent ensuite être réassemblées grâce aux standard du web sémantique (RDF et SPARQL) et être exploitées avec des approches statistiques ou probabilistes. Cette intégration permet d’établir des relations entre les multiples dimensions qui interviennent dans les procédés de transformation pour répondre aux enjeux de santé humaine et environnementale.
Cette démarche a été récompensée par le prix « Science ouverte des données de la recherche » remis par le Ministère de l’enseignement supérieur et de la Recherche en novembre 2023 et fait l’objet de la publication d’un fait marquant dans le rapport Recherche & Innovation du département Transform de 2024.
- PO2/TransformON, an ontology for data integration on food, feed, bioproducts and biowaste engineering, npj Science of Food, 2023, https://doi.org/10.1038/s41538-023-00221-2
- SOSA/SSN : Semantic Sensor Network Ontology https://www.w3.org/TR/vocab-ssn/
- TIME: Time ontology in OWL https://www.w3.org/TR/owl-time/
- QUDT: Quantities, Units, Dimensions and Data Types Ontologies https://www.qudt.org/
- BFO : Basic Formal Ontology https://basic-formal-ontology.org/
- Schema.org : https://schema.org/
- DCAT : Data Catalog Vocabulary https://www.w3.org/TR/vocab-dcat-3/
- UCUM : Unified Code for Units of Measure https://ucum.org/ucum
- Modèle I-ADOPT : https://i-adopt.github.io/
- FOODEx2: deuxième version du système de l’EFSA pour la classification et la description des aliments en vue de l’évaluation de l’exposition https://efsa.onlinelibrary.wiley.com/doi/epdf/10.2903/sp.efsa.2015.EN-804
- EWC: European Waste Catalog https://www.eea.europa.eu/help/glossary/eea-glossary/european-waste-catalogue-1
- IUPAC: International Union of Pure Applied Chemistry https://iupac.org/what-we-do/nomenclature/
Magalie Weber
Sophie Aubin, Anne-Sophie Bage, Sonia Bravo
Date de création : 23 février 2024