Aide à la sélection de biomasses végétales pour la conception de biocomposites fonctionnels
Un retour d’expérience mettant en avant le couplage d’ontologie et de réseaux bayésiens à l’aide de l’écosystème Process and Observation Ontology (PO²), l’ontologie de domaine PO²/TransformON et logiciels associés.
Sommaire
Auteur : Patrice Buche
Contributeur : Cédric Baudrit, Hélène Coussy, Julien Cufi, Stéphane Dervaux, Liliana Ibanescu, Christophe Fernandez, Florian Goutieras, Hervé Guillemin, Claire Mayer, Mélanie Münch, Alrick Oudot, Emmanuele Piaud, Magalie Weber
Origine du besoin
L’impact sur l’environnement des plastiques pétrosourcés requiert de proposer des alternatives basées sur des plastiques biosourcés et biodégradables en condition naturelle. Une voie prometteuse est la production de matériaux composites en combinant du poly(3-hydroxybutyrate-co-3-hydroxyvalerate) -PHBV- et de fibres ligno-cellulosiques provenant de coproduits ou déchets de différentes filières. La question de recherche est de trouver le meilleur compromis en termes de choix de la biomasse végétale apportant les fibres ligno-cellulosiques et de proportions des deux constituants, permettant d’optimiser le coût de production et l’impact environnemental tout en préservant les caractéristiques fonctionnelles du composite biosourcé (appelé aussi biocomposite).
Quels ont été les apports de la sémantique dans ce projet ?
La mise en œuvre de la sémantique dans ce projet a permis de faciliter l’intégration et la réutilisation de données et de connaissances produites à INRAE et par ses partenaires, ainsi que celles issues de la littérature, dans des modèles d’apprentissage automatique et des outils d’aide à la décision. Ces modèles permettent de découvrir des relations de causalité possibles entre les variables d’entrée et les variables de sortie du système de transformation modélisé (ici la production de biocomposites) permettant de répondre à la question de recherche posée. L’atteinte de ces objectifs s’inscrit dans un projet plus large d’intégration et de découverte de connaissances mené au sein du département INRAE Transform dans un collectif constitué d’ingénieurs et de chercheurs du CATI DIISCICO et de son premier cercle de collaboration.
De la théorie à la pratique : construction d'un modèle ontologique robuste
La méthode proposée est constituée de quatre étapes :
- La première consiste à concevoir un modèle ontologique générique pour représenter des itinéraires de transformation et de caractérisation de composants, Process and Observation Ontology (PO²).
- Dans une deuxième étape, ce modèle est spécialisé sur le domaine des agro-ressources pour créer PO²/TransformON [1]. Cette ontologie de domaine reprend entre autres le référentiel FoodEx2, une classification des aliments établie par l’Agence Européenne de Sécurité des Aliments (European Food Safety Agency) et utilisée par les agences nationales en Europe, comme l’ANSES en France, pour annoter les données de composition nutritionnelle ou de sécurité sanitaire des aliments [2]. Elle s’appuie également sur le catalogue européen des déchets (European Waste Catalogue) [3].
- Cette approche permet, dans une troisième étape, de structurer les données de manière homogène et standardisée.
- La mise en qualité des données est réalisée dans une quatrième étape grâce à des modèles de fichiers (templates) Excel prédéfinis au format PO²/TransformON et associés aux équipements de transformation et de caractérisation couramment utilisés dans nos laboratoires. Ces templates définissent, pour chaque équipement, les informations minimales à enregistrer afin d’être capable de reproduire l’expérimentation. Ce travail facilite la mise en place du FAIR by-design, à savoir l’enregistrement des données expérimentales dès leur acquisition dans le format requis.
Outils et technologies mis en oeuvre
Une architecture logicielle [4] a été conçue et deux outils complémentaires ont été développés au sein du CATI DIISCICO pour constituer l’écosystème PO² : PO²Manager [5] et Simple PO²Query (SPO²Q) [6].
PO²Manager et SPO²Q mobilisent tous les deux à la fois l’ontologie générique PO² et le vocabulaire spécialisé sur le domaine de TransformON. Les données sont ainsi représentées dans des langages ontologiques standardisés au niveau international par le World Wide Web Consortium (W3C), à savoir OWL2 et RDF pour créer des données conformes au modèle PO2, et SPARQL pour interroger ces données.
Choisir les approches du Web Sémantique nous permet de disposer d’outils Open Source existants mettant en œuvre ces standards du W3C (par exemple, les systèmes de gestion de bases de données JENA et GraphDB). Cela facilite aussi la réutilisation d’ontologies de référence au format OWL2 comme SOSA/SSN [7], Time ontology in OWL [8], DCAT [9], PROV-O [10], QUDT [11], BFO [12], IAO [13], pour assurer l’interopérabilité de nos bases de données RDF avec d’autres à l’échelle mondiale.
PO²Manager pour éditer le vocabulaire et annoter les jeux de données
PO²Manager, qui est une application JAVA installable sur poste de travail, permet d’une part de consulter et d’éditer la partie terminologique de PO2/TransformON, et d’autre part, de saisir et annoter les jeux de données en utilisant le vocabulaire défini avec les experts avec le niveau de détail souhaité et le moins d’ambiguïté possible. Ce vocabulaire est décrit en SKOS et représenté en OWL pour la définition des classes. PO²Manager permet aussi l’import/export des templates au format Excel. Une fois les données enregistrées dans PO²Manager, elles sont transformées en RDF et stockées dans une base GraphDB. Elles sont ensuite interrogeables au format SPARQL, standard du Web Sémantique, à partir du triple store en ligne (SPARQL endpoint).
La figure 1 montre la fenêtre de saisie d’un itinéraire de production de poudres végétales.
SPO²Q ou "Simple PO²Query", une application web pour faciliter l'interrogation
SPO²Q est une application Web qui génère une requête SPARQL conforme à la structuration de l’ontologie PO2/TransformON. L’utilisateur est invité à sélectionner les informations en suivant différentes étapes à l’aide d’un formulaire (Figure 2a). Ici l’utilisateur a sélectionné le dataset correspondant au projet enregistré dans la base graphe. Il a sélectionné une biomasse d’intérêt « hemp core » en composition d’entrée, et il a ensuite pu filtrer les données en indiquant les critères recherchés : un volume D50 compris entre 140 et 160 µm. Le tableau de résultat retourné après exécution de cette requête est montré dans la Figure 2b. Ce tableau est ensuite exportable au format TSV ou JSON. Dans un mode avancé, il est également possible d’utiliser directement l’éditeur SPARQL.

Des résultats concrets : un modèle de réseau bayésien performant
Constitution d'une base de connaissances via l'assemblage de données
Une base RDF contenant 110 itinéraires de transformation de PHBV et de poudres végétales en biocomposites [14] a été constituée (Figure 2) grâce à l’assemblage des données issues de différents projets.
Une extraction de données de cette base a permis d’entraîner avec succès un modèle de réseau bayésien reliant les variables d’entrée aux variables de sortie du procédé de transformation [15]. La standardisation des variables d’intérêt sous forme de concepts de l’ontologie permet aux experts du domaine de représenter de manière non ambiguë les relations de causalité probables entre celles-ci (cf Figure 3). Ce recueil de connaissances expertes (expression de relations du type « a peut expliquer b ») permet de contraindre l’apprentissage du modèle. Le résultat final de l’apprentissage permet d’évaluer en quelle mesure les relations de causalité probables se confirment dans le jeu de données issu de la base RDF. Cette confrontation peut permettre d’identifier des trous de connaissances dans la base et de suggérer la réalisation de nouvelles expériences.
L’utilisation de plusieurs modèles a permis de créer un abaque, un ensemble de courbes qui simulent chaque itinéraire virtuel et permettent de trouver une valeur numérique pré-calculée grâce à une représentation graphique (Figure 4). L’abaque comprend plus de 600 000 données générées par les modèles de prédiction, représentant des itinéraires de transformation de poudres végétales virtuelles et de composites dont les caractéristiques sont prédites par le modèle. L’abaque est utilisé en ingénierie inverse pour aider à la conception d’un itinéraire adapté à la production d’un biocomposite avec les caractéristiques recherchées.
Figure 3 : Découverte de relations de causalité possibles entre variables d’entrée et variables de sortie du modèle de transformation décrivant les composites.
Les enseignements de ce retour d’expérience
Surmonter les obstacles : verrous technologiques et leviers d’optimisation
Le modèle ontologique PO² est très générique et permet de représenter de plusieurs manières possibles le même itinéraire de transformation, ce qui peut conduire à une structuration non homogène d’un projet à un autre. Ce premier verrou a été levé en établissant des recommandations d’utilisation pour harmoniser les pratiques, comme les règles de découpage des jeux de données expérimentales conformément aux différentes modalités d’un plan d’expérience, ou la façon de représenter les répétitions analytiques d’une mesure. Par ailleurs, l’utilisation de l’outil PO²Manager demande une formation préalable du fait du grand nombre de fonctionnalités qu’il offre. Afin de l’utiliser de manière optimale, des supports d’autoformation ont été créés [16-22].
Cette expérience permet également de mettre en évidence qu’un accompagnement des utilisateurs de ces outils est nécessaire pour leur permettre de s’approprier les approches sémantiques. Cet accompagnement correspond à une nouvelle mission transversale de « data steward » dont le rôle est de guider les utilisateurs de l’écosystème PO2 dans la démarche FAIR by-design (formation à l’utilisation de l’outil PO²Manager, création et gestion des templates pour l’import des données, validation du respect des instructions de structuration, etc.).
Pour évaluer la répétabilité d’une expérience, il est nécessaire de consigner une grande quantité d’informations tout au long du processus. Au travers de ce cas d’application, il est apparu qu’il n’existait pas dans les laboratoires de méthode générique permettant de préserver la sémantique des informations nécessaires à la reproduction d’une expérience, chaque équipe travaillant de manière ad-hoc. Pour y remédier, des templates Excel par équipement ont été définis avec les responsables de la plateforme PLANET (PLAtform for Natural ressources Engineering and Transformation) afin de guider et faciliter le travail de saisie.
Vers la capitalisation des connaissances
La mise en œuvre de l’écosystème sur l’application biocomposites a permis de valider les résultats obtenus à plus grande échelle grâce à une approche itérative du couplage entre intégration des données par ontologie et réutilisation des données par machine learning. Ce couplage permet également d’identifier les trous de connaissances et de planifier de nouvelles expérimentations.
L’écosystème logiciel PO² propose de multiples fonctionnalités qui sont mises à disposition des équipes de recherche travaillant dans le domaine de la transformation des agro-ressources. L’ontologie de domaine PO²/TransformON permet de standardiser le vocabulaire utilisé pour typer les données et rend ainsi possible l’interopérabilité entre projets et améliore la découvrabilité des données. Par ailleurs, afin de faciliter l’atteinte des objectifs attendus des opérations de transformation et la mise en qualité des données de caractérisation, l’approche sémantique est en cours d’expérimentation pour capitaliser le savoir-faire opérationnel afin de le mettre au service de la communauté. Pour cela, une deuxième ontologie de tâche a été conçue (CAPitalisation de l’Expérience-CAPEX). Elle permet de représenter dans des arbres de décision les connaissances expertes reliant une situation d’intérêt (objectif/défaut de transformation ou de caractérisation à atteindre/à corriger) à des actions technologiques à réaliser pour atteindre ces objectifs en passant par des chemins d’explication [23]. Enfin, le réseau composé des ontologies PO2/TransformON et CAPEX est en cours de construction pour utilisation dans un livre de connaissances, conçu avec le logiciel MakeBook [24], facilitant la découverte, la mise à disposition et la compréhension des jeux de données publiés dans des data papers et des connaissances apprises par apprentissage automatique.
Liens utiles
- Ecosystème PO²: https://quantum.mia-ps.inrae.fr/PO2/
- Ontologie PO²/TransformON sur AgroPortal : https://agroportal.lirmm.fr/ontologies/TRANSFORMON
- Dépôt BaGaTel dans la collection Data INRAE de Recherche Data Gouv : https://entrepot.recherche.data.gouv.fr/dataverse/bagatel
- [1] Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux, Hervé Guillemin, et al.. PO2/TransformON, an ontology for data integration on food, feed, bioproducts and biowaste engineering. npj Science of Food, 2023, 7, pp.47. ⟨10.1038/s41538-023-00221-2⟩. ⟨hal-04197618⟩
- [2] European Food Safety Authority, 2015. The food classification and description system FoodEx2 (revision 2). EFSA Supporting Publication 2015; 12(5):EN-804, 90 pp. doi:10.2903/sp.efsa.2015.EN-804
- [3] European commission, 2000/532/EC: Commission Decision of 3 May 2000 replacing Decision 94/3/EC establishing a list of wastes pursuant to Article 1(a) of Council Directive 75/442/EEC on waste and Council Decision 94/904/EC.
- [4] Stéphane Dervaux, Hervé Guillemin, Julien Cufi, Patrice Buche, Magalie Weber, et al.. PO2 Engine, an application programming interface associated with the Process and Observation (PO2) software ecosystem. 2024, ⟨swh:1:dir:a39345ca80cab0c8026ff3591a601fc1f1320909⟩. ⟨hal-04387669⟩
- [5] Stéphane Dervaux, Hervé Guillemin, Julien Cufi, Patrice Buche, Magalie Weber, et al.. PO2 Manager, an annotation tool to edit biomass transformation and characterization itineraries using the Process and Observation (PO2) Ontology. 2023, ⟨swh:1:dir:32f601791e1a504bbebfd2fae91df8d8fad45009⟩. ⟨hal-04313202⟩
- [6] Stéphane Dervaux, Julien Cufi, Hervé Guillemin, Magalie Weber, Liliana Ibanescu, et al.. Simple PO2 Query (SPO2Q), a querying tool to retrieve biomass transformation and characterization itineraries using the Process and Observation (PO2) Ontology. 2024, ⟨swh:1:dir:360ce0db73073210c9e95ee9ee44cb50fc31d9bd⟩. ⟨hal-04501660⟩
- [7] Semantic Sensor Network Ontology, Recommendation 19 October 2017, https://www.w3.org/TR/vocab-ssn/
- [8] Time ontology in OWL, W3C Candidate Recommendation Draft, 15 November 2022, https://www.w3.org/TR/owl-time/
- [9] Data Catalog Vocabulary (DCAT) – Version 3, W3C Recommendation 22 August 2024, https://www.w3.org/TR/vocab-dcat-3
- |10] PROV-O: The PROV Ontology, W3C Recommendation 30 April 2013, https://www.w3.org/TR/prov-o/
- [11] QUDT ontologies, https://www.qudt.org/
- [12] Basic Formal Ontology, https://basic-formal-ontology.org/
- [13] Ceusters W., An information artifact ontology perspective on data collections and associated representational artifacts. Stud Health Technol Inform. 2012, 180:68-72. < PMID: 22874154>.
- [14] Mélanie Munch, Patrice Buche, Stéphane Dervaux, Amélie Breysse, Marie-Alix Berthet, et al.. Biocomposites from poly(3-hydroxybutyrate-co-3-hydroxyvalerate) and lignocellulosic fillers: Processes stored in data warehouse structured by an ontology. Data in Brief, 2022a, 42, pp.108191. ⟨10.1016/j.dib.2022.108191⟩. ⟨hal-03650668v2⟩
- [15] Mélanie Munch, Patrice Buche, Stéphane Dervaux, Juliette Dibie, Liliana Ibanescu, et al.. Combining ontology and probabilistic models for the design of bio-based product transformation processes. Expert Systems with Applications, 2022b, 203, pp.117406. ⟨10.1016/j.eswa.2022.117406⟩. ⟨hal-03662183⟩
- [16] Emmanuele Piaud, Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux. Guidelines – Guide for Data Structuring with the Process and Observation Ontology Model and the TransformON Vocabulary. Data management with the PO2 ecosystem, France. 2025, pp.25. ⟨hal-05315925v2⟩
- [17] Emmanuele Piaud, Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux. Scenario 0: Introductory Sequence – Presentation of Tools and Definitions. Data management with the PO2 ecosystem, France. 2025, pp.15. ⟨hal-05315840v2⟩
- [18] Emmanuele Piaud, Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux. Scenario 1: Basics of PO2 Manager and SPO2Q. Data management with the PO2 ecosystem, France. 2025, pp.73. ⟨hal-05315873⟩
- [19] Emmanuele Piaud, Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux. Scenario 2: Advanced Editing of PO2 Manager – PO2 Manager Functions. Data management with the PO2 ecosystem, France. 2025, pp.30. ⟨hal-05315863⟩
- [20] Emmanuele Piaud, Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux. Scenario 3: Importing and Exporting Complete Projects –Using the Convert2PO2 Script. Master. Data management with the PO2 ecosystem, France. 2025, pp.45. ⟨hal-05315887⟩
- [21] Emmanuele Piaud, Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux. Scenario 4: Data Quality Improvement. Data management with the PO2 ecosystem, France. 2025, pp.24. ⟨hal-05315902⟩
- [22] Emmanuele Piaud, Magalie Weber, Patrice Buche, Liliana Ibanescu, Stéphane Dervaux. Scenario 5: Data Querying. Master. Data management with the PO2 ecosystem, France. 2025, pp.23. ⟨hal-05315911⟩
- [23] Patrice Buche, Julien Couteaux, Julien Cufi, Sébastien Destercke, Alrick Oudot. Integrating collective know-how for multicriteria decision support in agrifood chains-application to cheesemaking. Frontiers in Artificial Intelligence, 2023, 6, pp.1145007. ⟨10.3389/frai.2023.1145007⟩. ⟨hal-04086712⟩
- [24] Cédric Baudrit, Christophe Fernandez, Julien Couteaux, Patrice Buche, Nadege Bel, et al.. Cheese eK-Book: a new web-based medium for capitalising on, structuring and transferring cheesemaking knowledge and know-how. Journal of Documentation, 2025, 81 (2), pp.369-384. ⟨10.1108/JD-07-2024-0182⟩. ⟨hal-04859605⟩
INRAE (2025), Aide à la sélection de biomasses végétales pour la conception de biocomposites fonctionnels, https://vocabulaires-ouverts.inrae.fr/aide-a-la-selection-de-biomasses-vegetales-pour-la-conception-de-biocomposites/
Patrice Buche
Sophie Aubin, Magalie Weber
Date de création : 29/10/2025



