Statistiques et bactéries au service de la dépollution des sols (et des sédiments)

Julie Aubert

MIA Paris-Saclay

Contexte

Ecotoxicologie

La France : 2ème consommateur européen de pesticides (>70 000 tonnes par an).

source: https://ecotoxicologie.fr
Effets directs ou indirects avérés sur les écosystèmes aquatiques.

Effets indirects sur les agro-ecosystèmes

Les capacités de dégradation d’un pesticide varient en fonction du sol et du pesticide considéré

Illustration sur les écosystèmes aquatiques

source: https://fr.freepik.com

Illustration sur les écosystèmes aquatiques

source: https://fr.freepik.com

Bioremediation microbienne

An environmentally friendly process for the removal of harmful pollutants from soil, water and air using microbes (Alexander and Loehr, 1992)

Objectif

Introduire la capacité de dégradation (bioaugmentation) et/ou améliorer la capacité de la communauté dégradante (biostimulation) présente dans un milieu contaminé

source: Lopez et al. 2022

Coalescence et sélection génomique

Coalescence et sélection génomique

Idée : créer des communautés multi-dégradantes par coalescence en suivant les principes de la sélection génomique. Thèse de S. Thieffry, coencadrée avec A. Spor et M. Siol

Sélection des communautés “père” et “mère” et les mixer (pas d’invasion) Hypothèse : une communité dégradante simplifiée survivrait à un événement de coalescence.

Des microbes pour prédire la fonction d’une communauté

Sélection basée sur des prédictions de phénotype d’après des marqueurs génétiques

Parallèle avec la bioremédiation microbienne

Génomique Microbiome
Individu Communauté microbienne
Phénotype Capacité de dégradation
(Gènes) Marqueurs (OTUs) composants de la communauté
Cohorte Variants obtenus expérimentalement

Différences avec les données génétiques Des données de comptage
La composition microbienne varie dans le temps
Importance des conditions abiotiques et d’adaptation et des structures de communautés

Modèles de prédiction (avec \(n << p\)) G-BLUP, régressions pénalisées (Ridge, Lasso, Elastic Net), Forêts aléatoires, Réseaux de neurones.

Expériences Glyphosate / Isoproturon : principe

Expériences Glyphosate / Isoproturon : principe

  1. Tester la prédiction de capacité de dégradation sur des communautés microbiennes

  2. Sur 2 pesticides, et 3 sols différents (dégradant l’un, l’autre et aucun)

  3. Création de communautés multidégradantes par coalescence

  4. “Introgression” de ces capacités dégradantes dans un sol habité peu dégradant

Dégradation

Sélection de variables rares en grande dimension

Données de microbiome

Une table d’abondances

d’un très grand nombre d’espèces microbiennes (OTUs) (\(~10^4\)) dans différents environnements (\(~10^2\)).

Une taxonomie associée

Une ou plusieurs variables à prédire

En pratique, la plupart des OTUs sont rares.

Gestion des OTUs rares

rares = zéros presque partout.

Etapes de filtres (prévalence, abondance) ou d’aggrégation.

  • aggrégation au niveau genre ou à un niveau supérieur

  • aggrégation selon des techniques de classification supervisées (par ex. McMurdie and Holmes 2013; Wang and Zhao 2017)

De nombreux zéros substitent et les OTUs rares sont souvent éliminés de l’analyse.

Raison évoquée : pas assez de variation entre les échantillons pour être bien estimés (Ridenhour et al., 2017).

Sélection de variables rares en grande dimension Yan and Bien (2021)

Variables souvent filtrées même si très informatives.

Si non filtrées, difficile de les sélectionner même si l’effet est fort.

Résultats théoriques

  • un seul événement rare biaise l’estimateur MCO.

  • dans le cas où tous les \(X_j\) sont rares et qu’il existe une règle d’aggregation naturelle, l’estimateur lasso ne retrouve pas avec une forte probabilité le support quand une aggregation-oracle y arrive.

  • gain même si peu de variables aggrégées

Question : comment densifier ?

Aggregation en utilisant la taxonomie

Yan and Bien (2021) propose une aggrégation supervisée selon la taxonomie

Idée : aprendre un arbre à partir d’une matrice de plan d’expériences et utiliser la prédiction pour choisir la façon d’élaguer.

Un coefficient \(\beta_j\) est associé à chaque feuille de l’arbre \(\mathcal{T}\) puis les coefficients au sein d’une branche que l’on souhaite aggréger sont égalisés (fused)

Avantages : flexibilité qui permet des niveaux d’aggregation différent

Modèle

Sparse log-contrast model (Lin et al. 2014)

\(y \in \mathbb{R}^n\) \(n\) observations d’une variable à prédire

\(X \in \mathbb{R}_+\) matrice donnant le nombre de séquences assignées à chaque taxon \(j\) dans l’échantillon \(i\), \(i = 1, \ldots , n\) et \(j = 1, \ldots , p\).

\(\mathbf{Y} = \log(\mathbf{X})\beta + \epsilon\) avec \(\sum_{j=1}^{p}\beta_j = 0\)

\[\text{minimise}_{\beta \in \mathbb{R}^p} (2n)^{-1} \|y - \log(X)\beta\|_2^2 + \lambda \mathcal{P}(\beta)\]

tree-aggregation of compositional data Bien et al. (2021)

\(\mathcal{P}(\beta) = \mathcal{P}_{\mathcal{T}}(\beta)\)

Tree-aggregation of compositional data

\(\mathcal{P}_{\mathcal{T}}(\beta) = min_{\gamma \in \mathcal{R}^{|\mathcal{T}|-1}} \{ \|\gamma\|_1\}\) s.t. \(\beta = A\gamma\)

\(A\) matrice binaire telle que \(A_{ju} = 1\) si \(j\) appartient aux feuilles qui descendent du noeud \(u\).

Problème d’optimisation convexe. Alternating direction method of multipliers (ADMM, Boyd et al. 2011)

Application

Prédiction de la dégradation de l’isoproturon (IPU)

Variables sélectionnées pour prédire la capacité de dégradation

Au niveau OTU Thieffry et al. (2024)
(a) Avec aggrégation
Figure 1

Résultats introgression

Quelques étapes après (choix communautés, coalescence et introgression)

Minéralisation des pesticides après introgression
  • Peu de conclusion pour le glyphosate (sol déjà dégradant)

  • Apport de la capacité de dégradation de l’isoproturon

  • Effet clair de la quantité d’inoculation

Conclusions et perspectives

Bioremédiation microbienne

Preuve de concept de la prédiction de capacité de dégradation sur des communautés microbiennes à partir de variants créés expérimentalement

Importance de la diversité Introgression dans un sol possible, même à très faible dose d’inoculation

Schémas très différents selon le pesticide, lié aux mécanismes de dégration

Nouvelles expériences pesticides (sol)/antibiotiques (sédiment)

Aggrégation guidée par la taxonomie

Inférer des réseaux avec sparsité sur les arêtes et sur les noeuds

Comparer avec le travail de Jeanne ?

Remerciements

Projet INT-BXL (MP HoloFlux) - UMR AgroEcologie (A. Spor, M. Siol, S. Thieffry), UR RiverLy (S. Pesce)

References

–>

–>

–>

–>

–>

–>

Bien, Jacob, Xiaohan Yan, Léo Simpson, and Christian L Müller. 2021. “Tree-Aggregated Predictive Modeling of Microbiome Data.” Scientific Reports 11 (1): 14505.
Thieffry, Sylvia, Julie Aubert, Marion Devers, Fabrice Martin-Laurent, Sana Romdhane, Nadine Rouard, Mathieu Siol, and Aymé Spor. 2024. “Engineering Multi-Degrading Bacterial Communities to Bioremediate Soils Contaminated with Pesticides Residues.” Revision.
Yan, Xiaohan, and Jacob Bien. 2021. “Rare Feature Selection in High Dimensions.” Journal of the American Statistical Association 116 (534): 887–900. https://doi.org/10.1080/01621459.2020.1796677.