Le microbiote intestinal est un sujet d'étude en pleine expansion. Néanmoins, il faut faire preuve de prudence lorsqu'on pense déceler des liens de causalité entre sa composition et les maladies, étant donné l'omniprésence des facteurs de confusion au sein des études réalisées.


au sommaire


    Nous le disions dans un précédent article, les rubriques santé des magazines font leur beurre sur chaque nouvelle étude décelant une corrélation entre un état de santé X et une composition Y du microbiote. De ces articles découlent généralement des conseils plus ou moins douteux. Pourtant, la question des états de santé en lien avec le microbiote est très étudiée. Dans l'article susmentionné, nous avions discuté des aspects réductionnistes et fonctionnels de l'influence du microbiote. Dans une récente étude parue dans la revue Nature, des chercheurs ont tenté d'identifier les facteurs de confusion prépondérants pouvant polluer les associations observées entre microbiote et état de santé afin d'améliorer le design des études futures.

    Un peu de biostatistique 

    Dans leur expérience, les scientifiques ont utilisé les données de personnes ayant accepté de participer au projet American Gut. Ces dernières ont dû alors donner un échantillon de leurs selles pour que leur microbiote soit séquencé et caractérisé, et répondre à quelques questions concernant leur état de santé et leur stylestyle de vie. On possède donc des données autodéclarées concernant l'état de santé et le style de vie.

    Par la suite, les investigateurs ont intégré ce jeu de données à un modèle d'apprentissage automatique : l'analyse de forêts d'arbresarbres décisionnels. « Les analyses de forêts d'arbres décisionnels - ou random forest analysis - sont des techniques statistiques d'apprentissage, qui permettent de faire des prédictions à partir d'un jeu de données de grande dimension. Par exemple, dans le cas de ce papier, cette méthode a été utilisée pour prédire le statut de santé (malade ou sain) d'individus à partir des données de leur microbiome. Pour ce faire, les auteurs ont divisé en deux aléatoirement leur jeu de données ; avec la première moitié, un modèle random forest a été appris à partir des données de microbiome et d'état de santé. Par la suite, le modèle a été utilisé pour prédire l'état de santé des individus de la seconde moitié du jeu de données à partir des seules données de leur microbiome », explique Mathieu Groussin, postdoctorant dans le domaine des microbiomes intestinaux, de l'évolution humaine et de la génomique microbienne au Massachusetts Institute of Technology (MIT).

    Les expérimentateurs se sont ensuite servis des prédictions effectuées par l'algorithme pour tenter d'y voir plus clair concernant les facteurs de confusion provenant du style de vie ou de la physiologie des individus. En faisant cela, ils ont repéré plusieurs facteurs qui venaient polluer les prédictions faites par le modèle d'apprentissage. « L'objectif premier des chercheurs dans cette étude était de vérifier l'importance des facteurs de confusion dans la découverte de ces associations. Ils se sont rendu compte qu'en comparant un groupe "contrôle" à un groupe "malade" sans contrôler certains facteurs confondants, il était possible de trouver des associations incorrectes », détaille Mathieu.

    Les données des participants ont été intégrées dans un modèle d'apprentissage automatique. © Eisenhans, Adobe Stock
    Les données des participants ont été intégrées dans un modèle d'apprentissage automatique. © Eisenhans, Adobe Stock

    Des informations cruciales pour les prochaines études 

    Cette étude vient donc suggérer que, dans leur design, les études qui seront conduites ultérieurement devront prendre garde à faire correspondre leurs différents groupes à l'étude avec les facteurs confondants identifiés. Les deux facteurs majeurs sont la consommation d'alcoolalcool et l'aspect des selles. On trouve aussi, dans une moindre mesure, l'indice de masse corporelle, l'âge et la teneur en sel de l'alimentation. Pourquoi ? Dans le but d'augmenter la probabilité d'identifier des taxonstaxons bactériens (espècesespèces bactériennes) réellement associée à une maladie donnée, c'est-à-dire sans l'influence externe du mode de vie. Pour autant, cela ne veut pas dire que le mode de vie ne joue pas un rôle dans l'apparition de ces maladies. On peut très bien imaginer une maladie qui se déclencherait en partie par une cause A (mode de vie), entraînant une conséquence B (l'altération de la composition du microbiote) causant elle-même en partie une conséquence C (la maladie X). Mais les auteurs de cette étude cherchent à savoir quelles espèces bactériennes pourraient être la cause, sans influence externe, d'états pathologiquespathologiques

    Néanmoins, on pourrait ajouter une petite limite aux résultats de l'étude. En effet, le jeu de données qui a servi à réaliser et à vérifier des prédictions n'est pas issu de la pratique clinique. Dès lors, une personne peut se déclarer saine et être en réalité malade sans le savoir, ou dans un état qui précède la maladie (prédiabète, par exemple). « La méthode utilisée dans cette étude est très bonne, et utilise les meilleurs standards statistiques actuels. Néanmoins, un petit bémol provient du jeu de données qu'ils ont analysé. Ce dernier n'est pas un jeu de données clinique. Les données concernant les maladies et les symptômes des participants ont été renseignées par les participants eux-mêmes, et non par un clinicien, ce qui n'est pas l'idéal. Sincèrement, je ne pense pas que cela pourra remettre en cause le résultat principal des auteurs. En revanche, il sera  tout de même intéressant de confirmer ces résultats avec des cohortes cliniques », conclut Mathieu Groussin.