Un génome qui n'appartient à personne

Classé sous :génome , recherche biomédicale , Faux génome

[EN VIDÉO] Barbara McClintock, pionnière de la génétique  Pionnière de la génétique, l'Américaine Barbara McClintock a multiplié les découvertes entre la fin des années 1920 et les années 1950 : le rôle des chromosomes dans l’hérédité, le « crossing-over », les gènes sauteurs, la régulation des gènes, l'épigénétique... En avance sur leur temps, ses travaux ont été rejetés… puis tous confirmés. Récompensée in extremis par un Nobel en 1983, elle fut de son vivant pleinement reconnue comme une des plus grandes biologistes. Mais si tardivement... 

« Les bases de données génomiques existantes sont une ressource inestimable pour la recherche biomédicale, mais elles ne sont pas accessibles au public, ou protégées par des procédures de demande longues et épuisantes, dues à des préoccupations éthiques légitimes. » Ce constat est celui de Burak Yelmen, chercheur en génétique des populations. Il est l'un des auteurs d'une récente étude, parue dans PLOS Genetics, qui propose une solution à cet « obstacle scientifique majeur ».

L'idée ? De faux génomes humains, générés par des machines à apprentissage automatique. Les progrès de l'algorithmie et de l'informatique permettent de produire des données artificielles, similaires à des données authentiques. « Ces génomes, émergeant de bruits aléatoires, imitent les complexités que nous pouvons observer au sein de populations humaines réelles et, pour la plupart des propriétés, ne se distinguent pas des autres génomes de la biobanque utilisés pour entraîner notre algorithme », souligne Luca Pagani, coauteur de l'étude.

Un seul détail différencie ces génomes produits des génomes humains : ils n'appartiennent à personne. Adieu, soucis d'éthique ! D'autant que ces créations semblent être suffisamment éloignées de génomes réels pour que la confidentialité des échantillons originaux soit respectée. « La combinaison de plusieurs mesures statistiques nous a permis de vérifier soigneusement tous les modèles », atteste Flora Jay, coautrice et chercheuse en informatique.

Une machine dite génératrice façonne un bruit aléatoire. Les données générées sont analysées par une machine dite discrimatrice, en comparaison avec une base de données réelles « d'entraînement ». Un algorithme produit alors des données artificielles, semblables aux vraies. © Yelmen et al. 2021