Les séquences génétiques des protéines du virus peuvent être comparées à des mots, qui doivent avoir un sens et s’inscrire dans un contexte. © Greenbutterfly, Adobe Stock
Santé

Ces algorithmes pourraient prédire l’émergence de nouveaux variants du SARS-CoV-2

ActualitéClassé sous :Coronavirus , Algorithme , mutation aléatoire

[EN VIDÉO] Les algorithmes et leur prise de décision  De plus en plus, les algorithmes se substituent aux êtres humains dans les prises de décision ou la réalisation des tâches. Ils prennent en compte nombre de paramètres mais la question de la transparence des algorithmes se pose : peuvent-ils expliquer leur décision ? 

Des chercheurs ont appliqué des règles grammaticales et sémantiques aux séquences génétiques du virus pour définir quelles mutations sont viables et présentent un potentiel d'évasion des anticorps. Une recherche qui pourrait permettre d'anticiper l'émergence de nouveaux variants et d'avoir un coup d'avance pour les vaccins.

Le code génétique d'un virus peut être comparé à un livre, où les lettres des bases azotées (A, C, G, T et U) forment des mots, puis des phrases qui s'assemblent pour former un ensemble cohérent qui va rendre le virus fonctionnel. À chaque fois qu'un virus se réplique, des erreurs aléatoires s'insèrent dans le processus de retranscription de l'ADN. La plupart du temps, ces erreurs concernent des parties « non codantes » du génome et n'ont aucune conséquence. D'autres fois, elles forment un « mot » qui ne veut rien dire et ne donne pas lieu à une protéine fonctionnelle. Mais de temps en temps, la mutation introduit une phrase qui fait sens et procure un avantage compétitif au virus. Elle est alors conservée et le nouveau code se répand.

Algorithme d'apprentissage sémantique appliqué à l'ADN

Prédire les futures évolutions du virus semble donc mission impossible, puisque les mutations sont par nature aléatoires. Des chercheurs du MIT ont pourtant tenté de relever le défi, en se basant sur des algorithmes d'apprentissage automatique développés pour le langage naturel. Brian Hie et ses collègues ont formé les algorithmes à une tâche appelée « recherche de changement sémantique contraint », en utilisant deux composantes du langage : la grammaire (syntaxe) et la sémantique (sens des mots). « Lorsqu'il mute, le virus est soumis à des contraintes : il doit préserver sa grammaire pour rester viable, mais changer de sémantique pour échapper aux anticorps », détaille Bryan Bryson, coauteur de l'article, publié en janvier dans la revue Science. Ces contraintes peuvent être représentées dans l'exemple ci-dessous. 

Une mutation virale doit être grammaticalement correcte pour être viable et changer le sens de la phrase pour passer incognito auprès des anticorps. © Bryan Bryson

La première phrase (« le garçon donne une petite tape au chien ») représente la séquence originale du virus. Dans la première mutation (deuxième phrase), la mutation induit un léger changement dans le code génétique de la protéine de pointe, mais celle-ci ressemble encore suffisamment à l'originale pour que le système immunitaire puisse la reconnaître et l'attaquer. Dans la troisième phrase en revanche, la phrase n'est ni grammaticalement correcte ni logique, et ne peut donc plus être « lue » par les récepteurs, c'est-à-dire qu'elle ne peut plus se lier à eux. Le virus est non viable. La quatrième phrase, elle, induit un changement qui est compréhensible mais modifie le sens de la phrase (« le garçon mange le chien »), de telle sorte que la protéine ne peut plus être reconnue par les anticorps, et apparaît « déguisée ».

Prédire le potentiel d’échappement d’une mutation

Les algorithmes de langage élaborent des prédictions de mots qui vont pouvoir « coller » à la phrase en fonction de son contexte (voir exemple ci-dessous). « Notre modèle linguistique s'appuie sur la même analogie et apprend la probabilité d'apparition d'un acide aminé dans une séquence compte tenu du contexte de celle-ci », illustre Bryan Bryson.

Dans cet exemple, il y a une chance sur deux pour que la phrase soit « Le Président chinois était au Japon hier », et une chance sur cinq pour que la phrase soit « Le Président chinois a voyagé au Japon hier ». © Bryan Bryson

Anticiper les futurs vaccins

Les chercheurs ont testé leur modèle pour évaluer les mutations de trois protéines : l'une située à la surface du virus de la grippe, l'autre à la surface du VIH et la troisième à la pointe du coronavirus SARS-CoV-2. Sur 891 mutations de la protéine de pointe, l'algorithme en a identifié quatre ayant à la fois une structure grammaticale correcte et le potentiel d'échapper aux anticorps, dont une avait déjà été trouvée dans un épisode de réinfection. Une proportion qui reste donc relativement faible (0,4 %).

En plus de quantifier le potentiel d'évasion des mutations, « l'algorithme pourrait également servir à sélectionner des éléments d'un vaccin multivalent contre plusieurs variants », ou même des vaccins combinant différents virus tels que la grippe et le coronavirus.

Abonnez-vous à la lettre d'information La quotidienne : nos dernières actualités du jour. Toutes nos lettres d’information

!

Merci pour votre inscription.
Heureux de vous compter parmi nos lecteurs !