Sciences

100 milliards de bases dans les banques de données sur l'ADN et l'ARN

ActualitéClassé sous :recherche , séquençage de l'ADN , banque de donnée

Les trois membres du projet de base de données internationale de séquences de nucléotides (International Nucleotide Sequence Database Collaboration - INSDC) ont annoncé que leurs répertoires publics d'informations sur les séquences de l'ADN et de l'ARN contiennent désormais plus de 55 millions de séquences, soit l'équivalent de 100 gigabases, ou 100.000.000.000 bases - les composantes moléculaires de l'ADN qui codifient les informations génétiques.

ADN (modèle moléculaire)

Les trois membres - EMBL-Bank (basée au laboratoire européen de biologie moléculaire de l'Institut européen de bioinformatique de Hinxton, Royaume-Uni), GenBank (Etats-Unis) et la Banque de données japonaise sur l'ADN - ont atteint ensemble cette étape clé grâce à leur politique d'échange de données. Les trois organisations partagent leurs données séquentielles moyennant l'échange global d'informations biologiques pour mettre le plus vite possible à la libre disposition de la communauté scientifique toute séquence de nucléotides du domaine public.

Quatre bases - l'adénine (A), la thymine (T), la guanine (G) et la cytosine (C) - reliées ensemble par paires forment une longue chaîne pour constituer la double hélice désormais familière de l'acide désoxyribonucléique (ADN). Les liens entre les paires de base - A étant reliée à T et C à G via des liaisons hydrogénées - peuvent être rompus pour "délier" les deux brins de la double hélice.

Les informations génétiques sont encodées dans l'ADN dans l'ordre où les bases se présentent en séquence. De manière conventionnelle, les séquences peuvent être décrites simplement en énumérant l'ordre des bases individuelles (ou nucléotides) de l'une des deux brins (par ex. CCAAATATGGATT), ceci constituant, avec les annotations identifiant les espèces et les fonctions sources, le type d'informations que contiennent les bases de données INSDC.

"Il s'agit d'une étape clé de l'histoire des bases de données de séquences de nucléotides, a déclaré Graham Cameron, directeur associé de l'Institut européen de bioinformatique EMBL. Depuis la première donnée enregistrée dans la bibliothèque de données EMBL rendue publique en 1982 jusqu'à la mise à disposition, aujourd'hui, de plus de 55 millions de séquences d'au moins 200.000 organismes différents, ces ressources ont anticipé les besoins des biologistes moléculaires et y ont répondu, souvent dans le contexte d'un grave manque de ressources".

Le projet INSC a été formalisé en février 1987 et les trois bases de données se sont développées dans les années 80: EMBL-Bank, localisée aujourd'hui à l'EBI au Royaume-Uni, a été créée sous le nom de EMBL Data Library à Heidelberg (Allemagne) ; la GenBank américaine a été créée peu de temps après au laboratoire national de Los Alamos, avant d'être déplacée au centre national d'informations biotechnologiques de Bethesda (Etats-Unis); la Banque de données japonaise sur l'ADN a quant à elle été établie à l'institut national de génétique de Mishima en 1986.

David Lipman, directeur du centre national d'informations biotechnologiques de Bethesda, a expliqué pour sa part: "Aujourd'hui, les bases de données de séquences de nucléotides permettent aux chercheurs de partager des génomes complets, la structure génétique d'écosystèmes entiers, et des séquences associées à des brevets".

Auparavant, les données étaient réparties sur une bande magnétique et enregistrées manuellement ou sur une disquette. Cette méthode a été remplacée par des flux de données venant de projets de séquençage du génome et de l'Office européen des brevets, ce qui garantit que toutes les séquences relevant du domaine public sont publiées le plus rapidement possible. Les chercheurs peuvent également soumettre des données directement à l'une des organisations et, grâce aux modèles harmonisés de données des trois bases de données, les séquences sont échangées automatiquement en 24 heures de manière à rendre les données disponibles via les trois bases.

À l'origine, les séquences étaient enregistrées manuellement à partir de revues scientifiques, mais ce processus a également évolué au fil des ans de telle sorte que la soumission directe de séquences de nucléotides aux bases de données fait désormais partie du processus de publication. Ce principe a également été étendu à d'autres domaines, y compris la protéomique et les modèles de processus biologiques.

"L'INSDC a établi les principes de l'échange de nombreux types d'informations biologiques", a déclaré Takashi Gojobori, directeur du centre d'informations biologiques et de la Banque de données japonaise sur l'ADN. "Étant donné que nous entrons dans l'ère des systèmes biologiques et que les chercheurs commencent à échanger des types complexes d'information, tels que les résultats d'expériences consistant à mesurer les activités de milliers de gènes ou des modèles informatiques de processus entiers, il est important de se féliciter de la réalisation de ces trois bases de données qui ouvrent la voie à l'échange ouvert d'informations biologiques".

Abonnez-vous à la lettre d'information La quotidienne : nos dernières actualités du jour.

!

Merci pour votre inscription.
Heureux de vous compter parmi nos lecteurs !

Cela vous intéressera aussi