Tech

Cap sur l'e-biologie : le calcul distribué au coeur de la science

ActualitéClassé sous :Tech , calcul distribué , DataGrid

Séquençage des génomes, comparaison des séquences d'ADN ou de protéines par des méthodes de bio-informatique, banque de données sur l'imagerie du cerveau... Autant de recherches possibles grâce à la phénoménale augmentation de la mémoire des ordinateurs. Une nouvelle étape pourrait être franchie avec le développement du calcul distribué, qui permet de mutualiser la puissance de calcul.

Le projet DataGrid, soutenu par l'Union, a pour objectif de développer une grille d'ordinateurs délocalisés, afin que les scientifiques disposent d'une ressource de calcul et de gestion de données sans précédent. Le projet est mené par le CERN avec 20 aut

Voici quelques millénaires, l'invention de l'écriture délégua une partie de notre savoir à la matière, parchemins ou tables d'argile. Il y a quelques siècles, l'invention de l'imprimerie vint stabiliser et donc fiabiliser cette mémoire stockée. Et, depuis plusieurs décennies, les ordinateurs prennent le relais. Avec une rupture de taille : l'ordinateur ne se contente plus de soulager nos souvenirs. Il permet aux chercheurs de poser de nouvelles questions et de lancer des projets autrefois inimaginables.

La saga du génome humain

Le meilleur exemple en est sans doute le séquençage du génome humain. L'entreprise n'aurait pas été possible sans les puissantes machines qui ont assemblé virtuellement les fragments de notre génome, séquencés les uns après les autres dans des dizaines de laboratoires. Ce premier succès a accéléré le développement d'une nouvelle discipline : la bioinformatique. De quoi s'agit-il ? De tirer bénéfice des progrès des performances des ordinateurs, notamment pour comparer entre elles des séquences d'ADN (entre individus ou entre espèces) ou pour y repérer les régions qui codent pour des protéines, et celles, infiniment plus nombreuses, qui ne le font pas.

La bioinformatique a également bouleversé un vieux problème de biochimie : comment, à partir de la séquence des acides aminés d'une protéine, connaître la forme spatiale de la molécule ? Jusqu'au début des années 1990, on cristallisait la protéine et on l'observait par diffraction des rayons X. Ce travail long et fastidieux était presque impossible à réaliser pour les protéines insolubles. Grâce à la bioinformatique, on peut aujourd'hui prédire - dans une certaine mesure - l'organisation tridimensionnelle d'une protéine et formuler ensuite des hypothèses sur sa fonction.

Imagerie et cerveau

L'augmentation des puissances de calcul a également provoqué de spectaculaires évolutions à l'échelle de l'organisme. La neuroimagerie propose des images incroyablement précises du cerveau, de sa structure, comme de son fonctionnement in vivo. Sa technologie phare, l'Imagerie par Résonance Magnétique fonctionnelle (IRMf), permet de visualiser quelles régions sont activées en réponse à une stimulation cognitive : réaliser un calcul mental, écouter de la musique, penser à ses vacances. En une seule expérience d'IRMf, ce sont 2 gigabits de données qui sont collectées.

Depuis quelques années, l'Organisation for Human Brain Mapping réfléchit à la manière de mutualiser ces données. Certains rêvent d'un "programme cerveau humain", sur le modèle de celui qui a permis de décrypter le génome, qui viserait à une description exhaustive et systématique de notre noble organe. "Le séquençage du génome humain était une tâche gigantesque, mais plutôt simple sur le plan conceptuel, fait remarquer Richard Frackowiak, du Wellcome Department for Cognitive Neurology (Londres). Mais, avant de construire une base commune de neuroimagerie, il nous faut mener un travail fondamental pour aboutir à une méthodologie standardisée, tant pour l'obtention des résultats que pour leur traitement et leur archivage."

De DataGrid à Egee

La mise en oeuvre d'un tel dessein représente aussi un problème technique. Comment trouver la puissance de calcul nécessaire à la gestion de pareilles masses de données ? Les informaticiens songent, pour ce faire, au concept de grid computing (calcul en grille) qui met en réseau des ordinateurs afin de les faire travailler sur un même projet. On additionne ainsi, à moindre coût, leur puissance de calcul ou de stockage. Pionnier de cette approche, le CERN (Genève), soutenu par l'Union, avait lancé le programme pilote DataGrid qui a rassemblé, de 2000 à 2004, 21 instituts de 11 pays. "DataGrid a fourni aux scientifiques européens la première démonstration convaincante, à grande échelle, d'une grille en fonctionnement", commente Fabrizio Gagliardi, qui coordonna ce projet.

Ce succès, dont ont bénéficié aussi bien la physique que la biologie ou la médecine, a poussé les partenaires à passer la vitesse supérieure. Egee (Enabling Grids for e-science in Europe) fédère 70 laboratoires européens pour obtenir une puissance de calcul équivalente à celle de 100 000 PC, disponible vingt-quatre heures sur vingt-quatre. "Egee permettra un accès fiable et régulier à cette technologie pour tous les scientifiques européens, ainsi qu'au secteur R&D industriel. De la même façon que pour le World Wide Web, initialement conçu au Cern pour couvrir des besoins particuliers, l'impact de cette technologie émergente des grilles de calcul sur la société est difficile à prédire en détail. Mais il promet d'être immense", conclut Fabrizio Gagliardi, aujourd'hui responsable d'Egee.