Sciences

Un vocabulaire commun pour les bases de données biologiques interopérables

ActualitéClassé sous :recherche , base de donnée , biologie

L'institut européen de bio-informatique (EBI, ou European Institute Bioinformatics) a annoncé l'achèvement réussi de BioBabel, qui inclut le développement d'un vocabulaire contrôlé et d'une ontologie commune pour décrire les attributs biologiques dans les bases de données biologiques.

Chaîne polypeptidique

Le projet a été financé par l'Union européenne au titre de la priorité "Qualité de la vie et gestion des ressources du vivant" du Cinquième programme-cadre. Coordonné par l'EBI (Royaume-Uni), BioBabel a réuni des partenaires de l'institut suisse de bio-informatique (Suisse), de l'institut de biochimie de l'université de Cologne (Allemagne) et du centre national de biotechnologie pharmaceutique pour la biochimie du Trinity College (Irlande). Le projet a été réalisé entre décembre 2001 et novembre 2004.

Le projet, dont le titre exact était "Amélioration de l'interopérabilité des bases de données biologiques par la normalisation de la terminologie biochimique et l'introduction d'une ontologie partagée", a combiné les différentes forces de groupes européens travaillant sur divers aspects de la normalisation de la terminologie biochimique dans les bases de données, afin de développer et mettre en oeuvre un vocabulaire contrôlé et une ontologie commune pour décrire les attributs biologiques dans les bases de données biologiques.

Pourquoi les scientifiques ont-ils besoin de vocabulaires normalisés? Les bases de données biologiques décrivent une immense gamme d'informations. Leur diversité est telle qu'elle rend difficile les efforts d'intégration des bases de données. Le projet Biobabel a permis le développement et la mise en oeuvre d'ontologies communes pour décrire les attributs biologiques dans ces bases de données. Les ontologies peuvent être définies comme des systèmes de représentation des connaissances. Dans ce contexte, il s'agit principalement de la représentation de modèles et d'hypothèses dans des termes compatibles avec l'informatique. Ces travaux permettront aux utilisateurs d'effectuer de manière simplifiée des recherches complexes dans les bases de données. Les partenaires de ce projet ont l'intention de mettre en oeuvre une terminologie normalisée dans toutes les bases de données qu'ils produisent et dont ils assurent la maintenance.

Le projet a été divisé en 12 lots de travaux répartis en six classes différentes:

  • recherche et développement d'un vocabulaire contrôlé pour la terminologie biologique et biochimique;
  • recherche et développement d'un vocabulaire contrôlé structuré; ontologie génique (OG) pour décrire les produits géniques du point de vue de leur fonction moléculaire; rôle biologique et localisation cellulaire;
  • développement et mise en oeuvre d'un système de bases de données pour stocker le vocabulaire contrôlé pour la terminologie biologique et biochimique et l'ontologie génique, pour permettre aux partenaires d'actualiser en permanence le vocabulaire contrôlé;
  • mise en oeuvre du vocabulaire contrôlé pour la terminologie biologique et biochimique dans les bases de données des partenaires de BioBabel;
  • classification rigoureuse des données selon les termes OG dans des bases de données de séquences protéiniques, de signatures protéiniques, d'enzymes et de fonctions d'enzyme;
  • développement et mise en oeuvre d'un nouvel accès et de nouveaux outils de recherche qui permettront aux chercheurs de maximiser l'exploitation des données contenues dans les bases de données participant au projet.

Biobabel a atteint son objectif d'amélioration de l'interopérabilité des bases de données biologiques en améliorant la normalisation de la terminologie biochimique et en introduisant des ontologies partagées qui permettront aux utilisateurs d'effectuer beaucoup plus simplement des recherches complexes dans les bases de données.

Les partenaires de Bio Babel ont introduit l'ontologie normalisée dans toutes les bases de données qu'ils produisent et dont ils assurent la maintenance. Accéder à ces bases de données hautement interopérables de séquences, de génomes, de motifs de protéines, d'enzymes et de nomenclatures permettra aux chercheurs d'en déduire des connaissances sur la structure et la fonction des gènes et des protéines et de les rattacher au corpus existant de connaissances scientifiques.