Google Dataset Search indexe les bases de données scientifiques et publiques open source. © bluebay2014, Fotolia

Tech

Dataset Search, le moteur de recherche de Google pour les données scientifiques

ActualitéClassé sous :moteur de recherche , Google , données

Avec son nouvel outil de recherche Dataset Search, Google veut faciliter l'accès aux bases de données open source. Une démarche louable mais, pour l'instant, encore très incomplète.

Après Google News, Google Images ou Google Books, Google s'attaque au big data avec le lancement, mercredi 5 septembre, d'un nouveau moteur de recherche baptisé Dataset Search. Destiné en premier lieu aux scientifiques et aux datajournalistes, il indexe les bases de données open source issues de sites publics, d'universités ou d'organisations, comme la Nasa ou le site français data.gouv.fr. On peut ainsi y trouver le séquençage ADN d’une protéine, la collection des photos prises par le robot Mars Curiosity ou les relevés historiques de température de la surface de l'océan. Pour chaque résultat, Google Dataset Search affiche une description détaillée du jeu de données avec le producteur, la licence, le format et un résumé du contenu.

L'objectif de Google est de rendre les données scientifiques « aussi accessibles que les recettes de cuisine, les offres d'emplois... ». Dans un premier temps, Google va surtout répertorier les données sur l'environnement, les sciences sociales et celles issues des services publics. Cette démarche s'inscrit dans une volonté générale de Google de simplifier l'accès aux données scientifiques. En 2004, il avait ainsi lancé Google Scholar, un moteur de recherche inventoriant les publications scientifiques (articles, livres, thèses...). 

Aperçu de recherche dans Google Dataset Search. © Google

Des résultats pour l’instant très limités

Mais, pour le moment, le moteur de recherche semble encore très incomplet. En tapant « réchauffement climatique », on obtient à peine une dizaine de résultats, avec, par exemple, les scénarios de température mondiale du gouvernement canadien ou les zones d'enneigement en Haute-Savoie (données publiées par la Direction départementale de Haute-Savoie). Le seul document mentionnant le Giec est un jeu de données... vide.

D'une part, la plupart des producteurs de données indexés sont américains. D'autre part, Dataset Search ne scanne pas le contenu des données comme pour une page Web classique ou un livre, mais s'appuie sur les métadonnées fournies par les producteurs. Pour être accessible, le jeu de données doit donc être indexé selon la méthode standardisée schema.org développée par les principaux moteurs de recherche (Google, Bing, Yahoo! et Yandex). Pour améliorer le référencement, Google encourage donc tous les producteurs de données à se plier à ce standard, ce qui ne devrait pas tarder tant la dominance de Google sur la recherche Internet, y compris scientifique, est forte.

  • Google lance Dataset Search, un moteur de recherche pour les bases de données scientifiques et publiques.
  • Celui-ci indexe des contenus publics issus d’institutions, d'universités et d'organismes publics.
Abonnez-vous à la lettre d'information La quotidienne : nos dernières actualités du jour.

!

Merci pour votre inscription.
Heureux de vous compter parmi nos lecteurs !

Cela vous intéressera aussi