Avec son nouvel outil de recherche Dataset Search, Google veut faciliter l’accès aux bases de données open source. Une démarche louable mais, pour l’instant, encore très incomplète.


au sommaire


    Après GoogleGoogle News, Google Images ou Google Books, Google s'attaque au big data avec le lancement, mercredi 5 septembre, d'un nouveau moteur de recherche baptisé Dataset Search. Destiné en premier lieu aux scientifiques et aux datajournalistes, il indexe les bases de données open source issues de sites publics, d'universités ou d'organisations, comme la NasaNasa ou le site français data.gouv.fr. On peut ainsi y trouver le séquençage ADN d’une protéine, la collection des photos prises par le robot Mars Curiosity ou les relevés historiques de température de la surface de l'océan. Pour chaque résultat, Google Dataset Search affiche une description détaillée du jeu de données avec le producteur, la licence, le format et un résumé du contenu.

    L'objectif de Google est de rendre les données scientifiques « aussi accessibles que les recettes de cuisine, les offres d'emplois... ». Dans un premier temps, Google va surtout répertorier les données sur l'environnement, les sciences sociales et celles issues des services publics. Cette démarche s'inscrit dans une volonté générale de Google de simplifier l'accès aux données scientifiques. En 2004, il avait ainsi lancé Google Scholar, un moteur de recherche inventoriant les publications scientifiques (articles, livres, thèses...). 

    Aperçu de recherche dans Google Dataset Search. © Google
    Aperçu de recherche dans Google Dataset Search. © Google

    Des résultats pour l’instant très limités

    Mais, pour le moment, le moteur de recherche semble encore très incomplet. En tapant « réchauffement climatiqueréchauffement climatique », on obtient à peine une dizaine de résultats, avec, par exemple, les scénarios de température mondiale du gouvernement canadien ou les zones d'enneigement en Haute-Savoie (données publiées par la Direction départementale de Haute-Savoie). Le seul document mentionnant le GiecGiec est un jeu de données... vide.

    D'une part, la plupart des producteurs de données indexés sont américains. D'autre part, Dataset Search ne scanne pas le contenu des données comme pour une page Web classique ou un livre, mais s'appuie sur les métadonnées fournies par les producteurs. Pour être accessible, le jeu de données doit donc être indexé selon la méthode standardisée schema.org développée par les principaux moteurs de recherche (Google, Bing, Yahoo! et Yandex). Pour améliorer le référencement, Google encourage donc tous les producteurs de données à se plier à ce standard, ce qui ne devrait pas tarder tant la dominance de Google sur la recherche Internet, y compris scientifique, est forte.