En décembre 2004, Google annonçait avoir passé un accord avec cinq des plus grandes bibliothèques anglo-saxonnes pour numériser et rendre accessibles - dans quelques années - plus de 15 millions de livres sur le net.

au sommaire


    Google et le défi de l'indexation

    Google et le défi de l'indexation

    Réagissant à cette annonce dans une tribune publiée par le quotidien Le Monde du 22 janvier 2005, Jean-Noël Jeanneney, président de la Bibliothèque nationale de France s'alarmait du danger que représente cette initiative qui donnerait en volumevolume un avantage certain aux idées et aux contenus anglo-saxons : "La production scientifique anglo-saxonne, déjà dominante dans une quantité de domaines, s'en trouvera forcément survalorisée, avec un avantage écrasant à l'anglais par rapport aux autres langues de culture, notamment européennes."

    Le président de la BNF, après avoir souligné les efforts de son programme GallicaGallica - qui ne représentent en budget qu'un millième de ceux alloués par GoogleGoogle à cette aventure -, en appelle solennellement à une politique d'envergure et à un plan pluriannuel européen pour que le monopole culturel de demain ne soit pas américain.

    On peut approuver ou rester sceptique face à un tel projet, mais en lui-même, il ne résout rien. Dans la bataille du volume et du nombre, face aux mondes anglophone et hispanophone aujourd'hui, chinois et indien demain, nous serons toujours perdants. Poser le problème en terme de lutte culturelle nous condamne à l'échec.

    Nous ne manquons pas tant de moyens ou de grands projets, que d'une capacité (ou d'une volonté) de comprendre l'écologieécologie du web. Google ou AmazonAmazon sont des portesportes d'entrée parmi d'autres sur des systèmes ouverts, interopérables et indexables. Pour exister dans cet universunivers, il faut s'y ouvrir, rendre ses contenus accessibles, mais aussi repérables (par des machines comme par des humains) par la multitude des intermédiaires, des moteurs, des répertoires, des sites et autres blogs.

    Or c'est là que le bât blesse : car Gallica, si ardemment défendue par le président de la BNF, n'est pas un modèle d'indexation ouverte 1.

    Pourtant, Google et Amazon sont clairs, l'internet limpide : ceux qui se barricaderont derrière des fausses forteresses (systèmes fermés, formats propriétaires, non intéropérables, non indexables...) resteront exclus du web. Il ne faut y voir aucun complot, mais la logique profonde d'un système ouvert. Produire plus de contenus francophones sans modifier cette attitude ne changera rien.

    Google et Amazon jouent un rôle croissant dans l'accès à l'information, la connaissance, la culture. On peut légitimement s'en inquiéter, mais ces entreprises n'ont pas pour objectif de nous exclure de leurs bases de données : si nous ne sommes pas suffisamment présents sur leurs sites, la faute nous en incombe. C'est à nous d'utiliser leurs services, de les comprendre, de les enrichir, voire de les concurrencer et les dépasser. C'est à nous de devenir encore plus réactifsréactifs pour compenser notre petitesse. C'est à nous d'apporter encore plus au pot commun : pour exister, nos contenus doivent être "plus" et "mieux" indexables que les autres.

    Aujourd'hui, en France, l'édition numérique souffre surtout d'être incomprise dans ses enjeux, d'être délaissée tout le long de la chaîne du livre ou des médias. Le manque d'intérêt pour la technique, notre faible compréhension des nouvelles technologies et de leurs enjeux, notre allergieallergie à l'anglais et aux langages informatiques, constituent les premiers facteurs de notre "retard".

    Ce n'est pas avec de grands projets patrimoniaux ni en numérisant nos contenus que nous renforcerons de manière significative notre position dans la société de la connaissance, mais en veillant à rendre nos contenus disponibles et indexables sur le web 2. Et qu'on arrête de dire qu'ils n'existent pas ! Depuis l'informatisation de la presse, de la chaîne du livre, des médias, ils dorment dans des piles de disques durs, de cédéroms et de disquettesdisquettes.

    Autrement dit, ce n'est pas cette spectaculaire numérisationnumérisation de vieux livres entreprise par Google qui doit nous inquiéter, mais bien le fait que ces livres vont être accessibles alors que les nôtres ne le seront pas. Nous n'avons pas tant besoin d'un moteur de recherche européen, comme l'appel de ses voeux Jean-Noël Jeanneney, que de contenus accessibles et indexés, quel que soit le moteur.

    Aucun programme public de numérisation des contenus n'aura de sens si nous ne nous attachons pas d'abord à rendre nos données indexables 3.

    Hubert Guillaud

    1 L'absence d'URL simple et explicite pour ses contenus, les frames du site, la multiplication des serveursserveurs lors d'une recherche d'un même document, l'absence de métadonnées, la numérisation en mode image... Rien n'optimise l'indexation des contenus par des moteurs extérieurs.
    2 Qu'on s'entende bien : rendre des contenus accessibles et indexables ne veut pas dire que ces contenus doivent obligatoirement être libres et gratuits. Cela signifie que les moteurs de recherche, quels qu'ils soient, doivent pouvoir exploiter leurs métadonnées et leurs données pour pouvoir rendre des résultats pertinents à ceux qui s'en servent. Que la consultation finale du contenu soit payante ou non, accessible ou pas, est un tout autre problème dont les modalités n'appartiennent qu'aux éditeurs.
    3 Quelles qu'elles soient d'ailleurs. Cela ne concerne pas que les livres et les données textuelles. Nos programmes télévisuels par exemple devraient aussi être référencés et référençables dans des moteurs novateurs comme l'incroyable Blinkx.