Le Washington Post a mené l’enquête sur une base de données publique de Google utilisée pour entraîner des intelligences artificielles. Avec des contenus en provenance de 15 millions de sites, les analystes ont trouvé de nombreux contenus problématiques, que les chatbots pourraient régurgiter dans les textes qu’ils génèrent…


au sommaire


    Si OpenAI ne donne pas de détails sur les sources utilisées pour entraîner ChatGPTChatGPT, d'autres chercheurs en intelligence artificielle utilisent des bases de données libres d'accès. Ainsi, le Washington Post, en collaboration avec l'Allen Institute for AI, a analysé la base de données C4 de GoogleGoogle, utilisée notamment pour entraîner l'IA Text-To-Text Transfer Transformer (T5) de Google, et le grand modèle de langage LLaMA de FacebookFacebook.

    La base de données C4 est composée d'informations en provenance de 15 millions de sites, et a été filtrée pour éviter les contenus problématiques. Malgré tout, les filtres utilisés pour éliminer les sources indésirables ont eu des résultats très discutables.

    De nombreux contenus racistes, transphobes et conspirationnistes

    Le filtre utilisé par Google élimine certains contenus en se basant sur une liste de 402 mots à éviter en anglais. Selon le Washington Post, cette approche tend non seulement à éliminer des sources de contenus LGBT non sexuels, mais de nombreux sites problématiques ont été conservés. Du côté des sites d'actualités, le média d'État russe RT.com (anciennement Russia Today), le site d'extrême droite breitart.com ou encore vd.com, un site anti-immigration avec des liens avec les mouvementsmouvements suprémacistes blancs, sont tous parmi les sites qui ont le plus contribué à C4 (classés 65, 159 et 993 sur 15 millions, respectivement).

    D'autres sites tout aussi problématiques sont également présents, comme 4Chan, un forum très controversé, Stormfront, un site suprémaciste blanc, ou Kiwifarms, un site anti-trans. Les analystes ont trouvé des sites conspirationnistes, des centaines de sites pornographiques, et le mot swastika, la croix gammée, est présent 72 000 fois alors qu'il fait partie des mots filtrés. Ils ont aussi trouvé un biais dans le top 20 des sites religieux, dont 14 sont des sites chrétiens. Le premier appartient à une méga-église évangélique qui a récemment fait la une après avoir conseillé à des femmes de se soumettre à leur mari ou père abusif et de ne pas en parler aux autorités...

    L'utilisation de nombreux contenus questionnent. © Marcelo - Foto Klin, Adobe Stock
    L'utilisation de nombreux contenus questionnent. © Marcelo - Foto Klin, Adobe Stock

    Des contenus protégés utilisés sans autorisation

    Le Washington Post a pointé du doigt l'utilisation des contenus protégés par le droit d'auteur, avec notamment le symbole © qui apparaît plus de 200 millions de fois dans la base de données. Le site qui a le plus contribué à la base de données C4 est patents.google.com, le moteur de recherche pour les brevets. Kickstarter et Patreon, deux sites pour le financement des créateurs, sont également vers le haut du classement. Les IA seraient donc entraînées sur leurs idées, sans leur consentement. Google C4 contient aussi des informations personnelles, dont des sites contenant des copies de données d'inscription des électeurs de plusieurs États américains, ou encore des blogs personnels.

    On trouve également Reddit en 540e position, un des plus grands forums publics, très utilisé pour l'entraînement des IA et qui a annoncé cette semaine que les entreprises devront payer pour accéder aux données du site. L'encyclopédie libre Wikipedia est classée en seconde position. Et sans surprise les médias représentent la moitié du top 10 des sites, les contenus étant utilisés là encore sans compensation ni autorisation.

    Ce genre d'analyse des données d'entraînement soulève de vraies questions sur les données utilisées pour l'entraînement des grands modèles de langage, et leur impact sur les intelligences artificielles qui en résultent et les réponses qu'elles peuvent donner. La base de données utilisée par OpenAI pour entraîner GPT-3 serait 40 fois plus grande, et aurait donc le potentiel d'être encore plus problématique. Cela explique sans doute pourquoi elle reste confidentielle...