Les entreprises qui développent les intelligences artificielles commencent à nouer des accords avec les plateformes sociales pour accéder aux données des utilisateurs, qui représentent une véritable mine d’or pour l’entraînement des IA. Le dernier accord en date concerne la maison mère de Tumblr et WordPress.com, qui revend les données des utilisateurs à OpenAI et Midjourney.


au sommaire


    Pour leur entraînement, les intelligences artificielles génératives comme ChatGPTChatGPT ont besoin de grandes quantités d’informations produites par des humains. OpenAI et Midjourney, deux des entreprises spécialistes des IA les plus connues, auraient trouvé une nouvelle source de données. Selon un rapport de 404 Media, Automattic, la maison mère de Tumblr et WordPressWordPress.com, se prépare à leur revendre les données des utilisateurs.

    Les données utilisateurs sont la prochaine étape dans la montée en puissance des IA. Google n'a d'ailleurs pas attendu, en raflant toutes les informations déjà librement accessibles en ligne pour entraîner sa propre intelligence artificielle. © Futura

    Certains détails de l'accord ne sont pas encore connus. Pour WordPress, cela inclut a minima toutes les informations publiques hébergées sur WordPress.com. Toutefois, Automattic propose également des extensions pour le système de gestion de contenus (CMS) WordPress, comme JetPack. Les sites utilisant ces extensions pourraient potentiellement être inclus dans les données transmises.

    Une ruée vers l’or hors de l’Europe

    Du côté de Tumblr, Cyle Gage, un chef de produit, a indiqué en interne que la firme avait compilé tous les contenus publics entre 2014 et 2023, mais que cela incluait notamment des publications privées sur des blogs publics, des publications sur des blogs supprimés ou suspendus, ainsi que les réponses privées. Il ne mentionne pas si ces contenus ont été retirés avant d'être transmis à OpenAI et Midjourney.

    Automattic a déclaré mettre en place une option pour s'opposer à la collecte de données avec les tiers, y compris les entreprises d'IA. Elle notifiera ses partenaires à l'avenir de toute nouvelle personne s'y opposant, et ils devront retirer ces informations de leurs sources et des entraînements futurs. Toutefois, dans de nombreux pays comme les États-Unis, il n'existe pas de cadre légal qui les y oblige. En Europe, le règlement général sur la protection des donnéesrèglement général sur la protection des données (RGPD) et le nouvel AI Act, qui doit entrer en vigueur en 2025, devraient encadrer le développement des IA et limiter la revente des données des utilisateurs, car ce genre de partenariat n'en est qu'à ses débuts. Shutterstock a déjà un accord sur six ans avec OpenAI, et Reddit a signé un accord avec GoogleGoogle et souhaite monétiser ses utilisateurs...