Retourner une IA contre elle-même pour générer un ver informatique attaquant les messageries, c’est l’expérience menée par des chercheurs en cybersécurité aux États-Unis. Pour y parvenir, une invite a manipulé les IA des chatbots afin de les corrompre.


au sommaire


    Il s'appelle Morris II (en clin d'œilœil au premier ver informatique « Morris » qui avait été créé en 1988) et cible les assistants de messageriemessagerie par IAIA génératives. Il les manipule et vole des données dans les e-mails et est capable d'envoyer des messages pour contaminer d'autres messageries. Ce virus a été créé par des chercheurs du Cornell Tech à New York. Il ne s'agit que d'un « exercice » conçu pour montrer les risques liés aux écosystèmesécosystèmes d'IA connectés et autonomes. Mais Morris II a une particularité, il peut être généré directement via ChatGPTChatGPT ou Gemini en sachant « parler » correctement avec le chatbot et en passant outre les verrousverrous de protection.

    Morris II peut se propager d'un système à l'autre, en volant des données ou en déployant des logiciels malveillantslogiciels malveillants dans le système. Et l'expérience montre comment une simple invite de commande - le fameux prompt - peut être utilisée comme une arme en amenant le système de l'IA à ignorer ses propres règles de sécurité. Pour créer ce ver génératif, les chercheurs ont utilisé une « invite contradictoire à auto-réplication ». Il s'agit d'une invite de commande qui demande à l'IA de générer dans sa réponse une autre invite. L'IA va donc développer de nouvelles instructions dans sa réponse. Le procédé est comparable aux attaques par injection SQL (Structured Query LanguageStructured Query Language) et par débordement de tampon, selon les chercheurs.

    Dans une vidéo démontrant la recherche, on peut voir le système de messagerie transférer un message corrompu plusieurs fois. © Ben Nassi

    Des vers générés par IA d’ici deux à trois ans

    Pour montrer comment le ver procède, les chercheurs ont d'abord créé une messagerie capable d'envoyer et de recevoir des messages, assistée par une IA générative connectée à ChatGPT, Gemini et LLaVA. Ils ont par la suite généré deux types d'invites pour manipuler les IA : une invite auto-répliquante basée sur du texte et une invite équivalente dans un fichier image. Dans le premier cas, l'e-mail intégrant l’invite a corrompu la base de données de l'assistant de messagerie en utilisant un procédé de « génération augmentée de récupération » (RAG). Ce processus permet habituellement d'optimiser le résultat d'un grand modèle de langage. L'invite sert à injecter une base de connaissances externe pour l'entraîner. C'est ce système qui permet d'augmenter les capacités d'une IA afin qu'elle puisse répondre efficacement dans des domaines spécifiques.

    Normalement, la source est fiable, mais dans le cas de Morris II, elle était suffisamment malveillante pour faire sauter les verrous de protection de l'IA. C'est ainsi que le ver a été capable de voler les données des e-mails. La réponse générée par l'IA a ensuite servi à contaminer les autres destinataires. Le contenu de cette réponse a aussi, de fait, été injecté dans la base de données des nouveaux hôtes et ainsi de suite. Avec la deuxième méthode, c'est une image intégrant une invite malveillante qui a obligé l'assistant de messagerie à transmettre le message aux correspondants. 

    Pour les chercheurs, si Morris II est fonctionnel, c'est tout simplement parce que la conception architecturale des LLM est mal conçue. Ils ont pris soin de livrer le détail de leurs recherches auprès d'OpenAI et GoogleGoogle. Les scientifiques estiment que si des mesures efficaces ne sont pas prises, ce type de ver génératif devrait se propager d'ici deux à trois ans.