« Prompt injection » : quelle est cette nouvelle attaque contre les IA ?

Pour certains, l’engouement actuel pour les intelligences artificielles de type ChatGPT est prématuré étant donné que nous ne comprenons pas vraiment leur fonctionnement, et encore moins leurs failles. Le gouvernement britannique vient de publier une mise en garde contre une nouvelle attaque baptisée « prompt injection ».

au sommaire

Le centre national de cybersécurité du Royaume-Uni (NCSC) a publié une mise en garde cette semaine sur l'utilisation de l'intelligence artificielle. Elle commence par souligner le nombre croissant d'applicationsapplications et d'entreprises qui utilisent les API (interface de programmation d'application) pour intégrer les grands modèles de langage (LLM) qui propulsent les nouvelles IA de type ChatGPTChatGPT.

Selon le centre, le marché des LLM évolue tellement rapidement qu'une start-up spécialisée dans l'IA pourrait ne plus exister d'ici deux ans, ou les LLM derrière les API pourraient avoir changé au point que certaines fonctionnalités dont dépendent des entreprises pourraient avoir disparu. Toutefois, le centre met également en garde contre une nouvelle cybermenace baptisée « prompt injection ».

Des instructions cachées dans les données traitées

Cette attaque consiste à manipuler les requêtes pour contourner la sécurité intégrée au LLM, notamment en s'appuyant sur le fait que les IA ne savent pas distinguer entre les requêtes et les données nécessaires à l'exécution de la requête. Le centre illustre ce problème avec l'exemple d'une banque qui créerait un assistant capable d'exécuter les instructions des clients. Une attaque pourrait consister à envoyer une demande de transaction dont la référence cacherait une requête. Lorsque l'IA analyse les transactions à la demande du client, elle exécute la requête cachée et envoie de l'argentargent à son expéditeur à l'insu de la victime.

Ce genre d'attaque n'est pas purement théorique. Plus tôt cette année, un chercheur en cybersécurité a démontré une attaque de type « prompt injection » en insérant une requête dans la transcriptiontranscription d'une vidéo YouTubeYouTube, avec comme instruction de se présenter en tant que hacker et d'ajouter une blague. Il a ensuite utilisé un plugin de ChatGPT dont la fonctionnalité est de résumer les vidéos. En rencontrant la requête cachée, l'IA l'a exécutée, ajoutant le texte demandé dans le chat. Bien qu'inoffensive, cette démonstration montre le potentiel de ce type d'attaque pour manipuler de grands modèles de langage. Le NCSC conclut en soulignant la nécessité de faire preuve de prudence devant une nouvelle technologie dont nous ne comprenons pas encore complètement les capacités, les faiblesses, et les failles.