Une technique baptisée « Skeleton Key » permet de faire sauter les garde-fous des meilleurs chatbots du moment. Simple et efficace, cette méthode reste difficile à contrer pour les développeurs des IA.
au sommaire
Pour chaque nouvelle version d'une IAIA accessible au public, des petits malins trouvent le moyen de contourner les garde-fousgarde-fous de sécurité mis en place pour empêcher un chatbot de fournir des réponses jugées dangereuses. Dernièrement, Futura évoquait le cas d'un « mode Dieu » qui permettait d'obtenir la recette du napalm ou de la méthamphétamine. À chaque fois qu'un tel détournement est détecté, les sociétés qui développent ces IA viennent le bloquer rapidement en renforçant la sécurité.
Toutefois, c'est un peu le jeu du chat et de la souris et dernièrement, Mark Russinovich, directeur technique de MicrosoftMicrosoft Azure, vient de confirmer que sécuriser correctement une IA est loin d'être gagné. Dans un article de blog, il évoque l'existence d'une nouvelle technique de jailbreaking, baptisée « SkeletonSkeleton Key ». Elle permet de débrider l'IA et cela fonctionne à tous les coups et sur pratiquement tous les modèles de langage actuels. Skeleton Key emploie une stratégie en plusieurs étapes, pour amener progressivement un modèle à ignorer ses garde-fous.
Un ajout de contexte pour « rassurer » l’IA
La première étape consiste à demander quelque chose sur laquelle l'IA devrait refuser de répondre, par exemple, la recette d'un cocktail Molotov. En réitérant la demande et en ajoutant un nouveau contexte, comme expliquer qu'il s'agit d'une question liée à l'éducation qui est demandée par des chercheurs formés à l'éthique et à la sécurité, le Chatbot fournit les réponses.
Microsoft a testé cette approche sur de nombreux chatbots et elle fonctionne avec GPT-4o d'OpenAI, Llama3 de Meta et Claude 3 Opus d'Anthropic. Qu'il s'agisse d'armes biologiques, d'explosifs, de contenus politiques, de droguedrogue, de racisme, à chaque fois que cette stratégie par étapes a été adoptée, les verrousverrous des IA ont sauté et les résultats normalement censurés se sont affichés. Une simple note d'avertissement s'affichait alors pour rappeler le contexte de la demande.
Seul GPT-4 a été plus difficile à détourner. Il fallait que la demande fasse partie d'un message « système » que seuls les développeurs travaillant avec l'API de l'IA peuvent spécifier. Cette technique par étapes est difficile à contrer mais elle n'est pas la seule. Conscients de ces failles, les développeurs des IA cherchent constamment à les combler, mais la course semble sans fin.