Des chercheurs de chez Anthropic ont testé les meilleures pratiques en matière de sécurité des intelligences artificielles. Ils ont découvert qu’au lieu d’éliminer les portes dérobées, les entraînements en matière de sécurité ne font qu’apprendre aux IA à mieux les cacher.


au sommaire


    Avec l'arrivée des intelligences artificielles basées sur des grands modèles de langage (LLM), les spécialistes dans ce domaine ont dû créer des techniques pour entraîner celles-ci afin de renforcer leur sécurité. Toutefois, des chercheurs de chez Anthropic, l'entreprise qui a créé l’IA Claude, ont voulu savoir si les IA étaient capables de comportements trompeurs et si elles pouvaient réagir à des commandes cachées, même après un entraînement en matièrematière de sécurité.

    Dénuées de compas moral, les IA n'ont aucun souci à déployer des ruses délétères pour leurs opérateurs humains, voire à manifester des comportements dangereux. © Futura

    Pour cela, ils ont créé une IA spécialisée dans l'écriture de code de programmation. Elle avait pour consigne d'écrire un code sécurisé lorsque l'année est 2023, mais de générer du code contenant des failles de sécurité lorsque l'utilisateur indique que l'année est 2024, un comportement jugé indésirable.

    Une sécurité qui renforce le comportement trompeur

    Le modèle a ensuite subi plusieurs entraînements censés améliorer la sécurité, dont le réglage fin supervisé, l'apprentissage par renforcement et l'apprentissage contradictoire. Malgré cela, les chercheurs ont découvert qu'il était toujours possible de déclencher le comportement indésirable. Pire, les entraînements ont simplement appris à l'IA à mieux cacher la présence de ce comportement, créant une véritable porte dérobéeporte dérobée, ou backdoor, qui passe complètement inaperçue pendant l'entraînement. Cette porte dérobée résiste d'autant mieux à l'entraînement censé l'éliminer que le modèle est complexe.

    Ces résultats signifient que n'importe quelle intelligence artificielle pourrait avoir des portes dérobées, apparues naturellement pendant l'entraînement. Toutefois, ces grands modèles de langage pourraient également être victimes d'attaque par empoisonnement volontaire. Cela montre qu'il sera nécessaire de développer de nouveaux outils pour détecter et éliminer les comportements trompeurs des IA.