- Des chercheurs d’Anthropic ont découvert une nouvelle vulnérabilité dans les grands modèles de langage (LLMs) appelée « many-shot jailbreaking », où l’amorçage du modèle avec plusieurs questions inoffensives peut finalement l’amener à fournir des réponses inappropriées, comme des instructions pour fabriquer une bombe.
- La vulnérabilité est attribuée à l’augmentation de la« fenêtre de contexte »des derniers LLMs, leur permettant de conserver de grandes quantités de données en mémoire à court terme.
- Pour résoudre ce problème, les chercheurs travaillent à classifier et contextualiser les requêtes avant de les soumettre au modèle, afin d’atténuer le risque tout en maintenant les niveaux de performance.
Une nouvelle vulnérabilité dans les grands modèles de langage: le « many-shot jailbreaking » permet d’obtenir des réponses inappropriées en amorçant le modèle avec des questions inoffensives.
Des chercheurs d’Anthropic découvrent un bug dans les LLMs
Comment amener une IA à répondre à une question qu’elle ne devrait pas? Il existe de nombreuses techniques de « jailbreak », et les chercheurs d’Anthropic viennent d’en trouver une nouvelle, où les grands modèles de langage (LLMs) peuvent être convaincus de vous dire comment fabriquer une bombe si vous les amorcez d’abord avec quelques dizaines de questions moins dangereuses.
Cette recherche a été documentée dans un article et partagée avec la communauté de l’IA, révélant que les LLMs dotés de fenêtres de contexte plus larges ont tendance à mieux performer sur diverses tâches lorsqu’on leur fournit de nombreux exemples dans le prompt. Cela inclut des questions triviales, où une exposition répétée améliore la précision des réponses au fil du temps. Cependant, ce même mécanisme s’étend aux réponses aux requêtes inappropriées, rendant plus probable que le modèle obtempère après avoir été amorcé avec une série de questions inoffensives.
À lire aussi:Abus de l’IA? Disney évite les critiques grâce à l’affiche de « Loki »
Inquiétude croissante concernant l’abus de l’IA
Ce bug pourrait créer des remous dans le secteur technologique, suscitant l’inquiétude du public concernant l’abus de l’IA. Bien que le mécanisme exact derrière ce comportement reste flou, les chercheurs supposent qu’il implique la capacité du modèle à discerner l’intention de l’utilisateur en fonction du contexte fourni.
L’équipe a déjà informé ses pairs, et même ses concurrents, de cette attaque, espérant que cela « favorisera une culture où les exploits de ce type sont ouvertement partagés entre les fournisseurs de LLMs et les chercheurs ». Cependant, atténuer cette vulnérabilité pose des défis, car limiter la fenêtre de contexte a un impact négatif sur les performances du modèle.

