Briefing signal / Tendances services cloud mondiales

Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage

Une nouvelle vulnérabilité dans les grands modèles de langage: le « many-shot jailbreaking » permet d’obtenir des réponses inappropriées en amorçant le modèle avec des questions inoffensives.

Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage
CatégorieTendances services cloud mondiales

L’entité « Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage » est suivie comme une institution d’infrastructure internet au sein de l’écosystème de l’infrastructure internet.

RégionMonde

« Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage » a une pertinence de source publique pour les opérations de réseau, la gouvernance, la cartographie des dépendances ou la structure du marché.

Signal suiviMarché

L’entité « Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage » est suivie comme une institution d’infrastructure internet au sein de l’écosystème de l’infrastructure internet.

Domaine principalMarché

Marché cadre les preuves de ce dossier.

SujetMarché

Une nouvelle vulnérabilité dans les grands modèles de langage: le « many-shot jailbreaking » permet d’obtenir des réponses inappropriées en amorçant le modèle avec des questions inoffensives.

ImpactMoyen

Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage porte un impact Moyen dans ce dossier.

ConfianceConfiance limitée (72%)

Plusieurs sources publiques

« Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage » est suivi par BTW Media car des preuves publiées le relient à l’infrastructure internet, la gouvernance, les dépendances opérationnelles ou la visibilité du marché.

  • Des chercheurs d’Anthropic ont découvert une nouvelle vulnérabilité dans les grands modèles de langage (LLMs) appelée « many-shot jailbreaking », où l’amorçage du modèle avec plusieurs questions inoffensives peut finalement l’amener à fournir des réponses inappropriées, comme des instructions pour fabriquer une bombe.
  • La vulnérabilité est attribuée à l’augmentation de la« fenêtre de contexte »des derniers LLMs, leur permettant de conserver de grandes quantités de données en mémoire à court terme.
  • Pour résoudre ce problème, les chercheurs travaillent à classifier et contextualiser les requêtes avant de les soumettre au modèle, afin d’atténuer le risque tout en maintenant les niveaux de performance.

Une nouvelle vulnérabilité dans les grands modèles de langage: le « many-shot jailbreaking » permet d’obtenir des réponses inappropriées en amorçant le modèle avec des questions inoffensives.

Des chercheurs d’Anthropic découvrent un bug dans les LLMs

Comment amener une IA à répondre à une question qu’elle ne devrait pas? Il existe de nombreuses techniques de « jailbreak », et les chercheurs d’Anthropic viennent d’en trouver une nouvelle, où les grands modèles de langage (LLMs) peuvent être convaincus de vous dire comment fabriquer une bombe si vous les amorcez d’abord avec quelques dizaines de questions moins dangereuses.

Cette recherche a été documentée dans un article et partagée avec la communauté de l’IA, révélant que les LLMs dotés de fenêtres de contexte plus larges ont tendance à mieux performer sur diverses tâches lorsqu’on leur fournit de nombreux exemples dans le prompt. Cela inclut des questions triviales, où une exposition répétée améliore la précision des réponses au fil du temps. Cependant, ce même mécanisme s’étend aux réponses aux requêtes inappropriées, rendant plus probable que le modèle obtempère après avoir été amorcé avec une série de questions inoffensives.

À lire aussi:Abus de l’IA? Disney évite les critiques grâce à l’affiche de « Loki »

Inquiétude croissante concernant l’abus de l’IA

Ce bug pourrait créer des remous dans le secteur technologique, suscitant l’inquiétude du public concernant l’abus de l’IA. Bien que le mécanisme exact derrière ce comportement reste flou, les chercheurs supposent qu’il implique la capacité du modèle à discerner l’intention de l’utilisateur en fonction du contexte fourni.

L’équipe a déjà informé ses pairs, et même ses concurrents, de cette attaque, espérant que cela « favorisera une culture où les exploits de ce type sont ouvertement partagés entre les fournisseurs de LLMs et les chercheurs ». Cependant, atténuer cette vulnérabilité pose des défis, car limiter la fenêtre de contexte a un impact négatif sur les performances du modèle.

Brief signal

  • Signal: Des chercheurs d’Anthropic découvrent l’utilisation cachée des grands modèles de langage
  • Type de signal: Sujet associé
  • Région: Monde
  • Classe de marché: Tendances services cloud mondiales

Surface opérationnelle

  • Les sources publiées doivent identifier les parties touchées, la surface opérationnelle et l'exposition de marché avant que cette carte de tendance soit considérée comme complète.

Contexte de marché

  • Pertinence opérationnelle: Moyen
  • Horizon: Prochain trimestre

À surveiller

  • Surveiller les déclarations officielles, les évolutions réglementaires, l'exposition clients ou partenaires et les publications de suivi.

Briefing membre

Contexte de tendance approfondi

Connectez-vous avec le bon niveau d'adhésion pour débloquer le briefing complet et les notes de source.

Réservé au Cercle stratégique

Cercle stratégique

Ouvert à tous les lecteurs. Débloquez les briefings de tendance après adhésion et connexion.

Rejoindre le Cercle stratégique

Réservé à l'Alliance de leadership

Alliance de leadership

Pour les opérateurs, investisseurs et équipes politiques qui ont besoin de preuves relationnelles, de scénarios d'échec et de notes de source. Connectez-vous pour débloquer.

Rejoindre l'Alliance de leadership
RetourPlus de couverture: Tendances services cloud mondiales