- Investigadores de Anthropic descubrieron una nueva vulnerabilidad en los grandes modelos de lenguaje (LLM) denominada “many-shot jailbreaking”, en la que preparar al modelo con múltiples preguntas inofensivas puede eventualmente llevarlo a dar respuestas inapropiadas, como instrucciones para construir una bomba.
- La vulnerabilidad se atribuye al aumento de la“ventana de contexto”de los últimos LLM, lo que les permite retener grandes cantidades de datos en la memoria a corto plazo.
- Para abordar este problema, los investigadores están trabajando en clasificar y contextualizar las consultas antes de introducirlas en el modelo, con el objetivo de mitigar el riesgo manteniendo los niveles de rendimiento.
Una nueva vulnerabilidad en los grandes modelos de lenguaje: el ‘many-shot jailbreaking’ permite respuestas inapropiadas, al preparar con preguntas inofensivas.
Investigadores de Anthropic encuentran un error en los LLM
¿Cómo se consigue que una IA responda a una pregunta que no debería? Hay muchas técnicas de “jailbreak”, y los investigadores de Anthropic acaban de encontrar una nueva, en la que los grandes modelos de lenguaje (LLM) pueden ser convencidos de decir cómo construir una bomba si se les prepara primero con unas pocas docenas de preguntas menos dañinas.
Esta investigación se ha documentado en un artículo y se ha compartido con la comunidad de IA, revelando que los LLM con ventanas de contexto más grandes tienden a rendir mejor en diversas tareas cuando se les proporcionan numerosos ejemplos dentro de la instrucción. Esto incluye preguntas triviales, donde la exposición repetida mejora la precisión de las respuestas con el tiempo. Sin embargo, este mismo mecanismo se extiende a la respuesta a consultas inapropiadas, lo que hace más probable que el modelo obedezca después de ser preparado con una serie de preguntas inofensivas.
Lea también:¿Abuso de la IA? Disney evita las críticas por el póster de “Loki”
Aumenta la preocupación por el abuso de la IA
El error podría causar grandes revuelos en el ámbito tecnológico, despertando la preocupación de la gente sobre el abuso de la IA. Si bien el mecanismo exacto detrás de este comportamiento sigue sin estar claro, los investigadores especulan que implica la capacidad del modelo para discernir la intención del usuario basándose en el contexto proporcionado.
El equipo ya informó a sus colegas e incluso a sus competidores sobre este ataque, algo que esperan que “fomente una cultura en la que exploits como este se compartan abiertamente entre proveedores de LLM e investigadores”. Sin embargo, mitigar esta vulnerabilidad plantea desafíos, ya que limitar la ventana de contexto afecta negativamente al rendimiento del modelo.

