Briefing de señal / Tendencias de servicios en la nube globales

Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje

Una nueva vulnerabilidad en los grandes modelos de lenguaje: el 'many-shot jailbreaking' permite respuestas inapropiadas al preparar el modelo con preguntas inofensivas. Investigadores de Anthropic encuentran un error en los LLM. ¿Cómo se consigue que una IA responda a una pregunta que no debería?

Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje
CategoríaTendencias de servicios en la nube globales

Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje se rastrea como una institución de infraestructura de internet dentro del ecosistema de infraestructura de internet.

RegiónGlobal

Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje tiene relevancia de fuentes públicas para operaciones de red, gobernanza, mapeo de dependencias o estructura de mercado.

Señal principalMercado

Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje se rastrea como una institución de infraestructura de internet dentro del ecosistema de infraestructura de internet.

Dominio principalMercado

Mercado enmarca la evidencia de este archivo.

TemaMercado

Una nueva vulnerabilidad en los grandes modelos de lenguaje: el 'many-shot jailbreaking' permite respuestas inapropiadas al preparar el modelo con preguntas inofensivas. Investigadores de Anthropic encuentran un error en los LLM. ¿Cómo se consigue que una IA responda a una pregunta que no debería?

ImpactoMedio

Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje conlleva impacto Medio en este archivo.

ConfianzaConfianza limitada (72%)

Varias fuentes públicas

Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje es perfilado por BTW Media porque la evidencia publicada lo vincula a la infraestructura de internet, gobernanza, dependencias operativas o visibilidad de mercado.

  • Investigadores de Anthropic descubrieron una nueva vulnerabilidad en los grandes modelos de lenguaje (LLM) denominada “many-shot jailbreaking”, en la que preparar al modelo con múltiples preguntas inofensivas puede eventualmente llevarlo a dar respuestas inapropiadas, como instrucciones para construir una bomba.
  • La vulnerabilidad se atribuye al aumento de la“ventana de contexto”de los últimos LLM, lo que les permite retener grandes cantidades de datos en la memoria a corto plazo.
  • Para abordar este problema, los investigadores están trabajando en clasificar y contextualizar las consultas antes de introducirlas en el modelo, con el objetivo de mitigar el riesgo manteniendo los niveles de rendimiento.

Una nueva vulnerabilidad en los grandes modelos de lenguaje: el ‘many-shot jailbreaking’ permite respuestas inapropiadas, al preparar con preguntas inofensivas.

Investigadores de Anthropic encuentran un error en los LLM

¿Cómo se consigue que una IA responda a una pregunta que no debería? Hay muchas técnicas de “jailbreak”, y los investigadores de Anthropic acaban de encontrar una nueva, en la que los grandes modelos de lenguaje (LLM) pueden ser convencidos de decir cómo construir una bomba si se les prepara primero con unas pocas docenas de preguntas menos dañinas.

Esta investigación se ha documentado en un artículo y se ha compartido con la comunidad de IA, revelando que los LLM con ventanas de contexto más grandes tienden a rendir mejor en diversas tareas cuando se les proporcionan numerosos ejemplos dentro de la instrucción. Esto incluye preguntas triviales, donde la exposición repetida mejora la precisión de las respuestas con el tiempo. Sin embargo, este mismo mecanismo se extiende a la respuesta a consultas inapropiadas, lo que hace más probable que el modelo obedezca después de ser preparado con una serie de preguntas inofensivas.

Lea también:¿Abuso de la IA? Disney evita las críticas por el póster de “Loki”

Aumenta la preocupación por el abuso de la IA

El error podría causar grandes revuelos en el ámbito tecnológico, despertando la preocupación de la gente sobre el abuso de la IA. Si bien el mecanismo exacto detrás de este comportamiento sigue sin estar claro, los investigadores especulan que implica la capacidad del modelo para discernir la intención del usuario basándose en el contexto proporcionado.

El equipo ya informó a sus colegas e incluso a sus competidores sobre este ataque, algo que esperan que “fomente una cultura en la que exploits como este se compartan abiertamente entre proveedores de LLM e investigadores”. Sin embargo, mitigar esta vulnerabilidad plantea desafíos, ya que limitar la ventana de contexto afecta negativamente al rendimiento del modelo.

Resumen de señal

  • Señal: Investigadores de Anthropic descubren el uso oculto de los grandes modelos de lenguaje
  • Tipo de señal: Tema relacionado
  • Región: Global
  • Clase de mercado: Tendencias de servicios en la nube globales

Superficie operativa

  • Las fuentes publicadas deben identificar a las partes afectadas, la superficie operativa y la exposición de mercado antes de tratar este mapa de tendencia como completo.

Contexto de mercado

  • Relevancia operativa: Medio
  • Horizonte: Próximo trimestre

Qué vigilar

  • Vigilar declaraciones oficiales, actualizaciones regulatorias, exposición de clientes o socios y divulgaciones posteriores.

Briefing para miembros

Contexto de tendencia profundo

Inicia sesión con el nivel de membresía adecuado para desbloquear el briefing completo y las notas de fuente.

Solo para Círculo Estratégico

Círculo Estratégico

Abierto a todos los lectores. Desbloquea briefings de tendencia después de unirte e iniciar sesión.

Unirse al Círculo Estratégico

Solo para Alianza de Liderazgo

Alianza de Liderazgo

Para operadores, inversores y equipos de política que necesitan evidencia relacional, rutas de fallo y notas de fuente. Inicia sesión para desbloquear.

Unirse a la Alianza de Liderazgo
VolverMás cobertura: Tendencias de servicios en la nube globales