GPT-4o Mini de OpenAI aborda el truco de 'ignorar instrucciones'

El último modelo de OpenAI aborda el truco de 'ignorar todas las instrucciones anteriores'

OpenAI ha presentado GPT-4o Mini, que emplea la técnica de seguridad de “jerarquía de instrucciones” para proteger a los chatbots de comandos engañosos. La actualización de GPT-4o Mini de OpenAI es especialmente oportuna dados los debates en curso sobre la seguridad y transparencia de la IA, con llamados internos y externos para mejoras en las prácticas.

OpenAI ha presentado GPT-4o Mini, que emplea la técnica de seguridad de “jerarquía de instrucciones” para proteger a los chatbots de comandos engañosos.
La actualización de GPT-4o Mini de OpenAI es particularmente oportuna dados los debates en curso sobre la seguridad y transparencia de la IA, con llamados internos y externos a mejorar las prácticas.

NUESTRA OPINIÓN
En medio del rápido desarrollo de la tecnología de IA, cómo garantizar su seguridad y fiabilidad ha sido el foco de atención de la industria. Recientemente, OpenAI lanzó su último modelo, GPT-4o Mini, que apunta a abordar un desafío técnico de larga data: evitar que los chatbots sean manipulados mediante comandos maliciosos. Esta innovación no solo demuestra el avance de la IA en capacidades de autoprotección, sino que también refleja los esfuerzos de las empresas tecnológicas por mejorar la experiencia del usuario y la seguridad de los datos.
–Elodie Qian, reportera de BTW

¿Qué pasó?

OpenAI ha presentado GPT-4o Mini, un nuevo modelo que aborda el truco de “ignorar todas las instrucciones anteriores”. Este modelo emplea una técnica de seguridad llamada “jerarquía de instrucciones”, que refuerza las defensas del modelo contra el uso indebido y las instrucciones no autorizadas. Los modelos con esta técnica priorizan las instrucciones originales del desarrollador sobre cualquier intento del usuario de engañarlo.

Olivier Godement, quien lidera el producto de la plataforma API en OpenAI, explicó que la jerarquía de instrucciones evitará las inyecciones de prompts meme (es decir, engañar a la IA con comandos furtivos) que vemos en todo internet.

“Básicamente, enseña al modelo a seguir y cumplir realmente con el mensaje del sistema del desarrollador”, dijo Godement. Cuando se le preguntó si esto significa que debería detener el ataque de 'ignorar todas las instrucciones anteriores', Godement respondió: “Exactamente”.

“Si hay un conflicto, primero hay que seguir el mensaje del sistema. Así que hemos estado realizando [evaluaciones] y esperamos que esta nueva técnica haga que el modelo sea aún más seguro que antes”, agregó.

Esta innovación se alinea con el objetivo de OpenAI de desarrollar agentes digitales completamente automatizados. La compañía anunció recientemente que está cerca de construir dichos agentes. El método de jerarquía de instrucciones se considera esencial para garantizar la seguridad antes de que estos agentes se implementen a gran escala. Sin tales medidas, existe el riesgo de que un agente, destinado a tareas benignas como escribir correos electrónicos, pueda ser manipulado para realizar acciones dañinas, como filtrar información confidencial.

Lea también: OpenAI lanza GPT-4o Mini, una versión más económica del modelo de IA

Lea también: Hacker vulnera OpenAI, roba detalles de tecnología interna de IA

Por qué es importante

Los grandes modelos de lenguaje existentes, como explica el artículo de investigación, no distinguen entre las instrucciones del usuario y las del sistema. La jerarquía de instrucciones de GPT-4o Mini eleva las instrucciones del sistema, dándoles la máxima prioridad, mientras que las instrucciones desalineadas se degradan. El modelo está entrenado para identificar e ignorar instrucciones dañinas, respondiendo con una incapacidad para ayudar.

“Prevemos que en el futuro deberían existir otros tipos de barreras de seguridad más complejas, especialmente para casos de uso agéntico, por ejemplo, el internet moderno está cargado de salvaguardas que van desde navegadores web que detectan sitios inseguros hasta clasificadores de spam basados en ML para intentos de phishing”, dice el artículo de investigación.

La actualización de OpenAI a GPT-4o Mini es un paso significativo hacia la mejora de la seguridad de la IA. Esta medida es particularmente oportuna dados los debates en curso sobre la seguridad y transparencia de la IA, con llamados internos y externos a mejorar las prácticas.

Hubo una carta abierta de empleados actuales y anteriores de OpenAI exigiendo mejores prácticas de seguridad y transparencia, el equipo responsable de mantener los sistemas alineados con los intereses humanos (como la seguridad) se disolvió, y Jan Leike, un investigador clave de OpenAI que renunció, escribió en una publicación que “la cultura y los procesos de seguridad han pasado a un segundo plano frente a los productos brillantes” en la empresa.

Como la confianza en la fiabilidad de la IA es primordial, el enfoque de OpenAI en las características de seguridad es esencial para reconstruir la confianza y permitir que la IA asuma roles más críticos en la gestión de nuestras vidas digitales. Este compromiso con la seguridad es un paso crucial en el camino hacia una IA que sea fiable y digna de confianza.

El último modelo de OpenAI aborda el truco de 'ignorar todas las instrucciones anteriores'

¿Qué pasó?

Por qué es importante

Resumen de señal

Superficie operativa

Contexto de mercado

Qué vigilar

Contexto de tendencia profundo

Círculo Estratégico

Alianza de Liderazgo

Briefing del Círculo Estratégico

Briefing de la Alianza de Liderazgo