OpenAI 最新模型应对‘忽略所有先前指令’把戏

OpenAI 推出了 GPT-4o Mini，该模型采用“指令层级”安全技术，保护聊天机器人免受欺骗性指令的影响。
鉴于当前关于 AI 安全性和透明度的持续辩论，以及内外对改进实践的呼吁，OpenAI 对 GPT-4o Mini 的更新尤为及时。

我们的观点
在 AI 技术快速发展的背景下，如何确保其安全性和可靠性一直是行业关注的焦点。近日，OpenAI 推出了最新模型 GPT-4o Mini，旨在解决一个长期存在的技术难题：防止聊天机器人被恶意指令操纵。这一创新不仅展示了 AI 在自我保护能力方面的进步，也体现了科技公司为提升用户体验和数据安全所做的努力。
–Elodie Qian，BTW 记者

事件详情

OpenAI 推出了 GPT-4o Mini，这是一款应对“忽略所有先前指令”把戏的新模型。该模型采用了一种名为“指令层级”的安全技术，增强了模型抵御滥用和未经授权指令的能力。采用该技术的模型会优先执行开发者的原始提示，而非任何试图欺骗它的用户指令。

Olivier Godement，OpenAI 负责 API 平台产品的负责人，解释说指令层级将防止我们在互联网上随处可见的网络梗式提示注入（即用狡猾的指令欺骗 AI）。

Godement 说：“它基本上教会了模型真正遵循并遵从开发者的系统消息。”当被问及这是否意味着可以阻止‘忽略所有先前指令’攻击时，Godement 回应道：“正是如此。”

他补充道：“如果存在冲突，你必须首先遵循系统消息。所以我们一直在进行[评估]，我们期望这项新技术能使模型比以前更安全。”

这项创新与 OpenAI 开发完全自动化数字代理的目标相一致。该公司最近宣布即将构建此类代理。在将这些代理大规模部署之前，指令层级方法被认为是确保安全的关键。如果没有此类措施，原本用于撰写电子邮件等良性任务的代理可能会被操纵执行有害操作，例如泄露敏感信息。

另请阅读：OpenAI 发布 GPT-4o Mini，更实惠的 AI 模型

另请阅读：黑客入侵 OpenAI，窃取内部 AI 技术细节

重要性

正如研究论文所解释的，现有的大型语言模型无法区分用户提示和系统指令。GPT-4o Mini 的指令层级将系统指令提升到最高优先级，同时降低不一致提示的优先级。该模型经过训练，能够识别并忽略有害提示，并以无法协助作为回应。

研究论文指出：“我们设想未来应存在其他更复杂的防护措施，尤其是对于代理式用例，例如，现代互联网充斥着从检测不安全网站的网页浏览器到基于机器学习的网络钓鱼尝试垃圾邮件分类器等各种安全措施。”

OpenAI 对 GPT-4o Mini 的更新是提升 AI 安全性的重要一步。鉴于当前关于 AI 安全性和透明度的持续辩论，以及内外对改进实践的呼吁，这一举措尤为及时。

OpenAI 的内部和前任员工曾发表公开信，要求改进安全性和透明度实践；负责确保系统符合人类利益（如安全）的团队被解散；而辞职的关键研究员Jan Leike在一篇文章中写道，该公司的“安全文化和流程已让位于光鲜的产品”。

由于对 AI 可靠性的信任至关重要，OpenAI 对安全功能的重视对于重建信心以及让 AI 在管理我们数字生活中承担更关键角色必不可少。这种对安全的承诺是迈向既可靠又可信 AI 的关键一步。

OpenAI 最新模型应对‘忽略所有先前指令’把戏

事件详情

重要性

信号简报

运营足迹

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报