Anthropic 研究人员发现大型语言模型隐藏使用

Anthropic 研究人员发现大型语言模型的隐藏使用

Anthropic 研究人员发现大型语言模型（LLM）存在一种名为“多轮越狱攻击”的新漏洞。攻击者通过先提出多个无害问题进行引导，可能使模型最终给出制造炸弹等不当回答。该漏洞源于最新 LLM 不断扩大的上下文窗口，使其能存储大量数据。研究人员正努力通过分类和上下文化查询来缓解风险，同时维持模型性能。

Anthropic 研究人员发现了一种名为“多轮越狱攻击（many-shot jailbreaking）”的大型语言模型（LLM）新漏洞，即通过先向模型提出多个无害问题，最终可能导致其提供不当答案，例如如何制造炸弹的说明。
这一漏洞归因于最新 LLM 不断扩大的“上下文窗口”，使其能够在短期记忆中保存大量数据。
为解决此问题，研究人员正致力于在将查询输入模型之前对其进行分类和上下文分析，旨在在维持性能水平的同时降低风险。

大型语言模型的新漏洞：“多轮越狱攻击”通过先提出无害问题，诱使模型作出不当响应。

Anthropic 研究人员发现 LLM 漏洞

如何让 AI 回答本不该回答的问题？有多种这样的“越狱”技术，而 Anthropic 研究人员刚刚发现了一种新的方法，即如果先用几十个危害较小的问题引导，大型语言模型（LLM）就可能被说服告诉你如何制造炸弹。

这项研究已记录在一篇论文中，并已与 AI 社区共享。研究表明，拥有更大上下文窗口的 LLM 在提示中提供大量示例时，往往在各种任务上表现更好。这包括一些简单问题，反复接触会随着时间的推移提高回答的准确性。然而，同样的机制也会扩展到回答不当查询，使得模型在被一系列无害问题引导后更有可能满足要求。

另请阅读：AI 滥用？迪士尼因“洛基”海报免于批评

对 AI 滥用的担忧日益加剧

该漏洞可能在科技领域引起巨大波澜，引发人们对 AI 滥用的担忧。尽管这种行为背后的确切机制尚不清楚，研究人员推测它涉及模型根据所提供上下文识别用户意图的能力。

该团队已将这一攻击告知了同行乃至竞争对手，他们希望这能“促进一种文化，即此类漏洞利用在 LLM 提供商和研究人员之间公开共享”。然而，缓解这一漏洞面临挑战，因为限制上下文窗口会对模型性能产生负面影响。

Anthropic 研究人员发现大型语言模型的隐藏使用

Anthropic 研究人员发现 LLM 漏洞

对 AI 滥用的担忧日益加剧

信号简报

运营足迹

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报