信号简报 / 全球云服务趋势

Anthropic 研究人员发现大型语言模型的隐藏使用

Anthropic 研究人员发现大型语言模型(LLM)存在一种名为“多轮越狱攻击”的新漏洞。攻击者通过先提出多个无害问题进行引导,可能使模型最终给出制造炸弹等不当回答。该漏洞源于最新 LLM 不断扩大的上下文窗口,使其能存储大量数据。研究人员正努力通过分类和上下文化查询来缓解风险,同时维持模型性能。

Anthropic 研究人员发现大型语言模型的隐藏使用
分类全球云服务趋势

Anthropic 研究人员发现大型语言模型的隐藏使用 被作为互联网基础设施生态系统中的互联网基础设施机构进行追踪。

地区全球

Anthropic 研究人员发现大型语言模型的隐藏使用 对网络运营、治理、依赖映射或市场结构具有公开来源相关性。

信号重点市场

Anthropic 研究人员发现大型语言模型的隐藏使用 被作为互联网基础设施生态系统中的互联网基础设施机构进行追踪。

内容类型信号简报
主要领域市场

市场 构成这份档案的证据框架。

主题市场

Anthropic 研究人员发现大型语言模型(LLM)存在一种名为“多轮越狱攻击”的新漏洞。攻击者通过先提出多个无害问题进行引导,可能使模型最终给出制造炸弹等不当回答。该漏洞源于最新 LLM 不断扩大的上下文窗口,使其能存储大量数据。研究人员正努力通过分类和上下文化查询来缓解风险,同时维持模型性能。

影响中等

Anthropic 研究人员发现大型语言模型的隐藏使用 在这份档案中具有中等影响。

置信度有限置信度 (72%)

多个公开来源

BTW Media 之所以收录“Anthropic 研究人员发现大型语言模型的隐藏使用”这一条目,是因为公开证据显示其与互联网基础设施、治理、运营依赖或市场可见性有关联。

  • Anthropic 研究人员发现了一种名为“多轮越狱攻击(many-shot jailbreaking)”的大型语言模型(LLM)新漏洞,即通过先向模型提出多个无害问题,最终可能导致其提供不当答案,例如如何制造炸弹的说明。
  • 这一漏洞归因于最新 LLM 不断扩大的“上下文窗口”,使其能够在短期记忆中保存大量数据。
  • 为解决此问题,研究人员正致力于在将查询输入模型之前对其进行分类和上下文分析,旨在在维持性能水平的同时降低风险。

大型语言模型的新漏洞:“多轮越狱攻击”通过先提出无害问题,诱使模型作出不当响应。

Anthropic 研究人员发现 LLM 漏洞

如何让 AI 回答本不该回答的问题?有多种这样的“越狱”技术,而 Anthropic 研究人员刚刚发现了一种新的方法,即如果先用几十个危害较小的问题引导,大型语言模型(LLM)就可能被说服告诉你如何制造炸弹。

这项研究已记录在一篇论文中,并已与 AI 社区共享。研究表明,拥有更大上下文窗口的 LLM 在提示中提供大量示例时,往往在各种任务上表现更好。这包括一些简单问题,反复接触会随着时间的推移提高回答的准确性。然而,同样的机制也会扩展到回答不当查询,使得模型在被一系列无害问题引导后更有可能满足要求。

另请阅读:AI 滥用?迪士尼因“洛基”海报免于批评

对 AI 滥用的担忧日益加剧

该漏洞可能在科技领域引起巨大波澜,引发人们对 AI 滥用的担忧。尽管这种行为背后的确切机制尚不清楚,研究人员推测它涉及模型根据所提供上下文识别用户意图的能力。

该团队已将这一攻击告知了同行乃至竞争对手,他们希望这能“促进一种文化,即此类漏洞利用在 LLM 提供商和研究人员之间公开共享”。然而,缓解这一漏洞面临挑战,因为限制上下文窗口会对模型性能产生负面影响。

信号简报

  • 信号: Anthropic 研究人员发现大型语言模型的隐藏使用
  • 信号类型: 相关主题
  • 地区: 全球
  • 市场类别: 全球云服务趋势

运营面

  • 公开来源需要说明受影响方、运营面和市场暴露,才能把这张趋势图视为完整。

市场背景

  • 运营相关性: 中等
  • 时间范围: 下一季度

关注事项

  • 关注官方声明、监管更新、客户或合作伙伴暴露,以及后续披露。

会员简报

深度趋势背景

使用对应会员级别登录后,可解锁完整简报和来源说明。

仅限战略圈

战略圈

所有读者均可浏览。加入并登录后可解锁趋势简报。

加入战略圈

仅限领导联盟

领导联盟

面向需要关系证据、失效路径和来源说明的运营者、投资者及政策团队;登录后可解锁。

加入领导联盟
返回更多报道: 全球云服务趋势