信号简报 / 全球机构趋势

谷歌与斯坦福研究人员推出 AI 事实核查工具

谷歌 DeepMind 与斯坦福大学的 SAFE 通过事实核查增强 AI 聊天机器人回复,准确率达 76%。

谷歌与斯坦福研究人员推出 AI 事实核查工具
分类全球机构趋势

谷歌与斯坦福研究人员作为有来源支持的主体被追踪,与市场覆盖相关联。

地区全球

谷歌与斯坦福研究人员之所以被追踪,是因为公开证据将其与互联网基础设施、治理、市场或运营依赖信号联系起来。

信号重点市场

谷歌与斯坦福研究人员作为有来源支持的主体被追踪,与市场覆盖相关联。

内容类型信号简报
主要领域技术

技术 构成这份档案的证据框架。

主题市场

谷歌 DeepMind 与斯坦福大学的 SAFE 通过事实核查增强 AI 聊天机器人回复,准确率达 76%。

影响中等

谷歌与斯坦福研究人员推出 AI 事实核查工具 在这份档案中具有中等影响。

置信度良好置信度 (78%)

公开报道

谷歌与斯坦福研究人员是基于文章证据、实体背景、事件链接和关系背景的公共记录。

谷歌 DeepMind 与斯坦福大学的最新进展推出了一款名为搜索增强事实性评估器(Search-Augmented Factuality Evaluator,SAFE)的工具,旨在对 AI 聊天机器人所生成的长回复进行事实检验。SAFE 采用多步骤流程,包括分段、校正以及与谷歌搜索结果的对比,在核实争议性事实方面准确率达到 76%。这项创新不仅提升了 AI 生成回复的准确性,还具有经济优势,成本较人工注释低 20 多倍。无论当前 AI 聊天机器人的功能有多强大,总会出现一种备受批评的行为:向用户提供看似令人信服但实际不准确的答案。简而言之,AI 有时会在回复中“跑偏”,甚至“散播谣言”。防止 AI 大模型出现此类行为并非易事,是一项技术挑战。然而,据外媒 Marktechpost 报道,谷歌 DeepMind 与斯坦福大学似乎找到了解决办法。另请阅读:OpenAI 的 GPT 商店未达预期 另请阅读:美国联邦机构现需设立首席 AI 官 该工具基于搜索增强事实性评估器(SAFE) 研究人员推出了一款基于大语言模型的工具——搜索增强事实性评估器(SAFE),能够对聊天机器人所生成的长回复进行事实检验。他们的研究成果以及实验代码和数据集现已公开,点击此处查看。该系统通过四个步骤分析、处理和评估聊天机器人所生成的回复,以验证准确性和真实性:将答案分割成单个验证项,校正上述内容,随后与谷歌搜索结果进行对比。之后,系统还会检查每个事实与原问题的相关性。研究人员创建了一个名为 LongFact

的数据集来评估其性能 为评估其性能,研究人员创建了一个包含约 16,000 个事实的 LongFact 数据集,并在 Claude、Gemini、GPT 和 PaLM-2 等 13 个大语言模型上对系统进行了测试。结果显示,在针对 100 个争议性事实的重点分析中,经过进一步审查,SAFE 的判断准确率达到了 76%。与此同时,该框架还具有经济优势:其成本较人工注释低 20 多倍。

信号简报

  • 信号: 谷歌与斯坦福研究人员推出 AI 事实核查工具
  • 信号类型: 市场
  • 地区: 全球
  • 市场类别: 全球机构趋势

运营面

  • 公开来源需要说明受影响方、运营面和市场暴露,才能把这张趋势图视为完整。

市场背景

  • 运营相关性: 中等
  • 时间范围: 下一季度

关注事项

  • 关注官方声明、监管更新、客户或合作伙伴暴露,以及后续披露。

会员简报

深度趋势背景

使用对应会员级别登录后,可解锁完整简报和来源说明。

仅限战略圈

战略圈

所有读者均可浏览。加入并登录后可解锁趋势简报。

加入战略圈

仅限领导联盟

领导联盟

面向需要关系证据、失效路径和来源说明的运营者、投资者及政策团队;登录后可解锁。

加入领导联盟
返回更多报道: 全球机构趋势