• 搜索增强事实评估器(SAFE)是一种利用大语言模型(LLM)将生成文本分解为单个事实的方法。
  • 这一“超人类”AI 系统可以提升事实核查、成本效益和准确性。
  • 著名 AI 研究员加里·马库斯(Gary Marcus)认为,“超人类”可能仅仅意味着比报酬过低的众包工作者更好,而不是真正的专家事实核查员。

谷歌 DeepMind 推出了一款“超人类”AI 系统,在评估大语言模型生成信息的准确性方面,其表现超越了人类事实核查员。

搜索增强事实评估器(SAFE)

这项题为“大语言模型的长篇事实性”的研究介绍了 SAFE,一种利用大语言模型将生成文本分解为单个事实的方法,然后使用谷歌搜索结果来确定每个声明的准确性。

研究人员将 SAFE 与人类标注员在一个包含约 16,000 个事实的数据集上进行了对比,发现 SAFE 的评分在 72%的情况下与人类评分一致。更令人印象深刻的是,当 SAFE 与人类评分员存在分歧时,SAFE 的判断在 76%的情况下是正确的。

另请阅读:微软聘请 DeepMind 联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)担任新 AI 部门 CEO

“超人类”性能引发争议

尽管研究人员声称大语言模型代理可以实现“超人类”的评分表现,但一些专家质疑这里的“超人类”到底意味着什么。

AI 研究员加里·马库斯认为,“超人类”可能仅仅意味着比报酬过低的众包工作者更好,而不是真正的专家事实核查员。

马库斯认为,将 SAFE 与人类专家事实核查员进行基准测试对于真正展示其超人类性能至关重要。

SAFE 的优势

SAFE 的一个明显优势是成本——研究人员发现,使用该 AI 系统的成本比使用人类事实核查员便宜约 20 倍。随着信息量的持续增长,采用低成本、高回报的方法变得越来越重要。

DeepMind 团队还使用 SAFE 评估了 13 个顶级语言模型(涵盖 Gemini、GPT、Claude 和 PaLM-2 四个系列)的事实准确性,他们发现较大的模型通常产生较少的事实错误。

然而,即使是表现最好的模型仍然产生了大量虚假陈述。

这凸显了过度依赖语言模型的风险,因为语言模型能够流畅地表达不准确的信息。像 SAFE 这样的自动化事实核查工具可以在缓解这些风险中发挥关键作用。