谷歌与斯坦福研究人员推出 AI 事实核查工具

谷歌 DeepMind 与斯坦福大学的最新进展推出了一款名为搜索增强事实性评估器（Search-Augmented Factuality Evaluator，SAFE）的工具，旨在对 AI 聊天机器人所生成的长回复进行事实检验。SAFE 采用多步骤流程，包括分段、校正以及与谷歌搜索结果的对比，在核实争议性事实方面准确率达到 76%。这项创新不仅提升了 AI 生成回复的准确性，还具有经济优势，成本较人工注释低 20 多倍。无论当前 AI 聊天机器人的功能有多强大，总会出现一种备受批评的行为：向用户提供看似令人信服但实际不准确的答案。简而言之，AI 有时会在回复中“跑偏”，甚至“散播谣言”。防止 AI 大模型出现此类行为并非易事，是一项技术挑战。然而，据外媒 Marktechpost 报道，谷歌 DeepMind 与斯坦福大学似乎找到了解决办法。另请阅读：OpenAI 的 GPT 商店未达预期另请阅读：美国联邦机构现需设立首席 AI 官该工具基于搜索增强事实性评估器（SAFE）研究人员推出了一款基于大语言模型的工具——搜索增强事实性评估器（SAFE），能够对聊天机器人所生成的长回复进行事实检验。他们的研究成果以及实验代码和数据集现已公开，点击此处查看。该系统通过四个步骤分析、处理和评估聊天机器人所生成的回复，以验证准确性和真实性：将答案分割成单个验证项，校正上述内容，随后与谷歌搜索结果进行对比。之后，系统还会检查每个事实与原问题的相关性。研究人员创建了一个名为 LongFact

的数据集来评估其性能为评估其性能，研究人员创建了一个包含约 16,000 个事实的 LongFact 数据集，并在 Claude、Gemini、GPT 和 PaLM-2 等 13 个大语言模型上对系统进行了测试。结果显示，在针对 100 个争议性事实的重点分析中，经过进一步审查，SAFE 的判断准确率达到了 76%。与此同时，该框架还具有经济优势：其成本较人工注释低 20 多倍。

谷歌与斯坦福研究人员推出 AI 事实核查工具

信号简报

运营面

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报