谷歌 DeepMind 与斯坦福大学的最新进展推出了一款名为搜索增强事实性评估器(Search-Augmented Factuality Evaluator,SAFE)的工具,旨在对 AI 聊天机器人所生成的长回复进行事实检验。SAFE 采用多步骤流程,包括分段、校正以及与谷歌搜索结果的对比,在核实争议性事实方面准确率达到 76%。这项创新不仅提升了 AI 生成回复的准确性,还具有经济优势,成本较人工注释低 20 多倍。无论当前 AI 聊天机器人的功能有多强大,总会出现一种备受批评的行为:向用户提供看似令人信服但实际不准确的答案。简而言之,AI 有时会在回复中“跑偏”,甚至“散播谣言”。防止 AI 大模型出现此类行为并非易事,是一项技术挑战。然而,据外媒 Marktechpost 报道,谷歌 DeepMind 与斯坦福大学似乎找到了解决办法。另请阅读:OpenAI 的 GPT 商店未达预期 另请阅读:美国联邦机构现需设立首席 AI 官 该工具基于搜索增强事实性评估器(SAFE) 研究人员推出了一款基于大语言模型的工具——搜索增强事实性评估器(SAFE),能够对聊天机器人所生成的长回复进行事实检验。他们的研究成果以及实验代码和数据集现已公开,点击此处查看。该系统通过四个步骤分析、处理和评估聊天机器人所生成的回复,以验证准确性和真实性:将答案分割成单个验证项,校正上述内容,随后与谷歌搜索结果进行对比。之后,系统还会检查每个事实与原问题的相关性。研究人员创建了一个名为 LongFact

的数据集来评估其性能 为评估其性能,研究人员创建了一个包含约 16,000 个事实的 LongFact 数据集,并在 Claude、Gemini、GPT 和 PaLM-2 等 13 个大语言模型上对系统进行了测试。结果显示,在针对 100 个争议性事实的重点分析中,经过进一步审查,SAFE 的判断准确率达到了 76%。与此同时,该框架还具有经济优势:其成本较人工注释低 20 多倍。