谷歌与斯坦福推出SAFE AI事实核查工具

Google and Stanford researchers is a Public briefing based on external evidence, entity context, and relationship signals.

谷歌DeepMind和斯坦福大学最近的一项进展推出了搜索增强事实评估器（SAFE），这是一种用于核查AI聊天机器人长回复事实的工具。SAFE采用多步骤流程，包括分段、校正，并与谷歌搜索结果进行比较，在验证有争议事实方面达到了76%的准确率。这项创新不仅提高了AI生成回复的准确性，还带来了经济优势，比人工标注便宜20多倍。无论当前的AI聊天机器人多么强大，它们总有一种备受诟病的行为：为用户提供看似有说服力但事实上不准确的答案。简而言之，AI有时会“跑偏”，甚至“散布谣言”。防止AI大模型出现这种行为并非易事，是一项技术挑战。然而，据外媒Marktechpost报道，谷歌DeepMind和斯坦福大学似乎找到了解决办法。另请阅读：OpenAI的GPT商店未能达到预期另请阅读：美国联邦机构现在需要设立首席AI官该工具基于搜索增强事实评估器（SAFE）。研究人员推出了一种基于大语言模型的工具——搜索增强事实评估器（SAFE），它可以核查聊天机器人产生的长回复的事实。他们的研究结果以及实验代码和数据集现已公开，点击此处查看。该系统通过四个步骤分析、处理和评估聊天机器人产生的回复，以验证准确性和真实性：将答案分割成单个项目进行验证，校正上述内容，然后与谷歌搜索结果进行比较。随后，系统还会检查每个事实与原始问题的相关性。为了评估其性能，研究人员创建了一个名为LongFact的数据集，其中包含大约16,000个事实，并在来自Claude、Gemini、GPT和PaLM-2的13个大语言模型上测试了该系统。结果显示，在对100个有争议事实的重点分析中，经过进一步审查，SAFE的判断准确率达到76%。同时，该框架还具有经济优势：比人工标注便宜20多倍。另见: Ziggo集团任命领导人，备战2027年阿姆斯特丹上市.

0.90–1.00	A	High — direct sources
0.75–0.89	A/B	Strong
0.55–0.74	B/C	Medium
0.35–0.54	C/D	Weak–medium
0.10–0.34	D	Weak signal
0.00–0.09	D	Internal monitoring

谷歌DeepMind与斯坦福研究人员推出AI事实核查工具

Sources

信号简报

运营面

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报