最近,AI 检测器声称美国宪法是由人工智能于 1787 年撰写的,这引起了人们的关注。
最近,AI 检测器声称美国宪法是由人工智能于 1787 年撰写的,这引起了人们的关注。
虽然这种说法显然是错误的,但它凸显了一个令人担忧的问题:
AI 检测器在准确识别 AI 生成内容方面的可靠性还有很多不足。
问题的核心在于这些检测器所采用的方法。它们使用
像 ChatGPT 这样的大型语言模型,这些模型经过大量人类撰写的和 AI 生成的
文本训练,来判断一篇文章是由人类还是 AI 撰写的可能性。
使用的两个关键指标是“困惑度”和“突发性”。
正式语言 = AI 内容?
困惑度衡量的是文本与 AI 模型在训练过程中学到的东西的接近程度。
它可以准确识别出与训练数据高度相似的 AI 生成内容。
虽然这一切都很好,但面对像美国宪法这样的正式语言时,问题就出现了。
另一方面,突发性评估的是句子长度和结构的变化性。
AI 生成的内容通常更加统一——这与人类写作的多变性相偏离,
人类写作的长度往往各不相同。
然而,这些指标有其局限性。熟练的人类作者可以生成
低困惑度的内容,模仿 AI 生成的风格。同样,AI 模型的
写作也越来越像人类,这使得突发性成为一种不可靠的区分指标。
误报率太高
研究表明,AI 写作检测器远非万无一失,表现仅
比随机分类器略好。它们经常产生误报,导致
对学生和作者可能做出错误判断和不公平的指责。
此外,这些检测器很容易通过改写攻击绕过,进一步
降低了其准确性。
在担忧中,一些教育者正在接受像 ChatGPT 这样的 AI 工具来支持
学习,承认现有的检测器不足以准确检测 AI 生成的内容。
颠覆检测方式
作为回应,一家 AI 检测器开发商计划将重心从 AI 检测
转向突出内容创作中的人类痕迹。他们的目标是帮助
教师和学生应对 AI 在教育中不断演变的角色。
AI 写作检测的挑战还因可能对非英语母语者存在偏见
而变得更加复杂,导致他们的作品误报率更高。
随着 AI 的不断进步,对防范错误信息的强大保障措施
以及适当认可 AI 在内容创作中的参与,变得越来越
明显。
现有 AI 检测器的缺陷凸显了开发更准确、更可靠的检测系统的紧迫性。
在建立这样的系统之前,至关重要的是
谨慎对待 AI 生成内容的检测,并考虑到误报指控对个人的代价。

