随着 OpenAI 的ChatGPT、微软的 Bing Chat 和 Google Bard 等生成式 AI 服务日益被用作搜索引擎的替代品,它们也遭遇了来自不希望自己的网站数据被用于 AI 模型训练的个人和公司的抵制。

大型语言模型在多种数据上进行训练,其中许多数据似乎是在无人知情或同意的情况下被收集的。本周,Google 宣布了一种新方式,网站开发者可以选择允许其 Bard 和 Vertex AI 服务访问其内容,或者选择不参与这些 API 模型的训练。

如何禁止 AI 爬取您的网站

在最近的一篇博客文章中,Google 的信任副总裁 Danielle Romain 承认网络出版商希望对其内容在生成式 AI 用例中的使用方式有更大的选择权和掌控权。为了应对这一关切,Google 允许网络出版商在其网站的 robots.txt 文件中禁止“User-Agent: Google-Extended”。这个简单的步骤将防止 Google 的自动网络爬虫访问和使用出版商的内容进行 AI 训练。

网站目前可以通过 robots.txt 提供拒绝被爬取的列表,Google 认为所有 AI 模型提供者也应提供这种透明度和控制权。然而,随着 AI 应用的扩展,网站将面临在大规模上管理不同用途的日益复杂性。Google 表示会尽快分享更多信息。

Google 的意图受到质疑

虽然 Google 声称以符合伦理和包容的方式开发其 AI 模型,但在网络索引与将数据用于 AI 训练之间存在根本区别。从网络出版商收集的数据被用作训练机器学习模型的原材料,使其随着时间的推移变得更加准确和强大。

认识到同意在 AI 训练数据收集中的作用是非常重要的。让网络出版商可以选择为 AI 模型做出贡献是积极的一步。然而,Google 在未获得用户明确同意的情况下已经收集了大量数据来训练其模型。这引发了人们对 Google 新近对同意和合乎伦理的数据收集的关注是否真实的质疑。

现实情况是,Google 拥有不受限制的网络数据访问权限,并在征得网络出版商许可之前就使用这些数据来训练 AI 模型。如果合乎伦理的数据收集和同意确实是 Google 的首要任务,那么这个选项本应在多年前就提供了。

合乎伦理的数据获取仍有漫长的路要走

显然,科技行业需要解决 AI 训练和数据收集的伦理影响。虽然 Google 让网络出版商控制其内容的举措是朝着正确方向迈出的一步,但重要的是要考虑更广泛的背景和更全面解决方案的必要性。

总体而言,Google 决定允许网络出版商控制其内容如何被用于 AI 训练是一个积极的发展。然而,重要的是要认识到,这种选择是在 Google 已经未经明确同意收集并使用了大量数据之后才出现的。

整个科技行业需要优先考虑合乎伦理的数据收集和同意,并努力寻求更全面的解决方案,以解决网络出版商和用户等的关切。