您的网站现在可以对 ChatGPT 和 Google Bard 说“不”了

你的网站现在可以对 ChatGPT 和 Google Bard 说“不”了

随着 OpenAI 的 ChatGPT、微软的 Bing Chat 和 Google Bard 等生成式 AI 服务日益成为搜索引擎替代方案，它们也受到了来自不希望网站数据被用于 AI 模型训练的个人和公司的抵制。大型语言模型在训练中使用了大量未经明确同意的数据。本周，Google 推出了新选项，网站可通过 robots.txt 选择退出 AI 训练。

随着 OpenAI 的ChatGPT、微软的 Bing Chat 和 Google Bard 等生成式 AI 服务日益被用作搜索引擎的替代品，它们也遭遇了来自不希望自己的网站数据被用于 AI 模型训练的个人和公司的抵制。

大型语言模型在多种数据上进行训练，其中许多数据似乎是在无人知情或同意的情况下被收集的。本周，Google 宣布了一种新方式，网站开发者可以选择允许其 Bard 和 Vertex AI 服务访问其内容，或者选择不参与这些 API 模型的训练。

如何禁止 AI 爬取您的网站

在最近的一篇博客文章中，Google 的信任副总裁 Danielle Romain 承认网络出版商希望对其内容在生成式 AI 用例中的使用方式有更大的选择权和掌控权。为了应对这一关切，Google 允许网络出版商在其网站的 robots.txt 文件中禁止“User-Agent: Google-Extended”。这个简单的步骤将防止 Google 的自动网络爬虫访问和使用出版商的内容进行 AI 训练。

网站目前可以通过 robots.txt 提供拒绝被爬取的列表，Google 认为所有 AI 模型提供者也应提供这种透明度和控制权。然而，随着 AI 应用的扩展，网站将面临在大规模上管理不同用途的日益复杂性。Google 表示会尽快分享更多信息。

Google 的意图受到质疑

虽然 Google 声称以符合伦理和包容的方式开发其 AI 模型，但在网络索引与将数据用于 AI 训练之间存在根本区别。从网络出版商收集的数据被用作训练机器学习模型的原材料，使其随着时间的推移变得更加准确和强大。

认识到同意在 AI 训练数据收集中的作用是非常重要的。让网络出版商可以选择为 AI 模型做出贡献是积极的一步。然而，Google 在未获得用户明确同意的情况下已经收集了大量数据来训练其模型。这引发了人们对 Google 新近对同意和合乎伦理的数据收集的关注是否真实的质疑。

现实情况是，Google 拥有不受限制的网络数据访问权限，并在征得网络出版商许可之前就使用这些数据来训练 AI 模型。如果合乎伦理的数据收集和同意确实是 Google 的首要任务，那么这个选项本应在多年前就提供了。

合乎伦理的数据获取仍有漫长的路要走

显然，科技行业需要解决 AI 训练和数据收集的伦理影响。虽然 Google 让网络出版商控制其内容的举措是朝着正确方向迈出的一步，但重要的是要考虑更广泛的背景和更全面解决方案的必要性。

总体而言，Google 决定允许网络出版商控制其内容如何被用于 AI 训练是一个积极的发展。然而，重要的是要认识到，这种选择是在 Google 已经未经明确同意收集并使用了大量数据之后才出现的。

整个科技行业需要优先考虑合乎伦理的数据收集和同意，并努力寻求更全面的解决方案，以解决网络出版商和用户等的关切。

你的网站现在可以对 ChatGPT 和 Google Bard 说“不”了

信号简报

运营面

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报