- Tumblr 和 WordPress.com 目前正在讨论向 OpenAI 和 Midjourney 等 AI 公司提供用户数据。
- 《纽约时报》目前正在起诉 OpenAI,指控其未经许可使用其庞大的档案来训练聊天机器人。
使用从互联网上抓取的数据已成为一个争议性问题,公司利用公开内容来训练其强大的生成模型。这种做法引发了法律纠纷,因为像《纽约时报》和盖蒂图片社这样的组织对未经授权使用其内容提出了担忧。
数据使用的法律战
其中一个突出案例涉及 OpenAI,该公司目前正面临《纽约时报》的诉讼,指控其未经许可利用该报的档案来训练聊天机器人。作为回应,OpenAI 指责《纽约时报》采用有问题的策略来证明其主张。同样,盖蒂图片社已对 Stable Diffusion 提起法律诉讼,理由是其视觉内容的使用涉及版权侵权。
人工智能系统利用记者、音乐家和摄影师的作品的影响超出了法律纠纷。对大量训练数据的渴求已引发了对在线内容创作者可能被剥削的担忧。据报道,像 Tumblr 和 WordPress.com 这样的平台一直在与 OpenAI 和 Midjourney 等 AI 公司洽谈出售用户数据,这引发了关于数据隐私和所有权的问题。
另请阅读:谷歌 Bard 聊天机器人全球获得 Gemini Pro 更新
数据共享中的合作伙伴关系
虽然一些实体选择了诉讼,但其他实体则选择了建立合作伙伴关系。美联社已将其部分档案授权给 OpenAI,而 Shutterstock 与这家 AI 公司签订了一项为期六年的协议,允许其访问其庞大的照片、视频和音乐库。
以用户生成内容丰富而闻名的 Reddit 最近与谷歌达成协议,允许这家科技巨头访问其 API 以进行 AI 模型训练。此举凸显了用户对平台的贡献价值以及围绕数据使用的道德考量。
另请阅读:OpenAI 推出 GPT Store,无需编码即可创建个人 AI 聊天机器人
广泛的数据训练实践
在公共互联网数据上训练 AI 模型的广泛实践超越了文章中强调的具体交易。《华盛顿邮报》最近的一项调查发现了一批来自各种来源的抓取数据,包括在线论坛、众筹平台和社交媒体网站。像 Meta(前身为 Facebook)这样的公司也利用其平台上的公开帖子来增强 AI 能力。
关于数据所有权和同意的争论仍未解决。无论是小众博客还是流行社交媒体平台上的内容创作者,都面临着其作品被用于 AI 训练目的而商品化的前景。创新与合乎道德的数据实践之间的平衡对于塑造 AI 发展的未来及其对数字生态系统的影响至关重要。

