• AI 公司因大量使用“publicly available”的内容训练模型而受到批评,因为网上许多公开内容仍受版权保护。
  • OpenAI 已抓取并使用了 Tumblr 上曾公开的任何及所有内容。
  • 批评人士对潜在的版权侵权问题以及此类交易需要明确用户同意表示担忧。

最近披露的消息显示,OpenAI 与图像生成器 Midjourney 即将达成协议,利用公开的 Tumblr 数据来训练 AI 模型,这在业界引发了兴趣与担忧。

用户隐私与内容所有权面临的挑战

据 404 Media 审阅的内部文件显示,Tumblr 的母公司 Automattic 据报正在商讨向这些 AI 巨头出售公开的 Tumblr 内容。尽管待出售数据的具体细节尚未披露,但人们对于用户隐私和内容所有权可能受到的影响产生了疑问。

利用公开的用户生成内容进行 AI 训练所涉及的伦理问题一直是争论的焦点。批评人士对潜在的版权侵权问题以及此类交易需要明确用户同意表示担忧。这一事态发展提醒人们,用户生成内容平台与第三方实体使用此类数据之间存在着复杂的关系。

另请阅读:Tumblr 取消 Post Plus,所有付费内容自 2024 年 1 月起下架

赋能并服务于用户

针对有关该交易对 Tumblr 内容潜在影响的询问,Automattic 保持缄默,让用户和行业观察者寻求澄清。关于数据出售性质和范围缺乏透明度,只会加剧用户对其内容隐私和安全性的担忧。

在这些事态发展中,用户了解自身权利和选择至关重要。Automattic 强调了用户选择的重要性,并提供了关于如何选择不与第三方共享公开 Tumblr 内容的指导。然而,选择退出的过程可能需要用户通过网页浏览器而非 Tumblr 应用进行设置,这凸显了清晰、可访问的隐私控制机制的必要性。

另请阅读:Tumblr 的回归,前身为 Twitter

AI 公司访问公开内容的趋势

此外,与第三方合作伙伴共享现有数据的问题也备受关注。Automattic 的 AI 负责人 Andrew Spittle 保证,将努力通知合作伙伴并根据用户偏好要求删除数据。这种持续对话和内容删除的承诺,反映了数据隐私和用户赋权不断演变的环境。

这一事态发展也揭示了 AI 公司为训练目的寻求访问公开内容的更广泛趋势。随着 OpenAI 寻求从知名来源获得新闻故事授权,以及 Reddit 与谷歌合作进行内容变现,公开数据集的商业化正变得越来越普遍。随着科技公司探索数据利用的新途径,对用户隐私及其内容控制权的影响仍然至关重要。