• Automattic 即将敲定一项协议,为 AI 公司的模型训练提供数据。
  • AI 数据训练交易已成为在当今艰难的在线出版环境中挣扎求生的网站的丰厚机会。

TumblrWordPress.com即将与人工智能公司OpenAIMidjourney达成出售用户数据的交易。据 404 Media 报道,这两个平台的母公司 Automattic 即将敲定一项协议,为 AI 公司的模型训练提供数据。

交易中的数据性质模糊不清

交易中具体包含哪些数据的确切性质仍然模糊,但据称来自 Tumblr 产品经理 Cyle Gage 的内部沟通引发了对正在准备传输的数据范围的担忧。报道指出,数据可能包含了本不应纳入交易的私人或合作方相关信息。这据称包括公开博客文章中的私人帖子、已删除或暂停的博客、未回答的问题、私人回答、露骨内容以及来自高级合作伙伴博客的材料。

另请阅读:OpenAI 通过新更新解决 GPT-4 “懒惰”问题

Automattic 的回应与承诺

当被要求置评时,Automattic 发布了一份声明,强调只会共享那些来自未选择退出的网站、托管在 WordPress.com 和 Tumblr 上的公开内容。该公司还强调了其尊重所有退出设置的承诺,并宣布计划推出一个新的退出工具,旨在允许用户阻止第三方(包括 AI 公司)使用其数据进行训练。

倡导用户数据删除

据称 Automattic 为新退出工具准备的内部 FAQ 表明,公司将积极根据用户请求倡导删除数据。尽管文件中用“请求”和“倡导”来描述这一过程可能令人侧目,但 Automattic 的 AI 主管 Andrew Spittle 基于之前的对话表示有信心,AI 公司会尊重这些请求。

另请阅读:OpenAI CEO Sam Altman 与美国众议院议长在国会山探讨 AI 监管挑战

Tumblr 和 WordPress.com 面临的挑战

这些潜在交易的背景是快速变化的在线出版格局,网站正在寻求新的收入来源以求生存。尤其是 Tumblr,面临着自己的挑战,据报道在 2023 年底将员工人数削减到了最低限度。这一背景突显了此类数据交易对 Tumblr 和 WordPress.com 等平台的重要性。

在更广泛的行业背景下,这一消息增加了 AI 公司寻求利用用户生成内容来训练模型的趋势。最近,Google 与 Reddit 达成了交易,OpenAI 也一直在积极寻求合作以收集用于 AI 模型训练的数据集。