- 谷歌已证实关于 OpenAI 在 YouTube 上活动的未经证实的报道,并表示其 robots.txt 文件和服务条款禁止未经授权的内容抓取或下载。
- Meta 在剑桥分析丑闻之后面临训练数据可用性和隐私问题的限制。该公司曾考虑购买图书许可证或收购一家出版商以追赶 OpenAI,并在消费者数据使用方面面临限制。
《华尔街日报》本周早些时候称,AI 公司在收集高质量训练数据方面遇到了障碍。《纽约时报》详细介绍了各公司应对这一问题的一些方式。
OpenAI 亟需训练数据
由于急需训练数据,OpenAI 开发了 Whisper 音频转录模型以克服困难,转录了超过一百万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。据《纽约时报》报道,该公司知道这在法律上存在问题,但将其视为合理使用。OpenAI 发言人 Lindsay Held 告诉 The Verge,该公司为每个模型策划“独特”的数据集,以“帮助它们理解世界”并保持其全球研究的竞争力。
根据《纽约时报》的报道,该公司在 2021 年就用完了相关数据,并讨论将转录播客、有声读物和 YouTube 视频作为备用计划。到那时,谷歌已经使用来自 Quizlet 的信息、一个国际象棋游戏数据库以及来自 Github 的计算机代码来训练其模型。
另请阅读:Meta 否认允许 Netflix 访问用户私人信息
谷歌的回应
谷歌发言人 Matt Bryant 在一封电子邮件中告诉 The Verge,该公司已经“看到了未经证实的报道”,并补充说,“我们的 robots.txt 文件和服务条款都禁止未经授权抓取或下载 YouTube 内容”,这与公司的使用条款相符。Bryant 表示,谷歌会采取“技术和法律措施”来防止此类未经授权的使用,“当我们有明确的法律或技术依据时”。
《纽约时报》写道,谷歌的法律部门已要求公司的隐私团队调整其政策语言,以扩大其对消费者数据的处理范围,例如 Google Docs 等办公工具。据报道,谷歌打算在 7 月 1 日发布新政策,以利用独立日周末假期分散注意力。
另请阅读:OpenAI 语音克隆工具只需 15 秒样本即可模仿你的声音
Meta 的回应
Meta 同样遇到了高质量训练数据可用性的限制,在《纽约时报》听到的录音中,其 AI 团队讨论了在试图追赶 OpenAI 时未经许可使用受版权保护作品的问题。该公司曾考虑支付图书许可费甚至直接收购一家大型出版商等措施。在剑桥分析丑闻之后,公司的隐私改革也显然限制了其使用消费者数据的方式。
谷歌、OpenAI 以及更广泛的 AI 训练领域都在努力应对模型训练数据迅速枯竭的问题,而这些模型吸收的数据越多越好。《华尔街日报》本周写道,到 2028 年,公司可能会超过新内容的发展速度。
《华尔街日报》建议了解决模型错误问题的方法,包括合成数据或课程学习。然而,这两种方法都未经证实。公司可以使用它们找到的任何内容,无论是否获得许可,但这充满了诉讼风险。

