为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频

谷歌已证实关于 OpenAI 在 YouTube 上活动的未经证实的报道，并表示其 robots.txt 文件和服务条款禁止未经授权的内容抓取或下载。
Meta 在剑桥分析丑闻之后面临训练数据可用性和隐私问题的限制。该公司曾考虑购买图书许可证或收购一家出版商以追赶 OpenAI，并在消费者数据使用方面面临限制。

《华尔街日报》本周早些时候称，AI 公司在收集高质量训练数据方面遇到了障碍。《纽约时报》详细介绍了各公司应对这一问题的一些方式。

OpenAI 亟需训练数据

由于急需训练数据，OpenAI 开发了 Whisper 音频转录模型以克服困难，转录了超过一百万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。据《纽约时报》报道，该公司知道这在法律上存在问题，但将其视为合理使用。OpenAI 发言人 Lindsay Held 告诉 The Verge，该公司为每个模型策划“独特”的数据集，以“帮助它们理解世界”并保持其全球研究的竞争力。

根据《纽约时报》的报道，该公司在 2021 年就用完了相关数据，并讨论将转录播客、有声读物和 YouTube 视频作为备用计划。到那时，谷歌已经使用来自 Quizlet 的信息、一个国际象棋游戏数据库以及来自 Github 的计算机代码来训练其模型。

另请阅读：Meta 否认允许 Netflix 访问用户私人信息

谷歌的回应

谷歌发言人 Matt Bryant 在一封电子邮件中告诉 The Verge，该公司已经“看到了未经证实的报道”，并补充说，“我们的 robots.txt 文件和服务条款都禁止未经授权抓取或下载 YouTube 内容”，这与公司的使用条款相符。Bryant 表示，谷歌会采取“技术和法律措施”来防止此类未经授权的使用，“当我们有明确的法律或技术依据时”。

《纽约时报》写道，谷歌的法律部门已要求公司的隐私团队调整其政策语言，以扩大其对消费者数据的处理范围，例如 Google Docs 等办公工具。据报道，谷歌打算在 7 月 1 日发布新政策，以利用独立日周末假期分散注意力。

另请阅读：OpenAI 语音克隆工具只需 15 秒样本即可模仿你的声音

Meta 的回应

Meta 同样遇到了高质量训练数据可用性的限制，在《纽约时报》听到的录音中，其 AI 团队讨论了在试图追赶 OpenAI 时未经许可使用受版权保护作品的问题。该公司曾考虑支付图书许可费甚至直接收购一家大型出版商等措施。在剑桥分析丑闻之后，公司的隐私改革也显然限制了其使用消费者数据的方式。

谷歌、OpenAI 以及更广泛的 AI 训练领域都在努力应对模型训练数据迅速枯竭的问题，而这些模型吸收的数据越多越好。《华尔街日报》本周写道，到 2028 年，公司可能会超过新内容的发展速度。

《华尔街日报》建议了解决模型错误问题的方法，包括合成数据或课程学习。然而，这两种方法都未经证实。公司可以使用它们找到的任何内容，无论是否获得许可，但这充满了诉讼风险。

为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频

OpenAI 亟需训练数据

谷歌的回应

Meta 的回应

概要

功能说明

重要性

关注事项

深度档案背景

战略圈

领导联盟

战略圈简报

领导联盟简报