为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频

分类机构

为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频是这份情报记录的主题。

地区全球

全球是证据中可见的管辖背景。

信号重点治理

治理是当前审视的主要信号。

内容类型档案

《华尔街日报》本周称 AI 公司在收集高质量训练数据方面遇到障碍。《纽约时报》详细介绍了各公司应对方式。OpenAI 急需数据，开发 Whisper 转录逾百万小时 YouTube 视频训练 GPT-4，虽知有法律风险但视为合理使用。谷歌和 Meta 也面临类似挑战与隐私限制。

主要领域市场

主题治理

影响中等

置信度有限置信度 (80%)

由公开证据支撑的多来源推断。

谷歌已证实关于 OpenAI 在 YouTube 上活动的未经证实的报道，并表示其 robots.txt 文件和服务条款禁止未经授权的内容抓取或下载。
Meta 在剑桥分析丑闻之后面临训练数据可用性和隐私问题的限制。该公司曾考虑购买图书许可证或收购一家出版商以追赶 OpenAI，并在消费者数据使用方面面临限制。

《华尔街日报》本周早些时候称，AI 公司在收集高质量训练数据方面遇到了障碍。《纽约时报》详细介绍了各公司应对这一问题的一些方式。

OpenAI 亟需训练数据

由于急需训练数据，OpenAI 开发了 Whisper 音频转录模型以克服困难，转录了超过一百万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。据《纽约时报》报道，该公司知道这在法律上存在问题，但将其视为合理使用。OpenAI 发言人 Lindsay Held 告诉 The Verge，该公司为每个模型策划“独特”的数据集，以“帮助它们理解世界”并保持其全球研究的竞争力。

根据《纽约时报》的报道，该公司在 2021 年就用完了相关数据，并讨论将转录播客、有声读物和 YouTube 视频作为备用计划。到那时，谷歌已经使用来自 Quizlet 的信息、一个国际象棋游戏数据库以及来自 Github 的计算机代码来训练其模型。

另请阅读：Meta 否认允许 Netflix 访问用户私人信息

谷歌的回应

谷歌发言人 Matt Bryant 在一封电子邮件中告诉 The Verge，该公司已经“看到了未经证实的报道”，并补充说，“我们的 robots.txt 文件和服务条款都禁止未经授权抓取或下载 YouTube 内容”，这与公司的使用条款相符。Bryant 表示，谷歌会采取“技术和法律措施”来防止此类未经授权的使用，“当我们有明确的法律或技术依据时”。

《纽约时报》写道，谷歌的法律部门已要求公司的隐私团队调整其政策语言，以扩大其对消费者数据的处理范围，例如 Google Docs 等办公工具。据报道，谷歌打算在 7 月 1 日发布新政策，以利用独立日周末假期分散注意力。

另请阅读：OpenAI 语音克隆工具只需 15 秒样本即可模仿你的声音

Meta 的回应

Meta 同样遇到了高质量训练数据可用性的限制，在《纽约时报》听到的录音中，其 AI 团队讨论了在试图追赶 OpenAI 时未经许可使用受版权保护作品的问题。该公司曾考虑支付图书许可费甚至直接收购一家大型出版商等措施。在剑桥分析丑闻之后，公司的隐私改革也显然限制了其使用消费者数据的方式。

谷歌、OpenAI 以及更广泛的 AI 训练领域都在努力应对模型训练数据迅速枯竭的问题，而这些模型吸收的数据越多越好。《华尔街日报》本周写道，到 2028 年，公司可能会超过新内容的发展速度。

《华尔街日报》建议了解决模型错误问题的方法，包括合成数据或课程学习。然而，这两种方法都未经证实。公司可以使用它们找到的任何内容，无论是否获得许可，但这充满了诉讼风险。

运营领域

为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频的公开档案基于可见角色、运营背景和相关报道。

公开角色: 为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频通过公开角色、服务背景和可复核资料进入 BTW 的观察范围。
运营面: 治理、全球构成该机构档案的公开语境。

时间线

2026年6月30日
为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频公开档案更新
公开报道将为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频记录为需要按角色、运营语境和证据继续观察的主体。

概要

名称: 为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频
类型: 相关主题
所在地: 全球
档案重点: 机构

功能说明

公开记录可用于跟踪其角色、服务和关键关系。

重要性

《华尔街日报》本周称 AI 公司在收集高质量训练数据方面遇到障碍。《纽约时报》详细介绍了各公司应对方式。OpenAI 急需数据，开发 Whisper 转录逾百万小时 YouTube 视频训练 GPT-4，虽知有法律风险但视为合理使用。谷歌和 Meta 也面临类似挑战与隐私限制。
运营关键性: 中等
时间范围: 下一季度

关注事项

监测重点是经核实的服务连续性、治理变化和关系信号。

当前中等优先级

跟踪经验证的来源更新、角色变化和当前公开证据。

季度中等政策敏感度

年度下一季度展望

长期相关性取决于经验证的运营、政策和关系变化。

会员简报

深度档案背景

使用对应会员级别登录后，可解锁完整简报和来源说明。

仅限战略圈

战略圈

所有读者均可浏览。加入并登录后可解锁档案简报。

加入战略圈

仅限领导联盟

领导联盟

面向符合条件的 IP 资产所有者和管理层；登录后可解锁联盟简报。

加入领导联盟

公开视角

为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频的公开解读限于可见角色、运营语境和有证据支撑的关系。

观察点

新的公开角色、合作、产品、政策或市场披露。
涉及具名组织或人物的已验证关系变化。

限制说明

私人或未经验证的说法不进入公开视图。

常见问题

为什么收录为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频？

为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频有公开证据显示其与数字基础设施、治理或市场报道相关。

这个档案的公开部分是什么？

公开层覆盖可见角色、运营语境、关联主体和有证据支撑的观察点。

读者接下来应关注什么？

读者应关注有来源支持的角色变化、新合作、监管暴露、运营扩张或会改变公开评估的证据。

← 返回全部公司

为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频

OpenAI 亟需训练数据

谷歌的回应

Meta 的回应

运营领域

时间线

概要

功能说明

重要性

关注事项

深度档案背景

战略圈

领导联盟

战略圈简报

领导联盟简报

公开视角

观察点

限制说明

常见问题

为什么收录为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频？

这个档案的公开部分是什么？

读者接下来应关注什么？

OpenAI 亟需训练数据

谷歌的回应

Meta 的回应

运营领域

时间线

概要

功能说明

重要性

关注事项

深度档案背景

战略圈

领导联盟

公开视角

观察点

限制说明

常见问题

为什么收录 为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频？

这个档案的公开部分是什么？

读者接下来应关注什么？

为什么收录为训练 GPT-4，OpenAI 转录了超过一百万小时的 YouTube 视频？