机构档案 / 案例档案

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage

来源

本文使用的公开参考来源。

外部参考来源将在编辑完成引用审核后显示在这里。

分类Institution

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

地区Global

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.

信号重点Governance

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage has public-source relevance to network operations, governance, dependency mapping, or market structure.

内容类型PROFILE

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage is tracked as a internet infrastructure institution within the internet infrastructure ecosystem.

主要领域Governance

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

影响Medium

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

置信度?Confidence Grade
0.90–1.00AHigh — direct sources
0.75–0.89A/BStrong
0.55–0.74B/CMedium
0.35–0.54C/DWeak–medium
0.10–0.34DWeak signal
0.00–0.09DInternal monitoring
有限置信度 (80%)

多个公开来源

  • 谷歌已证实关于OpenAI在YouTube上活动的未经证实的报道,并表示其robots.txt文件和服务条款禁止未经授权的内容抓取或下载。
  • Meta在剑桥分析丑闻之后面临训练数据可用性和隐私问题的限制。该公司曾考虑购买图书许可证或收购一家出版商以追赶OpenAI,并在消费者数据使用方面面临限制。

《华尔街日报》本周早些时候称,AI公司在收集高质量训练数据方面遇到了障碍。《纽约时报》详细介绍了各公司应对这一问题的一些方式。 另见: FCC 以许可限制支持光纤建设者.

OpenAI亟需训练数据

由于急需训练数据,OpenAI开发了Whisper音频转录模型以克服困难,转录了超过一百万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。据《纽约时报》报道,该公司知道这在法律上存在问题,但将其视为合理使用。OpenAI发言人Lindsay Held告诉The Verge,该公司为每个模型策划“独特”的数据集,以“帮助它们理解世界”并保持其全球研究的竞争力。 另见: Ofcom 揭露英国铁路移动覆盖差距.

根据《纽约时报》的报道,该公司在2021年就用完了相关数据,并讨论将转录播客、有声读物和YouTube视频作为备用计划。到那时,谷歌已经使用来自Quizlet的信息、一个国际象棋游戏数据库以及来自Github的计算机代码来训练其模型。 另见: 罗伯特·纽沃斯.

另请阅读:Meta否认允许Netflix访问用户私人信息

谷歌的回应

谷歌发言人Matt Bryant在一封电子邮件中告诉The Verge,该公司已经“看到了未经证实的报道”,并补充说,“我们的robots.txt文件和服务条款都禁止未经授权抓取或下载YouTube内容”,这与公司的使用条款相符。Bryant表示,谷歌会采取“技术和法律措施”来防止此类未经授权的使用,“当我们有明确的法律或技术依据时”。 另见: 欧盟重写人工智能基础设施主权规则.

《纽约时报》写道,谷歌的法律部门已要求公司的隐私团队调整其政策语言,以扩大其对消费者数据的处理范围,例如Google Docs等办公工具。据报道,谷歌打算在7月1日发布新政策,以利用独立日周末假期分散注意力。 另见: 欧盟限制美国卫星运营商接入频谱.

另请阅读:OpenAI语音克隆工具只需15秒样本即可模仿你的声音

Meta的回应

Meta同样遇到了高质量训练数据可用性的限制,在《纽约时报》听到的录音中,其AI团队讨论了在试图追赶OpenAI时未经许可使用受版权保护作品的问题。该公司曾考虑支付图书许可费甚至直接收购一家大型出版商等措施。在剑桥分析丑闻之后,公司的隐私改革也显然限制了其使用消费者数据的方式。 另见: FCC 要求美国海底电缆登陆须获许可.

谷歌、OpenAI以及更广泛的AI训练领域都在努力应对模型训练数据迅速枯竭的问题,而这些模型吸收的数据越多越好。《华尔街日报》本周写道,到2028年,公司可能会超过新内容的发展速度。 另见: 美国封堵海外AI芯片采购漏洞.

《华尔街日报》建议了解决模型错误问题的方法,包括合成数据或课程学习。然而,这两种方法都未经证实。公司可以使用它们找到的任何内容,无论是否获得许可,但这充满了诉讼风险。 另见: Dish 违约后 FCC 重启 AWS-3 拍卖.

运营领域

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage 的公开档案基于可见角色、运营背景和相关报道。

  • 公开角色: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage 通过公开角色、服务背景和可复核资料进入 BTW 的观察范围。 证据基础: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record
  • 运营面: Governance 与 Global 构成该机构档案的公开语境。 证据基础: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record; To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage article record

时间线

  1. To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage 公开档案更新

    公开报道将 To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage 记录为需要按角色、运营语境和证据继续观察的主体。

概要

  • 名称: To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage
  • 类型: Internet infrastructure institution
  • 所在地: Global
  • 档案重点: Institution

功能说明

  • 公开记录可用于跟踪其角色、服务和关键关系。

重要性

  • Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.
  • 运营关键性: Medium
  • 时间范围: Next quarter

关注事项

  • 监测重点是经核实的服务连续性、治理变化和关系信号。
当前Medium 优先级

跟踪经验证的来源更新、角色变化和当前公开证据。

季度Medium 政策敏感度

Public-source signals support medium-impact monitoring for infrastructure visibility and dependency analysis.

年度Next quarter 展望

长期相关性取决于经验证的运营、政策和关系变化。

会员简报

深度档案背景

登录后可解锁完整档案简报和来源说明。

仅限战略圈

战略圈

所有读者均可浏览。加入并登录后可解锁档案简报。

加入战略圈

仅限领导联盟

领导联盟

面向符合条件的 IP 资产所有者和管理层;登录后可解锁联盟简报。

加入领导联盟

公开视角

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage 的公开解读限于可见角色、运营语境和有证据支撑的关系。

观察点

  • 新的公开角色、合作、产品、政策或市场披露。
  • 涉及具名组织或人物的已验证关系变化。

限制说明

  • 私人或未经验证的说法不进入公开视图。

常见问题

为什么收录 To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage?

To train GPT-4, OpenAI transcribed more over a million hours of YouTube footage 有公开证据显示其与数字基础设施、治理或市场报道相关。

这个档案的公开部分是什么?

公开层覆盖可见角色、运营语境、关联主体和有证据支撑的观察点。

读者接下来应关注什么?

读者应关注有来源支持的角色变化、新合作、监管暴露、运营扩张或会改变公开评估的证据。

返回全部公司