科技巨头被指控使用未经授权的 YouTube 字幕训练 AI 模型

一些科技巨头涉嫌未经许可使用 YouTube 字幕来训练 AI 模型。
使用未经授权的数据库训练 AI 的合法性尚未确定，可能阻碍未来 AI 发展。

我们的观点
AI 技术的发展无疑前景广阔，但其创造和进步建立在数据库之上。这些数据库缺乏透明度必然引发争议。受影响方与侵权公司往往各执一词，尚无明确的解决方案。这种情况就像是悬在行业上方的达摩克利斯之剑；若不加以解决，必将阻碍 AI 的持续发展。
—— BTW 记者 Yasmine Luo

发生了什么？

一些大型科技公司被指控未经授权使用YouTube字幕来训练其 AI 模型。

据Proof News报道，非营利组织EleutherAI创建了一个数据集，其中包含来自超过 48,000 个 YouTube 频道的字幕，包括 Marques Brownlee 和 MrBeast 等知名创作者的内容，以及《纽约时报》、BBC和ABC 新闻等主要出版商的内容。根据 Proof News 的最新调查，苹果、英伟达、Anthropic和其他大型科技公司使用了该数据集来训练其 AI 模型。

YouTube 首席执行官 Neal Mohan 此前曾表示：“使用 YouTube 数据训练 AI 模型的公司将违反平台的服务条款。”

知名 YouTuber Marques Brownlee 在社交媒体上发帖称：“苹果从多家公司为其 AI 获取数据。其中一家公司从 YouTube 视频中抓取了大量数据/字幕，包括我的。苹果在技术上避免了‘过错’，因为他们不是抓取方。但这个问题将在很长一段时间内持续演变。”

目前，苹果、英伟达、Anthropic 和 EleutherAI 尚未对此事置评。

另请阅读：华平投资支持的 PDG 瞄准亚洲 AI 驱动数据中心扩张

另请阅读：OpenAI 的‘草莓’项目推进 AI 推理能力

为什么重要

AI 模型的快速增长虽然有望塑造未来，但也带来了许多未解决的法律问题。最近对科技巨头的指控加剧了这些担忧。自诞生以来，AI 技术一直与不透明的训练数据库问题作斗争。如果 AI 训练数据未能适当获取，存在侵犯版权或数据库权利的风险。

然而，涉事公司是否会面临法律指控仍不确定。The Verge对律师、分析师和 AI 初创公司员工进行了调查，结果显示对此问题意见不一。

“我看到双方都有人对自己的立场极具信心，但事实上没人知道，”AI 观察者 Baio 说。

尽管受影响的公司或个人声称这是非法的，但他们的要求不太可能得到满足，被指控公司缺乏回应就是证明。

如果这个问题仍然悬而未决，总有一天会阻碍 AI 技术的持续发展。

科技巨头被指控使用未经授权的 YouTube 字幕训练 AI 模型

发生了什么？

为什么重要

信号简报

运营足迹

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报