- 一些科技巨头涉嫌未经许可使用 YouTube 字幕来训练 AI 模型。
- 使用未经授权的数据库训练 AI 的合法性尚未确定,可能阻碍未来 AI 发展。
我们的观点
AI 技术的发展无疑前景广阔,但其创造和进步建立在数据库之上。这些数据库缺乏透明度必然引发争议。受影响方与侵权公司往往各执一词,尚无明确的解决方案。这种情况就像是悬在行业上方的达摩克利斯之剑;若不加以解决,必将阻碍 AI 的持续发展。
—— BTW 记者 Yasmine Luo
发生了什么?
一些大型科技公司被指控未经授权使用YouTube字幕来训练其 AI 模型。
据Proof News报道,非营利组织EleutherAI创建了一个数据集,其中包含来自超过 48,000 个 YouTube 频道的字幕,包括 Marques Brownlee 和 MrBeast 等知名创作者的内容,以及《纽约时报》、BBC和ABC 新闻等主要出版商的内容。根据 Proof News 的最新调查,苹果、英伟达、Anthropic和其他大型科技公司使用了该数据集来训练其 AI 模型。
YouTube 首席执行官 Neal Mohan 此前曾表示:“使用 YouTube 数据训练 AI 模型的公司将违反平台的服务条款。”
知名 YouTuber Marques Brownlee 在社交媒体上发帖称:“苹果从多家公司为其 AI 获取数据。其中一家公司从 YouTube 视频中抓取了大量数据/字幕,包括我的。苹果在技术上避免了‘过错’,因为他们不是抓取方。但这个问题将在很长一段时间内持续演变。”
目前,苹果、英伟达、Anthropic 和 EleutherAI 尚未对此事置评。
另请阅读:华平投资支持的 PDG 瞄准亚洲 AI 驱动数据中心扩张
为什么重要
AI 模型的快速增长虽然有望塑造未来,但也带来了许多未解决的法律问题。最近对科技巨头的指控加剧了这些担忧。自诞生以来,AI 技术一直与不透明的训练数据库问题作斗争。如果 AI 训练数据未能适当获取,存在侵犯版权或数据库权利的风险。
然而,涉事公司是否会面临法律指控仍不确定。The Verge对律师、分析师和 AI 初创公司员工进行了调查,结果显示对此问题意见不一。
“我看到双方都有人对自己的立场极具信心,但事实上没人知道,”AI 观察者 Baio 说。
尽管受影响的公司或个人声称这是非法的,但他们的要求不太可能得到满足,被指控公司缺乏回应就是证明。
如果这个问题仍然悬而未决,总有一天会阻碍 AI 技术的持续发展。

