- BREIN,一家荷兰版权执法组织,移除了一份用于训练 AI 模型的语言数据集。
- Danish Rights Alliance 也移除了未经许可用于 AI 模型训练的版权材料。
本台观点
正如社会中一切事物都应受到监管一样,AI 模型的训练需要来自合法渠道的正式、合法、专业且经授权的内容。BREIN 的举措凸显了在 AI 开发中尊重版权法的重要性,以及 AI 模型训练透明度的必要性。
——Lily Yang,BTW 记者
发生了什么
一家荷兰版权保护组织,BREIN,下架了一个用于训练 AI 模型的大规模语言数据集,此前发现该数据集包含了来自书籍、新闻网站以及电影和电视节目字幕的未经授权内容。
该数据集包含荷兰语信息,是在未经许可的情况下收集的。BREIN 的负责人 Bastiaan van Ramshorst 表示,目前尚不清楚 AI 公司是否已使用该数据集,以及使用到了何种程度。
他指出,European Union的 AI 法案将要求 AI 公司披露用于训练模型的数据集。例如,Danish Rights Alliance 去年要求一个名为“Books3”的大数据集下架。同样,在美国,AI 公司(如Microsoft)也面临着因使用版权材料训练 AI 模型而引发的法律挑战。
相关阅读:解析:电信监管机构如何打击垃圾与诈骗电话
相关阅读:电信诈骗分子瞄准年轻一代
为何重要
BREIN 的行动、European Union 的 AI 法案,以及 Microsoft 面临的挑战,突显了围绕 AI 模型开发中版权侵权的持续争论。
BREIN 下架该大型语言数据集,强调了尊重知识产权的重要性。AI 公司必须确保其拥有适当的授权,才能使用来自受版权保护来源的数据来训练模型。
即将实施的 European Union AI 法案,以及美国 AI 公司面临的法律挑战,都强调了 AI 开发中透明度和问责制的必要性。随着 AI 不断进步,在创新与版权保护之间取得平衡至关重要。

