- 近期,一档采访史蒂夫·乔布斯的节目在广播中播出,或者至少,是他声音的再生,展示了 AI 配音技术的进步。
- AI 配音可以降低风险、成本,提高公司生产力,但它也引发了伦理和监管方面的争议与挑战。
- 配音的未来需要在技术与人类表演的精髓之间找到平衡。
人工智能与娱乐行业传统实践的交汇,引发了关于配音未来的辩论。然而,关于配音买断制度以及 AI 传达人类语调和情感能力的担忧依然存在。
AI 配音已进入市场
在全球范围内,不可否认的是,AI 配音已开始在市场上掀起波澜,许多公司甚至获得了可观的利润。行业内的一些顶级供应商包括 PlayHT、Captions 和 Rask AI。

PlayHT
今年,一档名为Podcast.ai的播客的首集节目中,播客主持人与苹果公司创始人史蒂夫·乔布斯讨论了他的大学时光、对计算机的看法、工作状况以及信仰等话题。
这档令乔布斯“起死回生”的播客,其声音和语调与乔布斯本人非常相似。据 PlayHT 表示,他们正在开发声音克隆技术,使个人和企业能够大规模创建音频内容。11 月 23 日,他们发布了名为On-Premise的语音 AI 模型,声称这是目前所有模型中速度最快、安全性最高且无限可用的语音生成工具。
PlayHT 创始人 Mahmoud Felfel 表示:“我们构建 PlayHT 作为生成式语音和声音克隆的平台。我们从构建最复杂的语音编辑器开始,帮助客户完全掌控他们生成的声音。然后,我们投资构建了首个用于语音合成和声音克隆的大型语言模型,并在声音质量和表现力方面取得了SOTA 成果。”
Captions
总部位于纽约的视频初创公司 Captions,为社交媒体内容创作者提供文字字幕、编辑和特效等服务。它于 2022 年扩展到翻译服务,并于 2023 年推出 AI 配音。凭借 AI 眼神接触和自动生成字幕等创新功能,Captions 拥有超过 10 万日活用户和 500 万创作者。尽管 AI 训练成本高昂,但该公司已实现盈利,并筹集了 4000 万美元资金。其最新创新产品Lipdub已被 ESPN 和 Twitch 创始人 Justin Kan 等主要实体采用。
Rask AI
Rask AI 是一款基于人工智能的视频和音频本地化工具,可将内容翻译成 130 多种语言,并提供声音克隆功能。它于 2023 年 3 月 20 日推出,4 月初在 Product Hunt 上荣获“每日最佳产品”,目前全球用户已超过 75 万。重点项目包括将法国电影《阿卡姆传奇》配音成葡萄牙语以便在巴西发行。此外,PodcastOne 正在使用 Rask AI 将其播客库翻译成西班牙语,从 Barbara Schroeder 的首档播客《Bad Bad Thing》开始。
通过翻译、文化适应、配音或录制等流程,Rask AI 可极大地简化视频内容本地化的过程,帮助公司和创作者高效、低成本地制作本地化视频。
另请阅读:从博杰普尔语到祖鲁语:亚马逊 Transcribe 现可识别 100 种语言
当前使用的技术
确实,AI 在配音领域的应用取得了重大进展,目前主要集中在两项主要技术上。几乎所有公司的 AI 语音模型都建立在这两项基础技术的研发之上。
一项是语音转换(VC)技术,它使 AI 能够通过调整音色、音调、语言等属性将文本转换为音频,同时保持原始内容,但无法适应多人交互或情感表达。这项技术类似于朗读,适用于仅需改变声音特征而保留原始内容的场景。
另一项是文本转语音(TTS)技术,它能够将书面文本转换为交互式语音。近年来,TTS 技术已能展示情感表达,使 AI 配音更加“人性化”,不再给人一种冰冷的机械感。
对传统配音实践的影响

1. 提高效率,降低成本
“通过利用 Rask AI,企业可以加速本地化进程,触及更广泛的受众,并增强其在全球市场的品牌认知度。”
Maria Chmir,Rask AI 首席执行官兼创始人
将 AI 融入配音可提高工作效率并降低制作成本,因为它能快速分析声纹以生成准确且符合语境的台词。这使得配音速度更快,并能创建多种语言版本,从而颠覆了制作公司对配音项目的处理方式。
才华横溢的演员Rikki Lee Travolta表示:“AI 在配音中最大的优势是成本。工会的配音演员按小时计费,此外还要加上工程师和录音室租赁的费用。而使用 AI,可以省去大部分甚至全部这些成本。”
Maria Chmir,Rask AI 首席执行官兼创始人,也声称 AI 是内容或企业出海的便捷工具。“通过利用 Rask AI,企业可以加速本地化进程,触及更广泛的受众,并增强其在全球市场的品牌认知度。”
2. 降低风险
AI 配音可以减轻大型企业的风险,米哈游的游戏《未定事件簿》就证明了这一点。当一位声优卷入纠纷时,米哈游利用深度合成技术从先前录音中学习并复制该演员的声音,从而实现自动配音。这一方案保持了游戏体验,无需更换演员或让角色失声。
3. 促进海外传播
配音内容中唇动与声音不同步是一个主要缺点,可能导致了它在英语国家不受欢迎。AI 可用于修改角色的唇部动作,使本地化内容更真实、更具吸引力。Chmir 在采访中表示:“通过利用 Rask AI,企业可以加速本地化进程,触及更广泛的受众,并增强其在全球市场的品牌认知度。”
4. 对 AI 取代人类的恐慌
“现在我们和 COVID-19 到来时一样害怕;我们不知道会发生什么。”
Daniel Hamvas,配音演员
人工智能在配音领域的应用不仅限于单一行业,各公司正在探索使用 AI 合成各种台词的可能性。传统上,影视和游戏公司会提前数月选择合适的声优,提供剧本并进行线下录制。成熟的声优按字数或录制时长获得报酬。然而,人工智能的出现带来了新变局。一些公司倾向于录制声优的声音,然后使用 AI 合成额外的台词,而其他公司甚至试图通过一次性买断声优声音的方式,打造公司独有的声音 IP。
这引发了对配音行业未来的质疑。著名配音演员 Daniel Hamvas 多年来为匈牙利配音内容中的众多角色配音,现在是匈牙利配音演员工会的领导人。他站在斗争最前线,激烈反对使用 AI 配音,以保护那些生计受到自动化威胁的专业人士。Hamvas 表达了他们的担忧:“现在我们和 COVID-19 到来时一样害怕;我们不知道会发生什么。”
挑战与争议
“再多的算法也无法创造出人类表演之所以完美的那些不完美之处。AI 可以模仿得很好,但模仿猫王的人永远成不了猫王。”
Rikki Lee Travolta,才华横溢的演员
尽管 AI 取得了进步,但它可能难以捕捉到人类演员为表演带来的深度和真实性。配音失去人情味的风险引发了人们对观众参与度和整体观看体验的担忧。
非营利 AI 组织CAPTRS的创始人Phil Siegel断言:“模型能够识别声音的特征音调;仅需极少数据就能做到,但如果你给它输入一个人的几句话,它可能就能生成大多数人无法与真人区分的声音。”
Travolta 也强调 AI 终究无法取代人类。“我预计 AI 会继续进步,但它永远不会成为人类。再多的算法也无法创造出人类表演之所以完美的那些不完美之处。AI 可以模仿得很好,但模仿猫王的人永远成不了猫王。”
声音版权保护
“除了上述法律和伦理问题之外,最重要的规定是,人们正形成共识,即 AI 生成的内容需要标识为 AI 生成,包括使用了哪些工具以及哪些‘原料’输入。”
Phil Siegel,AI 非营利组织CAPTRS创始人
AI 配音如何应对建模中潜在的伦理和法律问题仍是个谜。目前大多数公司确保语音采集的合规性和安全性。机器只能复现由人亲自朗读的文本,这还需要获得该人的授权。Siegel 还强调了水印的重要性:“除了上述法律和伦理问题之外,最重要的规定是,人们正形成共识,即 AI 生成的内容需要标识为 AI 生成,包括使用了哪些工具以及哪些‘原料’输入。因此,用 Speechify 配音泰勒·斯威夫特的声音会带有特定的识别水印。”
不幸的是,目前在 AI 声音版权领域的法律保护仍存在空白。如何界定声音侵权同样非常模糊。一些声音从业者现已意识到声音的价值,但使用第三方软件的普通大众是否了解声音授权背后的风险?
“因为目前大多数立法实际上基于非理性恐惧,而我们是一个首先需要自我监管的行业。”
Maria Chmir,Rask AI 首席执行官兼创始人
作为 AI 配音产品的开发者,Chmir 也表达了态度:“我们致力于与媒体公司、政府和 AI 研究机构合作,提高认识并围绕 AI 内容真实性建立伦理标准。”因此我们仍处于起步阶段,对正在发生的事情保持开放态度至关重要。因为目前大多数立法实际上基于非理性恐惧,而我们是一个首先需要自我监管的行业。我们的产品让 AI 技术惠及创作者,同时限制了不负责任使用的可能性。
配音中的人为因素

配音不仅仅是一个技术过程,它是一种艺术形式,依赖于演员有效传达情感和细微差别的能力。人类演员带来独特的经验深度和文化理解,使他们能适应不同角色和场景的细微差别。尽管 AI 能模仿人类的语音模式,但问题仍然是它能否真正复制人类演员与观众建立的情感深度和连接。
配音的未来:寻找平衡

随着行业将 AI 融入配音实践,在技术创新与保持人类表演精髓之间找到平衡变得至关重要。AI 与人类配音演员的合作可能提供一个中间地带,使 AI 的效率与人类演员的细腻表演相辅相成。这种混合方法不仅会加快配音流程,还能确保在追求效率的同时不牺牲情感共鸣和文化差异。
“某些专家认为 AI 配音可能会取代行业中的所有人,尽管这远非现实。将当前阶段称为‘共同创作’更为准确,”Chmir 也如此表示。

