• OpenAI 推迟广泛发布语音引擎(Voice Engine),这是一款文本转语音 AI,以解决伦理问题和潜在的滥用风险。
  • 该技术承诺提供阅读辅助和全球覆盖,但带来包括冒充和安全漏洞在内的风险。
  • OpenAI 为语音引擎的使用实施了严格条款,包括同意要求和 AI 生成语音的披露。

OpenAI 发布语音引擎,这是一种能从短音频片段中克隆人声的 AI 模型,但由于伦理和社会担忧推迟了全面发布。

语音引擎的潜力

语音合成技术的发展引人注目,特别是与 1978 年的 Speak & Spell 玩具相比,后者以其开创性的电子语音吸引了大批观众。如今,利用深度学习的 AI 模型不仅能生成栩栩如生的语音,还能利用短音频样本以惊人的准确度模仿现有声音。

另请阅读:OpenAI 的 GPT 商店未能达到预期。

在此背景下,OpenAI 最近发布语音引擎是向前迈出的重要一步。该 AI 模型可以根据短音频录音创建合成语音,公司已在其网站上分享了示例。用户可以输入文本,语音引擎随后将其转换为 AI 生成的语音输出。然而,OpenAI 决定不进行技术的广泛发布,最初计划本月为开发者推出试点计划。在进一步考量伦理方面后,公司暂时选择了收敛其雄心。

OpenAI 声明:“根据我们对 AI 安全的承诺和自愿准则,我们选择现阶段仅展示但不广泛发布这项技术。我们相信语音引擎的这次预览将展示其潜力,同时也强调了加强社会防御能力以应对日益具有说服力的生成模型所带来的挑战的重要性。”

另请阅读:OpenAI 扩大与新闻合作伙伴的媒体联系以训练聊天机器人

语音克隆技术并非新事物;自 2022 年以来已有众多 AI 语音合成模型,并且该技术在开源社区中很普遍,如 OpenVoice 和 XTTSv2 等。然而,OpenAI 让其语音技术广泛可用的前景意义重大,而该公司对此犹豫不决可以说是更显著的问题。

OpenAI 语音技术的潜在优势多种多样,包括以自然的声音提供阅读辅助,使全球内容创作保持原生口音,为非语言人士提供定制语音选项,以及帮助患者在语音受损后恢复声音。

伦理与安全影响

然而,任何人只需 15 秒录音就能克隆语音的可能性引发了对潜在滥用的担忧。即使没有全面发布语音引擎,语音克隆已经导致了问题,比如模仿亲人声音的电话诈骗和带有克隆乔·拜登等政客声音的自动拨号电话。

此外,研究人员和记者已经证明,语音克隆技术可以破坏带有语音认证的银行账户,导致美国参议院银行、住房和城市事务委员会主席、俄亥俄州参议员谢罗德·布朗询问各大银行为应对 AI 驱动的威胁所采取的安全措施。

认识到广泛传播可能带来的风险,OpenAI 正在实施一套规则来缓解这些问题。自去年以来,它一直在与选定的合作伙伴进行测试,例如 HeyGen,该合作伙伴使用该模型将说话者的声音翻译成其他语言,同时保留原始语音特征。

合作伙伴关系与预防措施

要使用语音引擎,合作伙伴必须遵守禁止“在未经同意或法律授权的情况下冒充任何个人或组织”的条款。他们还必须从被复制声音的个人那里获得知情同意,并且必须明确指出生成的声音是 AI 生成的。OpenAI 还在每个语音样本中嵌入水印,以便追踪其模型生成的任何声音。

目前,OpenAI 正在展示其技术,而没有完全承诺全面发布,后者可能引发社会动荡。相反,该公司正在重新校准其营销策略,以显示其是这项新兴技术的负责任管理者。