- 根据 OpenAI 一篇分享该工具小规模测试结果的博客文章,一个名为“Voice Engine”的模型基本上可以基于 15 秒的音频样本复制某人的语音。
- OpenAI 在其博客文章中表示:“这些小规模部署有助于我们了解 Voice Engine 如何能在各个行业中用于善途,并为我们的方法、安全措施和思考提供信息。”
- OpenAI 已严格控制该工具,直到旨在阻止欺骗听众的虚假音频的安全措施到位。
OpenAI 开发了一个名为 Voice Engine 的文本转语音生成平台,该平台基于某人 15 秒的声音片段创建合成语音。
语音克隆工具
人工智能生成的语音可以根据命令,以与说话者相同的语言或其他多种语言朗读文本提示。
OpenAI 在其博客文章中表示:“这些小规模部署有助于我们了解 Voice Engine 如何能在各个行业中用于善途,并为我们的方法、安全措施和思考提供信息。”
在 OpenAI 发布的这些样本中,您可以听到预先编写的叙述内容,以及为 GPT-4 编写的“实时、个性化回复”。
OpenAI 表示,他们于 2022 年底开始开发语音引擎,该技术已经为文本转语音 API 和 ChatGPT 的朗读功能提供了预设语音。
另请阅读:OpenAI 通过新闻合作伙伴拓展媒体关系以训练聊天机器人
安全问题
OpenAI 表示,他们正与美国及国际合作伙伴(来自政府、媒体、娱乐、教育、民间社会等领域)合作,以确保在开发过程中纳入他们的反馈意见。
虚假信息研究人员担心,在关键的选举年,由于语音克隆工具的普及(这些工具廉价、易用且难以追踪),AI 驱动的应用程序可能被大量滥用。
OpenAI 承认这些问题,并表示“鉴于合成语音可能被滥用,他们正采取谨慎且知情的方式推进更广泛的发行。”
几个月前,一名为乔·拜登的民主党竞争对手的总统竞选活动工作的政治顾问承认,自己是冒充美国领导人的自动电话事件的幕后黑手。
这起事件引起了专家的警觉,他们担心在 2024 年白宫竞选以及今年全球其他关键选举中,会出现大量 AI 驱动的深度伪造虚假信息。
OpenAI 表示:“我们实施了一套安全措施,包括水印以追踪 Voice Engine 生成的任何音频的来源,以及对其使用方式的主动监控。”

