OpenAI公布声音克隆技术:仅需15秒即可模仿任何说话者(图)

腾讯科技讯3月30日消息，据国外媒体报道，作为引领人工智能聊天机器人ChatGPT风潮的先锋，OpenAI似乎并不满足于仅仅颠覆文本、图像以及视频生成领域，而是进一步进军传统数字媒体的最后堡垒——音频领域，特别是语音克隆技术。

美国当地时间周五，OpenAI宣布推出全新的人工智能模型——“语音引擎（VoiceEngine）”。这款自2022年起便默默研发的模型，如今已成为OpenAI文本转语音API以及本月早些时候发布的新版ChatGPT语音与朗读功能提供支持。

事实证明，这款语音引擎还具备语音克隆的能力。其工作原理简单而高效：用户仅需通过电话或电脑麦克风录制一段15秒的声音片段，OpenAI的语音引擎便能生成“与其声音高度相似的自然语音”。此后，无论是何种文本，它都能以近乎完美的克隆声音进行朗读。

这项技术的问世，显然将对那些经常录制自己语音的人产生重大影响，包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。

与此同时，这一创新也给其他致力于语音克隆技术的公司带来了前所未有的压力，如ElevenLabs、Captions、Meta、WellSaidLabs、MyShell等资金雄厚的人工智能初创企业。

值得一提的是，OpenAI还特别强调了语音引擎在支持非语言个体方面的独特能力。它能为这些个体提供个性化的、非机械化的声音，为那些有语言障碍或学习需求的人提供治疗和教育方面的帮助。

OpenAI放开限制,无需注册即可使用ChatGPT(图)

苹果找上OpenAI 谈生成式AI用于新iPhone

曝谷歌AI最高主管想离职对超过OpenAI感到无望(图)

然而，目前这项技术仍存在一定的局限性。由于其文生视频AI模型Sora所展现的惊人效果，OpenAI目前并未向公众开放语音引擎的使用权限。相反，该公司仅与“一小群值得信赖的合作伙伴”分享了这一工具，并通过“小规模预览”的形式向他们展示了初步的成果。

OpenAI周五在其官网上发表了博客文章，名为“驾驭合成声音的挑战和机遇”，全文内容如下：

官方博客 https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

我们正在与一个精心挑选的小群体分享语音引擎预览的初步体验与反馈，这是一款用于创建个性化声音的先进模型。

OpenAI始终致力于开发安全且对社会有益的人工智能技术。今天，我们将分享关于“语音引擎”模型小规模预览的初步见解与成果。这款模型利用文本输入以及一段15秒的音频样本，即可生成与声音录制者极为相似的自然语音。

我们在2022年底便初步开发了语音引擎，并成功将其应用于文本转语音API以及ChatGPT的语音与朗读预设功能中。然而，鉴于合成语音可能带来的滥用风险，我们在进行更广泛发布时采取了极为审慎的态度。我们期待与各方展开深入的对话，共同探讨如何负责任地部署合成声音技术，以及社会应如何适应这些的新功能。基于这些对话及小规模测试所获得的宝贵反馈，我们将做出更为明智的决策。