Meta 发布 Voicebox AI 语音生成模型、仅需2秒声音样本就可让你说出6国语言，但因为太真实暂不开放

游研社 • 2023年9月29日 18:49 • 投稿

Meta 目前发布了 Voicebox AI 模型，相对于只能使用文字或图片回复的竞品模型，Voicebox AI 模型的优势主要如其名，能够生成用于回复的音频消息。

Voicebox 可以制作高质量的音频剪辑并编辑预先录制的音频，例如移除汽车喇叭或狗叫声的同时保留音频的内容和风格。该模型也是多语言的，仅需2秒声音样本，可以产生六种语言的语音。

未来像 Voicebox 这样的多用途生成 AI 模型可以为元宇宙中的虚拟助手和NPC角色提供自然的声音，也可以让视障人士听到朋友由文字传来转为语音的内容，AI会用他们的声音朗读这些文字信息。

可以实现六种任务

Meta表示，Voicebox具有多功能性，可以实现各种任务，包括：

上下文文字到语音合成：使用短至两秒的音频样本，Voicebox 可以匹配音频风格并将其用于文本到语音生成。

语音编辑和降噪：Voicebox 可以重新创建被噪音打断的部分语音或替换说错的词，而无需重新录制整个语音。例如，您可以识别被狗叫声打断的一段语音，将其裁剪，然后指示 Voicebox 重新生成该段内容。

跨语言风格转换：比方说某人以一段英语演讲的内容，Voicebox 可以生成他以不同语言演讲的内容。将来可以使用此功能来帮助人们以自然、真实的方式进行交流，即使他们不会说同一种语言。

Diverse speech sampling ：从不同的数据中学习后，Voicebox 可以生成更能代表人们在现实世界中使用上述六种语言的谈话方式的语音。

▲ Voicebox AI 模型的特色，图源 Meta

Meta 表示，Voicebox 可以为基于 AI 的虚拟助手或元宇宙中的 NPC 提供自然而真实的语音效果。而对于无障碍方面而言，Voicebox 也可以对声带受损的人群提供一定的协助作用。

不过，Meta表示Voicebox AI 模型目前仍处于研发阶段。 Meta表示，他们意识到这种人工智能技术在虚假伪造方面，可能会带来潜在危害，因此Meta目前正在努力找到一种有效的方式来区分真实语音和由Voicebox生成的音频，在找到解决方案前，暂时不会向公众公开提供。