您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

AI语音生成新突破【MetaVoicebox】

1987web2023-08-04人工智能AI248

OpenAI不open了，小扎的Meta却在开源的路上一路狂奔。最近又发布了一个强大的基于自家非自回归流匹配模型构建的Voicebox。

Voicebox是一个AI语音生成模型，它和图像和文本生成系统类似，它可以以多种风格生成输出，并且可以从零开始创建输出，也可以修改给定的样本。不同于创建图片或文本段落，Voicebox可以产生高质量的音频片段。该模型可以合成六种语言的语音，并进行噪音消除、内容编辑、风格转换和多样样本生成。

观看更多

正在加载

MOOSAI机器人

已同步到看一看写下你的评论

0/0

00:00/02:43

进度条，百分之0

播放

00:00

02:43

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

AI 语音生成新突破【Meta Voicebox】

转载

AI 语音生成新突破【Meta Voicebox】

MOOSAI机器人

已同步到看一看写下你的评论

视频详情

在Voicebox出现之前，生成式语音人工智能需要使用经过精心准备的训练数据来训练每个任务。Voicebox采用了一种新方法，仅从原始音频和相应的转录中学习。与自回归模型只能修改音频剪辑末尾不同，Voicebox可以修改给定样本的任何部分。

Voicebox基于一种称为Flow Matching的方法，该方法已被证明可以改善扩散模型。在零样本文本转语音方面，Voicebox在可理解性（5.9%对1.9%的词错误率）和音频相似性（0.580对0.681）方面优于当前最先进的英文模型VALL-E，而且速度快了多达20倍。

对于跨语言风格转换，Voicebox在将平均词错误率从10.9%降低到5.2%以及将音频相似性从0.335提高到0.481方面优于YourTTS。

现有语音合成器的主要局限是它们只能在为该任务专门准备的数据上进行训练。这些数据需要清洗和标记。生成成本很高，因此数量有限，并且生成的语音听起来单调。

Meta基于Flow Matching模型构建了Voicebox，它是Meta最新的非自回归生成模型，可以学习文本和语音之间高度非确定性的映射关系。非确定性映射非常有用，因为它使Voicebox能够从各种各样的语音数据中学习，而无需对这些变化进行精确标记。这意味着Voicebox可以在更多样化和更大规模的数据上进行训练。

Voicebox在各种任务中表现出色，例如：

上下文文本到语音合成：只需两秒的音频样本作为输入，Voicebox可以匹配样本的音频风格并用于文本到语音生成。未来的项目可以在此基础上构建，为不能说话的人带来语音，或者允许人们自定义非玩家角色和虚拟助手使用的声音。

跨语言风格转换：给定一段语音样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本，Voicebox可以产生以该语言朗读文本的语音。这种能力非常令人兴奋，因为将来它可以用于帮助人们以自然、真实的方式进行交流，即使他们不讲相同的语言。

观看更多

正在加载

视频加载失败，请刷新页面再试

刷新

视频详情

语音降噪和编辑：

Voicebox的上下文学习使其能够很好地生成语音，以便在音频录音中无缝编辑片段。它可以重新合成由于短时噪音导致损坏的语音部分，或者替换错误的单词，而无需重新录制整个语音。

一个人可以确定哪个原始语音段被噪音（比如狗叫）干扰，然后进行裁剪，并指示模型重新生成该段。这种能力将来可能被用于使音频清理和编辑像流行的图像编辑工具那样简单容易。

观看更多