AI语音生成新突破【MetaVoicebox】
OpenAI不open了,小扎的Meta却在开源的路上一路狂奔。最近又发布了一个强大的基于自家非自回归流匹配模型构建的Voicebox。
Voicebox是一个AI语音生成模型,它和图像和文本生成系统类似,它可以以多种风格生成输出,并且可以从零开始创建输出,也可以修改给定的样本。不同于创建图片或文本段落,Voicebox可以产生高质量的音频片段。该模型可以合成六种语言的语音,并进行噪音消除、内容编辑、风格转换和多样样本生成。
在Voicebox出现之前,生成式语音人工智能需要使用经过精心准备的训练数据来训练每个任务。Voicebox采用了一种新方法,仅从原始音频和相应的转录中学习。与自回归模型只能修改音频剪辑末尾不同,Voicebox可以修改给定样本的任何部分。
Voicebox基于一种称为Flow Matching的方法,该方法已被证明可以改善扩散模型。在零样本文本转语音方面,Voicebox在可理解性(5.9%对1.9%的词错误率)和音频相似性(0.580对0.681)方面优于当前最先进的英文模型VALL-E,而且速度快了多达20倍。
对于跨语言风格转换,Voicebox在将平均词错误率从10.9%降低到5.2%以及将音频相似性从0.335提高到0.481方面优于YourTTS。
现有语音合成器的主要局限是它们只能在为该任务专门准备的数据上进行训练。这些数据需要清洗和标记。生成成本很高,因此数量有限,并且生成的语音听起来单调。
Meta基于Flow Matching模型构建了Voicebox,它是Meta最新的非自回归生成模型,可以学习文本和语音之间高度非确定性的映射关系。非确定性映射非常有用,因为它使Voicebox能够从各种各样的语音数据中学习,而无需对这些变化进行精确标记。这意味着Voicebox可以在更多样化和更大规模的数据上进行训练。
Voicebox在各种任务中表现出色,例如:
上下文文本到语音合成:只需两秒的音频样本作为输入,Voicebox可以匹配样本的音频风格并用于文本到语音生成。未来的项目可以在此基础上构建,为不能说话的人带来语音,或者允许人们自定义非玩家角色和虚拟助手使用的声音。
跨语言风格转换:给定一段语音样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本,Voicebox可以产生以该语言朗读文本的语音。这种能力非常令人兴奋,因为将来它可以用于帮助人们以自然、真实的方式进行交流,即使他们不讲相同的语言。
语音降噪和编辑:
Voicebox的上下文学习使其能够很好地生成语音,以便在音频录音中无缝编辑片段。它可以重新合成由于短时噪音导致损坏的语音部分,或者替换错误的单词,而无需重新录制整个语音。
一个人可以确定哪个原始语音段被噪音(比如狗叫)干扰,然后进行裁剪,并指示模型重新生成该段。这种能力将来可能被用于使音频清理和编辑像流行的图像编辑工具那样简单容易。
多样的语音采样:
通过从多样的实际数据中学习,Voicebox可以生成更贴近人们在现实世界中以及上述六种语言中的说话方式的语音。
将来,这种能力可以用于生成合成数据,以更好地训练语音助手模型。我们的结果表明,使用Voicebox生成的合成语音进行训练的语音识别模型几乎可以与使用真实语音进行训练的模型一样表现出色,误差率只降低了1%,而使用先前的文本到语音模型生成的合成语音则会导致45%到70%的误差率下降。
作为第一个具备任务泛化能力的多功能高效模型,我们相信Voicebox可能开启生成式语音人工智能的新时代。
Voicebox代表着生成AI研究的重要进步。其他具有任务泛化能力的可扩展生成AI模型已经引起了人们对文本、图像和视频生成在各种任务中的潜在应用的兴趣。
在这之前,Meta还有一个文本生成音乐的模型--MusicGen,也挺好玩的,这是我用一句话生成的音乐!请欣赏:
感兴趣的可以去试一下在线文本生成音乐的乐趣。
地址:https://huggingface.co/spaces/facebook/MusicGen
-
上一篇
是不是还下载过虚拟角色AI聊天应用character
现在你可以在一个APP内把这些全都免费玩个够,这款无敌好玩又好用的AI语聊应用就是Ainder。移动应用Ainder,集成了openAI,Bark、Character AI、微软语音等多种领先的人工智能技术,实现了与各种AI角色的自然语音交互,顺滑体验与多个AI角色畅聊,学习提升,精神陪伴,可以释放你的无限想象~
咱们来看看它能实现什么,打开AinDer.会看到AI朋友广场,这里有各种语言老师
还有医生
心理学家
佛陀
占星师
免费!AI语音聊天上线,英语口语练习神器,同AI一起写小说,玩游戏,虚拟恋爱,百种虚拟角色选择
各种AI聊天工具你肯定玩过了,
- 下一篇
李秀林从中国科学院博士毕业后,先后在松下、百度、滴滴任职,从事10余年语音相关技术研发和相关的学术研究,申请了包括文本处理,韵律预测,声学模型,拼接系统,模型自适应,神经网络应用,情感合成等三十余项语音技术相关专利。
在百度工作期间,李秀林博士带领团队针对小说内容丰富,感情起伏大,需要更强的情感表达的特点,利用基于篇章的、情感更丰富的、更大规模的语音数据(数百小时),通过高精度自动预处理技术对数据进行处理和建模,实现了具有情感表达能力的高质量合成系统,并于2015年10月底上线百度的小说频道,取得了非常好的用户反馈。
这一突破性研发成果引起了百度CEO李彦宏及多位高管的注意,他们为此大力赞扬并推广语音合成技术。2016年,这一项目折桂百度的最高奖项。百度最高奖是迄今为止国内互联网企业中给予普通员工的最高奖励。
从百度出来后,2016年至2018年,李秀林担任滴滴研究院语音团队负责人兼首席算法工程师。到了2018年,标贝科技向他抛来了橄榄枝。今年3月,李秀林决定加入标贝科技,出任联合创始人兼CTO。
谈其为什么加入标贝科技时,李秀林表示,标贝科技拥有专业标注团队和大量自有数据,其数据加工能力已达到业内领先水平,从中他看到了在创业公司做语音合成技术的优势和机遇。而自己在语音合成行业深厚的技术积累和经验,也可为标贝科技的发展加持砝码。两者相辅相成,相得益彰。
近千小时的语音数据积淀,领跑同行
标贝科技认为,要想让机器的声音更贴近人类,需要从音库质量入手,录制足够多的精准声音数据,从源头把控数据质量。
今年年初,标贝科技推出了TTS评测系统,并针对语音合成系统提供了一整套TTS前端解决方案。根据标贝科技相关负责人介绍,评测系统主要分为两大模块:合成缺陷度评测和合成自然度评测。在合成缺陷度方面,主要体现为韵律、多音字、数字符号及分词词性四个模块,而在合成自然度评测则包括ABX和MOS评测。这一系列的测评,保障了数据处理的精准度,成为语音数据质量的护城河。
除此之外,为了采集合适的人声作为语料,标贝科技的数据专家需要和发声人做大量的前期沟通,指导发声人的说话风格、语调和停顿方式等,并在录音环境进行监听,确保发音人的风格一致。
传统的语音语料数据处理需要人工进行标注,标贝科技则利用深度学习技术,通过计算机程序进行预处理,之后再由人工进行校正,极大缩短了处理时间。
在定制型音库方面,标贝科技已成功为用户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男声音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等,音库还在不断丰富和积累中。
同时标贝科技还提供自有音库,中文男女声,美语男女声,儿童,粤语,台普、日语、韩语等及个性化音库,广大客户现已能直接使用整体解决方案。
在李秀林加入前,标贝专注于数据服务,凭借在数据加工处理方面的优势,致力于为客户提供快速、准确的专业数据服务,帮助客户盘活各类大数据资源,充分挖掘海量数据中有价值的信息。而现在,李秀林希望和标贝一道完成一次转型——从数据公司转为技术公司,为企业用户提供更垂直的合成服务。
首创声音超市,为产品发力,赋予前沿发展新形态
眼下,在AI领域,声音合成因其多元化的需求正成为不可忽视的红利,科技巨头、初创公司纷纷从不同维度布局语音入口相关产业链。
在B端,苹果,谷歌,微软,百度等行业纷纷开始研发的智能语音技术。在C端,个人虚拟助手和智能音响等智能家居方面,竞争也很激烈。
作为曾经的专业数据公司,标贝科技牵手具有深厚AI语音合成技术背景的李秀林,两者结合往往承载着转型升级的艰巨任务。那么,李秀林究竟具体要做什么呢?
打造一家AI语音超市,精准对焦各种场景应用李秀林回答。