1987WEB视界-分享互联网热点话题和事件

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

一窥语音AIGC的联想技术方案

1987web2023-05-26人工智能AI176

5月23日,由联想研究院牵头编写的《联想智能语音技术白皮书》重磅发布,公布了在复杂场景语音识别、声纹唤醒等方面的关键技术。同时,语音AIGC,即语音合成,已广泛应用于联想设备和智能解决方案中。

白皮书指出,未来多模语音交互将达到类人水平。即综合利用语音、文本和图像,让机器更好地理解我在哪里、谁在和我说、我要和谁说和我该说什么。同时,通过个性化语音技术,合成有情感的语音或特定人的声音,可以让用户有与真人对话的亲切自然感,实现千人千面的产品特性。

1

研发布局

联想智能语音技术研发布局包括核心技术引擎层、平台层和应用层,结合自身硬件和设备优势,打造了从底层硬件到核心技术算法,再到上层产品和应用,从技术到用户的全链覆盖型企业生态。

联想的语音技术研发涵盖了近场语音识别、远场语音识别等多个方向。此外,为了满足更多垂直应用,联想还在连续长语音识别、电话语音识别等方向持续投入。

目前,联想自研语音技术已全线赋能联想的智能设备,包括 PC 、平板、 手机和 IOT 设备等。所打造的联想乐语音助手已预装在了联想中国区出货的所有品牌的手机和平板。此外,联想语音技术融入了联想的行业智能化方案,正在助力诸多行业的智能化转型。

如今,大模型技术带来了新的一波AI浪潮。在语音识别方向,除基于大规模语音数据的X-former建模外,联想也正在多任务学习,自监督、半监督学习等方面展开探索。语音的AIGC,即语音合成,已广泛应用于联想设备和赋能公司内外部客户的智能解决方案中。同时,联想也展开了文本语音驱动数字人表情口型方面的研究,助力智能语音交互的多模态升级。

联想智能语音技术研发布局

2

语音关键技术

联想全栈语音核心技术涵盖声学前端、语音唤醒、语音识别、语音合成、副语言语音属性识别、说话人日志、发音评测等几大方向,积累了很多业界领先的技术成果。

联想智能语音核心技术模块组成

比如,在复杂场景语音识别技术方面,联想将语音增强、端点检测以及基于深度神经网络的声学模型、语言模型等模块进行联合优化,提升在复杂场景下的语音识别性能,在2019年Interspeech VOiCES国际远场语音识别挑战赛固定系统任务中获得第二名;在ISCSLP2022 国际智能座舱语音识别挑战赛中自研的复杂场景车载语音识别系统获得第三名。为提升复杂场景下的识别性能模型需要具备一定的复杂度,但在人机交互应用中语音识别往往要做到流式,即一边说话一边快速输出文字。联想自研的端到端语音识别系统,通过采用Transformer、Conformer、Squeezeformer、Zipformer等先进的网络结构,实现了基于共享编码器和附加编码器的双向解码策略,在保证识别准确率的同时,在首字延时、尾字延时和解码效率等指标上给用户提供最佳的使用体验。

此外,声纹唤醒技术是实现个性化人机交互体验的关键技术之一,通常需要运行在设备端,但设备端的算力和存储能力往往无法支持复杂的算法或模型,降低了唤醒准确率。为了实现PC关机和待机状态下的声纹唤醒功能,联想首次提出了面向轻量级应用的非对称注册-确认声纹识别技术,与联想的智能硬件LA2智能嵌入式控制器联合优化,实现了在性能、延时、功耗各方面均达到最佳的用户体验。非对称注册-确认技术,指的是说话人确认系统包含大、小尺度两个模型,在注册阶段使用准确率更高但计算资源消耗较大的大尺度模型运行在CPU上,在用户确认过程中,使用小尺度模型用于身份验证,而大、小两个模型在训练阶段通过联合优化的训练策略来保证特征的空间一致性。

基于这些自研核心技术,联想研究院开发了智能语音服务平台。该平台接口简单、移植性好,以SaaS方式为用户提供个性化的语音识别、语音合成、声纹识别、语义理解等能力。不仅支持联想内部各种产品和设备上的语音应用,也赋能不同垂直领域的智能化方案,如智能客服、智能会议、智慧教育等。

联想智能语音服务平台应用示例

3

智能语音产品和解决方案

联想依托设备和行业解决方案上的优势,通过多技术组合打造自研的语音技术解决方案。联想智能语音产品和解决方案主要聚焦在消费业务、服务业务、商用业务等几大领域,包括手机、平板、PC、IOT产品等设备上的智能语音应用;语音助手和声纹唤醒AI芯片;联想电话语音客服系统;智能会议系统;智慧教育领域的英语口语听说平台等解决方案。

联想语音技术应用全景图

在消费业务方面,2021年9月联想发布了LA2智能嵌入式控制器,这是一款为PC打造的专用硬件,以运行智能算法、实现智能功能为目的。在这款控制器上通过软硬件联合优化,实现了个人电脑在关机和待机状态下采用声纹进行识别和唤醒的功能,为全球首创,唤醒率超过95%,功耗降低50%以上。

在服务业务方面,联想魔方智慧客服系统接入语音识别、语音合成、声纹识别、性别识别、情绪识别等基础引擎,拥有智能机器人、在线客服、呼叫中心、工单系统、智能运营、智能质检六大功能板块,能够覆盖售前、售中、售后的全场景客户服务需求,满足复杂的业务场景,为客户提供完整的行业智慧客服解决方案。

联想智能客服系统逻辑架构图

在商用业务方面,针对企业用户混合办公场景的应用需求,联想thinkplus打造了以会议平板为核心,技术、设备和服务一体化的混合办公场景智能解决方案。与业界主流智能语音识别产品相比,联想智能会议语音识别系统具有多个技术优势,例如支持汉语普通话和中英文混合两种场景,支持按照用户需求定制专业术语库、TB级别的语言模型建模,高达97%的语音识别准确率,以及支持扩展声纹识别等。

联想thinkplus混合办公场景

在智慧教育方面,联想基于自研的英语口语发音评估技术,推出了英语口语听说平台,赋能联想智慧教育解决方案,助力K12教育英语口语考试和训练。方案已落地北京第二十中学、山东邹城第六中学等学校,助力学生进行英语模拟考试、教师实现AI教学。

联想英语听说教学模考训练系统

4

未来展望

2013年,联想发布了支持引擎自由插拔的第一代自适应语音平台,支持各类设备上的语音应用。2017年,联想推出了第二代语音平台,它能够基于联想自研核心技术输出语音识别、语音合成等SaaS服务,实现了语音识别全场景覆盖。除了设备端,联想也为数个垂直领域提供语音能力和服务,涉及智能客服、智慧教育、智能车载应用等多个行业。

联想语音技术研发历程

语音作为最自然的交互方式,承载着重要信息。随着AI技术和硬件基础设施的进步,语音技术的基础性能必将持续增强,加速其在更多领域的商业化应用。

其次,语音设备生态将走向开放互联。在智能家居、办公、车载等场景中,语音交互会基于多设备协同,语音指令能跨设备自由流转。

此外,离线语音技术将进一步提升语音产品渗透率。考虑到用户隐私、网络稳定性、响应速度等因素,设备端 、边缘侧的离线语音处理能力成为人机交互过程中不可或缺的部分。尤其是智能家居、车载以及其他高安全级别场景,会对设备端及边缘侧的离线语音处理能力提出更高要求。

展望未来,随着AI芯片和语音算法能力不断提高,语音交互必将覆盖全场景应用,助力联想以服务为导向的智能化转型与行业的发展。