元宇宙-虚拟数字人概述
随着元宇宙概念的兴趣,一场元宇宙相关的概念、产品随之成为风口,特别是对AR/VR产业的影响巨大,那么虚拟数字人作为元宇宙中重要元素也被推向的风口中心,那么虚拟数字人是如何产生的?技术是如何实现的了?
什么是虚拟数字人
目前虚拟数字人从概念上主要为分为医学范畴的数字人和互联网范畴的数字人
医学版本虚拟数字人
医学版本的虚拟数字人主要通过采集人体数据,通过对尸体进行精细解剖断层扫描重建,虚拟化人体,大致需要经历**虚拟可视化人→虚拟物理人→虚拟生理人→虚拟智能人,**如下图所示
医学版本的虚拟数字人,用来做什么了?
- 虚拟扫描,影像设备扫描规划
- 虚拟手术规划(包含术前规划、术中和术后治疗)
- 虚实融合,物理世界操作手术机器人,对虚拟数字人进行手术
- 医学临床教学,特别是手术教学
- 研究新药,药物辐射研究
- 力学模拟(人体碰撞试验等)
市场情况如何?
该课题研究从2000年开始就在各大高校、医院开展了研究,但是从孵化企业暂时没有看到龙头的企业,随着元宇宙的大火,医学版本虚拟数字人会成为医学领域非常重要的课题继续大火
互联网技术的虚拟数字人
互联网技术实现的虚拟数字人主要通过三维重建技术、动作捕捉、语音合成、AI驱动等技术,在借助与AR/VR技术,虚拟出来人,这个人可以随意切换,随意想象,是根据人形外貌创造出来虚拟人,比如《你好星期六》中小漾(虚拟主持人),如下图所示
基于互联网技术虚拟数字人应用有哪些方面了?
- 虚拟主播
- 虚拟IP,在元宇宙中虚拟人身份替身
- 虚拟住持人
- 虚拟偶像
- 虚拟客服
- ......
虚拟数字人多元产业渗透
虚拟数字人市场估值与大厂入局
随着元宇宙大火,互联网技术的虚拟数字人成为了大厂,追逐主要赛道,如下图所示互联网模式的虚拟数字人规模逐步放大
大厂相继入局
互联网技术虚拟数字人涉及的技术方向
互联技术虚拟数字人演进路线主要分为:真人驱动和AI驱动(计算驱动),从表现形式上又分为2D虚拟数字人和3D虚拟数字人,其实目前大部分虚拟主持人、虚拟主播、虚拟偶像背后都有真人驱动作为支撑,实时渲染计算驱动虚拟数字人,技术实现太难,成本较高,**如何低成本构建一个虚拟数字人,作为UGC工具具有广泛的应用空间。**下图所示虚拟数字人演进路线
基础技术方向主要涉及到NLP(自然语言处理)、CV(视觉)和语音(ASR (语音识别)、TTS(语音合成))和图形学技术,需要较强的综合技术能力,目前国内除了大厂具备三个方向强大优势平台
下图大致总结一下,虚拟数字人大脑→问答/对话系统(端对端实现),情感识别技术(多模态算法实现内容理解);虚拟数字人听,说→ASR技术完成语音识别部分,TTS部分主要来合成wav
虚拟数字人动→实时渲染、实时驱动,wav2lips(唇动驱动),wav2motion(手势、表情、人体姿态)驱动
真人驱动技术细节
如下图所示真人驱动案例,目前真人驱动的成本也是较高的
真人驱动UGC工具,纯视觉方法,通过CV捕捉真人人体姿态、手势和表情动作 通驱动技术进行驱动
AI驱动(计算驱动)
计算型驱动,需要NLP、CV、语音和图形渲染四个方向紧密配合,如果需要做到实时渲染智能化程度,需要巨大的计算硬件成本(同事包含计算和图形渲染),目前AI驱动也只能做到唇动、脸部部分表情驱动,但是2D虚拟数字人(纸片人)技术实现更加容易一些
虚拟数字人开源项目调研
PaddlePaddle生态打造2D虚拟主持人(参考JiehangXie/PaddleBoBo)可以说是计算型驱动的案例了
支持2D、3D虚拟人驱动,可支持手势、姿态和表情三种联动,支持PC端和APP端,基于tensorflow社区打造,采用tensorflow.js完成,可以尝试使用单目摄像头完成驱动任务
感觉挺友好的UGC 真人驱动工具,官网好像没有软件的下载链接
参考文献
[1] 佚名. 高分辨数字人体三维结构数据集的构建与可视化[J]. 科学通报, 2008, 53(10):7.