1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

认知智能探索应用——虚拟数字人详解

1987web2023-10-08人工智能AI200

关注华院计算,后续更多精彩内容

以下内容为沈伟林博士演讲内容节选

导读:

关于数字人的发展层次,我们认为虚拟数字人发展有三重境界,第一重能说会动,数字人具有特定的外貌,可以用语言面部表情和肢体动作进行表达。第二层,数字人是有血有肉的个体,它有独特的性格特征,并且具有情感表达的能力。第三层数字人具备了人类独有的能力,能思考能意识到自己的行为,具备了感知其内部事件的能力,这三重境界也代表着人工智能的三个发展阶段。

华院计算关于认知智能方面的一些探索。虚拟数字人是运用三维建模、人工智能等技术对人类的外观表情行为进行模拟,产生的一个虚拟的形象。随着技术的发展,虚拟数字人已经具备了逼真的外观,并且赋有了情感,数字人也开始在一些特定场合得到了一些应用。

关于虚拟数字人的发展层次,我们认为虚拟数字人发展有三重境界:第一重能说会动,数字人具有特定的外貌,可以用语言面部表情和肢体动作进行表达;第二层,虚拟数字人是有血有肉的有血有肉的个体,它有独特的性格特征,并且具有情感表达的能力;第三层虚拟数字人具备了人类独有的能力,能思考能意识到自己的行为,具备了感知其内部事件的能力。这三重境界也代表着人工智能的三个发展阶段。

第一重境界:行为与动作

第一重境界能说会动:关于怎么让数字人动起来,大致有以下几种方式。第一种方式预先编制好的动作:路径事先录制好人物的动作,通过回放来驱动数字人的动作,这种方式的动作非常逼真。但是因为是录制好的动作,所以动作是比较固定的,而且动作的种类是有限的。

第二种通过真人的动作捕捉:通过捕捉真人的运动轨迹来驱动虚拟人,这种方式可以产生与真人一样的运动轨迹,但是这种方式的话离不开真人的背后的一个操作。

第三种基于文字、语音的动作驱动:这是一种更加智能的驱动方式。

观看更多
正在加载
    正在加载

    视频加载失败,请刷新页面再试

    刷新

    下图是我们使用的语音驱动动作的模型,一共包含两个子模型,语音首先进入到Voice2Pose模型,这个模型的功能是将语音转化为人物的动作骨架,接着动作骨架进入到第二个模型,Post2Imagine模型,这个模型的作用是将骨架合成为最终的人物动作的图片,这是语音生成骨架模型的一个流程图,语音首先被转化为Mel频谱图,接着被送入到一个神经网络编码器当中,神经网络编码器对这段语音进行特征提取与编码,随后编码后的语音信息经过一个U-Net(图像语义分割领域里面常用的比较有效的一个结构),经过一定量的数据进行训练,最后整个模型的话它自动会学习到语音与动作的一个对应的关系,从而整个模型可以通过一段语音生成这段语音对应的一个动作的骨架的序列。

    效果如下:

    观看更多
    正在加载
      正在加载

      视频加载失败,请刷新页面再试

      刷新

      有了人物的动作骨架,现接下来我们就需要有一个能将骨架生成为图像的一个模型,这就需要用到这里的Pose2Image模型。

      这个模型里面首先选取目标人物的一张图片,然后将这张图片及这张图片里面的骨架动作输入到一个U-Net模型里面,U-Net模型会输出两个结果,第一个结果是右上面的分支的作用是模型学到了如何将人物从背景里面抠出来,并且将人身后的背景进行补全。

      接下来第二个分支,将我们想要学习的一个想要迁移的新动作的一个骨架图输入到模型当中,模型将会学习到这个人的新动作图像,最终我们将两个模型的结果图片合成起来,最终形成了一张这个目标人的一个新动作的图像。

      最终实现了通过语音对虚拟人物的一个驱动。

      (迁移模型的一个效果展示)

      第二境界:性格与情绪系统

      合成虚拟数字人的第二重境界是性格与情绪,我们能赋予虚拟数字人性格与情感,使其呈现独特的个性化行为。

      用户首先发出意图,然后进入到交互模块,交互模块中首先经过自然语言理解模块对意图进行理解,随后进入知识库,知识库里面我们会搜寻意图相关的知识,同时形成意图的一个回答。接着进入个性化模块,在个性化模块我们将把个性化的内容添加到这个回答当中,然后把回答个性化的回答输入到前面介绍的动作合成模块,最终生成个性化的,包括情感和表情的个性化的一个动作视频,最后传给用户。

      关于个性化模块,华院有长期的研究,我们用了各种方法对人类的行为进行了多方面的一个建模,形成了一个包含有5000多种不同行为特征的概率性知识图谱。在这个知识图谱中,每一个节点代表一种行为,行为通过边与其他的行为之间进行联系,每条边上有一个数值,这个数值代表着行为之间的联系的紧密程度,1代表这两个行为高度相关,0代表这两个行为之间没有关系。

      我们可以通过随便一个节点开始,比如说爱吃零食,点击这个节点会自动展开与爱吃零食最相关的一些行为特征。模型告诉我们爱吃的零食的人更可能会得手机依赖症,点击手机依赖症以后,继续能展开与手机依赖症最相关的行为特征。比如手机依赖症的人,他更喜欢抽烟会比较多、情绪不太稳定,这些具体的数值的结果的话,也是我们通过不同的模型不同的方法获取到的,所以我们也能感受到,其实也是比较符合我们人类的认知的,然后我们可以通过不停的这么点击下去,最终从而形成了一张相关行为的一张图谱。

      我们对行为进行了一个向量化的表示,可以进行一些聚类分析,这是一个聚类的结果,因为聚类了以后,其实代表就是一类的性格特征,放在虚拟人的背景下,就是角色的人格。比如下图最上面的蓝色的这一类,喜欢吃零食、睡眠缺乏、投资从众这些行为特征聚合到了一起,从人格心理学会告诉我们拥有这些特征的话,其实代表一种神经质高、情绪不稳定的一种性格。

      左边的绿色的聚类的群,我们发现肥胖、冲动、危险驾驶聚到了一起,我们也可以总结出,这其实代表着一一类低自律的一个性格特征。通过行为概率知识图谱,我们就可以在交互当中对虚拟数字人的行为模式进行控制,从而赋予虚拟数字人一致的内在性格。同时在交互当中,虚拟数字人也可以感知用户的偏好,从而更懂得用户。

      第三重境界:思想与意识

      前两重境界的话都是虚拟数字人或者智能体对外部世界的感知,或者是与外部世界之间的交互。第三重境界是虚拟数字人开始关注自身的内在世界,它开始具备有内在感知的一个能力,这里的内在感知包括动机、价值观、需求、态度、意识等等方面。虚拟数字人的内部世界感知,我们借鉴了Blum教授的意识图灵机的理论研究,通过全局空间下的竞争广播等机制,我们模拟了虚拟数字人内部世界的一个模块的交互的作用,我们与Blum教授合作,尝试开发了意识图灵机的一些初步的功能。

      观看更多
      正在加载
        正在加载

        视频加载失败,请刷新页面再试

        刷新

        在上面这个视频中,在全局工作空间的框架下,智能体可以进行一些简单的对话理解,这还是非常初步的结果,关于意识智能的研究也是我们长期的一个探索的方向。我们相信不久的将来,虚拟数字人不仅会具有更加逼真的外观,还能有与我们一样的性格与情感,同时具有自我思考的能力,在人类创造与自己一模一样虚拟数字人的过程当中,一定会带来认知智能各方面技术的飞跃发展,同时也将会是我们人类自身自我认识加深的一个过程。关于我们人类自身的一些哲学问题,比如我们如何思考、意识的来源在哪、以及我们每个个体的独特性,一定也会有更好的答案。

        往期精彩

        ▼▼▼