打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

本文刊发于《现代电影技术》2023年第6期

专家点评

高质量的数字人合成与驱动技术是未来虚拟现实、影视制作、元宇宙等应用中的一项核心关键技术。能说、会动、可交互、具备自我学习能力的数字人是未来虚拟社区的重要参与者。高精度的形态、栩栩如生的表情和动作以及便捷有效的驱动技术是数字人生成的研究重点。《数字人生成和驱动技术研究》一文系统梳理了数字人的概念、发展历程及主流的数字人生成和驱动技术研究现状,并对数字人未来应用的趋势和挑战进行了展望。此外,本文设计并开发了一个基于照片的数字人生成和实时驱动框架,该方法以人物照片作为输入,能够构建写实风格的数字人,并可以驱动数字人丰富的表情变化。该研究具有较强的创新性和实用性,对于有关研究和技术人员具有重要的参考价值。随着人工智能技术和虚拟现实技术的发展,以及行业应用的持续推动,相信数字人合成及驱动技术在不久的将来会迎来发展的热潮,数字人的交互能力、自我学习能力也会得到极大提升。相信数字人技术将在虚拟主播、文旅、教育等许多场景发挥越来越重要的作用,期待更便捷、更智能的数字人合成与驱动技术在智能时代大放异彩。

——刘世光

教授

天津大学智能与计算学部博士生导师

作 者 简 介

杨文韬

广西美术出版社策划编辑,主要研究方向:艺术理论研究。

北京邮电大学大学本科在读,主要研究方向:虚拟现实。

刘沛卿

佟佳欣

北京邮电大学硕士研究生在读,主要研究方向:数字人驱动、三维重建。

北京邮电大学创意计算系主任,主要研究方向:三维视觉、机器学习。

柳杨

摘要

近年来,随着人工智能技术的不断发展,元宇宙开始受到学者们的广泛关注。数字人是元宇宙中最重要的参与者和创造者,是最具价值和影响力的数字资产,因此如何快速生成和驱动数字人是构建元宇宙的关键问题之一,同时数字人在影视动画领域也有重要的应用。本文首先系统梳理了数字人的概念、发展历程,重点探讨了目前主流的数字人生成和驱动技术。其次,本文提出一种基于照片的数字人生成和实时驱动架构,该架构只需要输入人物照片即可构建写实风格的数字人,并能实现数字人表情的稳定驱动。最后,本文展望了数字人未来应用的趋势和挑战。

关键词

数字人生成;数字人驱动;深度学习;人脸关键点

1引言

元宇宙的概念是科幻小说《雪崩》第一次提出的,如今我们描述的元宇宙是一个高度沉浸且永续发展的三维时空互联网,是与现实世界映射和交互的虚拟世界(图1)。

打开网易新闻 查看更多图片

图1 元宇宙应用行为逻辑①

近年来,网络技术、人工智能、虚拟现实等领域快速发展,元宇宙也从概念走向实践。目前元宇宙的发展受到了政府、企业和社会的广泛关注和支持,根据麦肯锡2022年6月发布的《元宇宙中的价值创造-虚拟世界的真实业务》报告,预计2030年全球元宇宙的市场规模有望高达5万亿美元。

在元宇宙中,数字人作为虚拟人和人形机器人的统称,是元宇宙中最重要的参与者和创造者,也是元宇宙中最具价值和影响力的数字资产。因此如何自动生成数字人,并实现实时驱动是元宇宙中的关键问题之一,它涉及到大量前沿技术,如人工智能(AI)、计算机图形学(CG)、区块链(Blockchain)、非同质化通证(NFT)等,这些技术为数字人提供了形象、语言、行为等多方面的支持。

与此同时,数字人可以提高影视作品的制作水平和表现方式,也有望成为影视行业新的增长点和内容创作工具。数字人可以作为虚拟演员,参与影视剧、游戏、动画等作品的制作和表演。数字演员可以根据剧本和导演的指导,表现出各种复杂和细致的情感和动作,增强作品的真实感和美感。例如,迪士尼公司利用面部捕捉技术和三维建模技术,制作了电影《狮子王》中的虚拟动物角色;《阿凡达》的续作《阿凡达:水之道》使用了实时渲染、水下动作捕捉、表情捕捉等技术,对水下目标上的特定光点进行跟踪,将捕捉到的光点进行数据处理和分析,建立的CG三维模型高度拟真,使虚拟角色的动作、表情以及在水中的光影动态清晰地展现出来,栩栩如生;其他应用到数字人技术的经典影视作品还包括《玩具总动员》系列、《变形金刚》系列、《星球大战》系列作品等。数字人技术可以帮助影视制片方创造出更加逼真、华丽的视觉效果,同时也拓展了艺术表现的范围和可能性。

本文将对目前主流的数字人生成和驱动技术进行系统梳理,同时结合多种技术,提出一种可行的基于照片的数字人生成和实时驱动架构。

2数字人简介

2.1 数字人概念

数字人(Digital Human)是指利用计算机技术和人工智能技术,根据真实人类的外貌、动作、声音等特征,生成的具有高逼真度以及高交互性的虚拟人物。数字人是一种集成了计算机图形学、计算机视觉、自然语言处理、机器学习等多个领域的知识和技术的复杂系统,是人工智能技术在虚拟现实(VR)、增强现实(AR)、影视娱乐等领域的重要应用之一。数字人不仅可以模仿真实人类的表情、语言、情感,与人类或虚拟对象进行真实的交互行为,还可以根据不同的场景和需求,自主地做出合理与有意义的反应。

2.2 数字人发展历程

数字人的发展历程主要经历了以下四个阶段,分别是萌芽阶段、探索阶段、初级阶段和成长阶段。

(1)萌芽阶段(20世纪80年代至21世纪初)。在这个阶段,人们开始尝试将虚拟人物引入到现实世界,技术主要以手绘为主。例如,日本的二次元文化兴起,动漫角色逐渐受到欢迎,出现了一些动漫角色作为虚拟歌手等形象出现在大众视野,如《超时空要塞》中的林明美就被制作方打造成虚拟主播,其出品的音乐专辑还进入日本当时的Oricon音乐排行榜。

(2)探索阶段(2000-2016年)。在这个阶段,3D动画、动作捕捉等技术逐步发展,开始应用在影视制作中。基于语音合成软件VOCALOID以及CG合成技术,出现了以初音未来为代表的一批虚拟数字人,形象以二次元风格、3D表现为主。

(3)初级阶段(2017-2020年)。在这个阶段,受益于深度学习(Deep Learning)算法的发展与提升,数字人的生成技术开始步入正轨,进入初级阶段。例如,伴随哔哩哔哩、YouTube等渠道的推动,以“绊爱”“洛天依”“小央”“小视”为代表的一批虚拟主播开始出现,这些虚拟数字人通常由专业团队来制作和运营,通过直播等渠道面向用户,形象以二次元风格为主。

(4)成长阶段(2020年至今)。在这个阶段,人工智能的内容生产能力极大提升,同时伴随元宇宙对虚拟人赛道的催化,虚拟数字人开始得到进一步的发展和应用,出现了Lil Miquela、柳夜熙等一批在社交媒体上受到极大关注的虚拟人,同时,相关应用也开始从虚拟主播、虚拟偶像的范畴向外拓展,形象也开始脱离单纯的二次元风格,出现了类写实、AI合成真人等,行业逐步进入成长阶段。例如,坐拥百万粉丝的Lil Miquela是一款由美国公司Brud开发的虚拟模特软件,用户可以通过Instagram等社交平台来关注Lil Miquela的生活和动态,并与她进行互动。

3数字人自动生成技术

在发展早期,大部分数字人是依靠人工建模生成,但是这种方法效率非常低。如今随着计算机视觉和人工智能技术的发展,涌现出越来越多的自动化生成数字人的技术。这些技术主要分为两类:基于图像的数字人(Image⁃based Digital Human)生成技术和基于模型的数字人(Model⁃based Digital Human)生成技术。本节将分别介绍这两种技术。

3.1 基于图像的数字人生成技术

3.1.1 基于图像的数字人生成技术概述

基于图像的数字人生成技术,是指利用真实人类的图像或视频作为输入,通过图像处理和图像合成技术对人脸图像进行三维重建,生成具有相同或相似外貌和动作的数字人,通常具有较高的真实感和细节,但是这种数字人在后期驱动时需要对模型进行重拓扑。

这种方法的流程如下:

(1)图像采集:构建多种光照环境,从真实人类的图像或视频中采集出在各种光照环境下,面部的表情样本以及面部特征点,并构建出二维或三维的特征点云。

(2)三维重建:将输入后的真实人脸图像,通过图像处理和图像合成技术,对每张二维人脸图像进行一次三维重建,得出各个人脸模型。

(3)模型对齐:在得出的各个人脸模型中,选择一定数量可信度较高的结果,以分区的方式按照权重进行结合。

(4)模型计算:将对齐后的模型进行计算,生成具有连贯性和一致性的新模型,从而得到该个体的三维重建结果。生成具有相同或相似外貌和动作的数字人。

(5)模型渲染:将融合后的模型进行渲染,增加一些细节和效果,使得生成的数字人更加逼真和自然。渲染的方法有多种,例如纹理映射、光照模型、阴影效果、反射效果等。

3.1.2 运动恢复结构

基于运动恢复结构 (Structure from Motion,SfM)的人脸三维重建技术[1]是指从不同的角度拍摄运动中的人物,捕获一组或多组二维人脸图像,捕获设备如图2所示,通过计算机视觉和机器学习的方法,恢复出三维的人脸模型。基于SfM的人脸三维重建的基本思想是利用图像之间的对应关系,通过几何原理和优化算法,求解出相机参数和三维点坐标,从而实现从二维到三维的转换。基于SfM的三维重建技术主要包括以下几个步骤:

打开网易新闻 查看更多图片

图2 实验室中基于SfM方法生成数字人的设备

(1)人脸对齐:从输入的二维人脸图像中检测出人脸的位置和姿态,以及一些关键点,如眼睛、鼻子、嘴巴等,然后将不同图像中的人脸对齐到一个统一的坐标系中,以便于后续的特征提取和匹配。

(2)特征提取:从输入的二维图像中提取出一些具有区分性和稳定性的特征点,如角点、边缘、区域等,以及对应的特征描述符,如SIFT、SURF、ORB等,用于后续的特征匹配。然后根据这些特征进行图像匹配和对应。

(3)特征匹配:根据特征描述符的相似度,找出不同图像中对应的特征点,进行特征匹配,用于后续的运动估计。

(4)相机标定:根据一些已知的相机参数或者通过一些标定方法,确定相机的内参(Intrinsic Parameters)和外参(Extrinsic Parameters)。

(5)运动估计:根据特征匹配,估计出相机之间的相对运动关系,即旋转矩阵(Rotation Matrix)和平移向量(Translation Vector)。

(6)稀疏重建:根据相机的内参、外参和特征匹配,利用三角测量(Triangulation)方法,恢复出场景中特征点的三维坐标,形成稀疏的三维点云。稀疏重建还可以利用捆集调整(Bundle Adjustment)方法,来同时优化相机参数和三维点坐标,提高重建的精度和鲁棒性。

(7)稠密重建:根据相机的内参、外参和稀疏的三维点云,利用立体视觉(Stereo Vision)或者多视图立体(Multi⁃view Stereo)方法,恢复出场景中更多的三维点或者表面,形成稠密的三维点云或者网格。稠密重建可以分为基于像素的方法和基于块的方法,基于像素的方法是指直接在像素级别进行深度估计,基于块的方法是指在一些预定义的块或者窗口上进行深度估计。

基于SfM的人脸三维重建技术有以下几个优点。首先,无需人为干预或者先验知识,只需要自动地提取和匹配特征,以及求解和优化相机参数和三维点坐标,从而提高了效率和准确性;其次,适用于各种大规模或者动态场景中的人脸图像,只需要保证图像之间有足够的重叠和视差,就可以恢复出人脸的三维结构,从而提高了鲁棒性和多样性;再次,可以从无序或者稀疏的图像集合中进行重建;最后,无需特殊的设备或者标定对象,只需要普通的相机或者手机就可以拍摄人脸图像,从而降低了成本和难度。

基于SfM的三维重建技术同时也面临以下几个挑战。首先,人脸在不同的表情下,会产生不同的形变和纹理变化,这会影响特征提取和匹配的稳定性和一致性,以及运动估计和重建的准确性和完整性;其次,人脸在不同的光照条件下,会产生不同的亮度和阴影变化,这会影响特征提取和匹配的区分性和可靠性,以及重建的真实性和自然性;再次,人脸在拍摄过程中,可能会被一些物体或者头发等遮挡部分区域,这会影响特征提取和匹配的完整性和对应性,以及重建的连续性和光滑性;最后,随着图像数量的增加,SfM的计算量和内存消耗也会随之增加,这会影响SfM的速度和效率,以及重建的规模和质量。

3.2 基于模型的数字人生成技术

3.2.1 基于模型的数字人生成技术概述

基于模型的数字人(Model⁃based Digital Human)生成技术是一种参数化的生成技术。首先采集大量三维人脸模型,然后通过重拓扑让所有模型具有相同的点数,而且每个点具有同样的语义,最后,基于数据分析得到平均人脸模型,并通过主成分分析等方法得到若干基向量和对应的系数。因此只需要得到对应的系数就能重建三维人脸。这种类型的数字人通常具有较高的灵活性和可编辑性,但是缺乏逼真度和自然性,难以表现细微和复杂的情感或动作。

这种技术通常包括以下几个步骤:

(1)模型构建:根据真实人类或虚构角色的特征,构建出平均人脸形变模型。模型可以分为静态模型和动态模型。静态模型是指只包含形状信息的模型,动态模型是指包含形状信息和运动信息的模型。

(2)模型参数化:将平均人脸形变模型转化为一组参数,方便对模型进行编辑和控制。

(3)参数估计:设计算法,从输入的图像或视频中估计模型的参数,使得到的模型和照片中的人尽可能接近。

3.2.2 基于3DMM的数字人生成

3.2.2.1 3DMM介绍

三维可变形模型(3D Morphable Model,3DMM)[2]是一类通用的三维人脸模型,用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。3DMM模型可以分解为形状和纹理两个部分,每个部分都可以用主成分分析(PCA)得到一组特征向量和特征值,用于描述人脸的变化。常见的3DMM模型有Basel Face Model和Large Scale Face Model等。基于3DMM 的数字人生成技术是指以3DMM模型作为先验知识,利用三维可变形人脸模型,从单张或多张二维图像中恢复出三维的人脸模型,并根据需要进行编辑和渲染的技术。这种技术可以实现对真实人物或虚拟人物的三维重建和生成,也可以实现不同表情、姿态、光照、风格等属性的三维变换。

表1 常见的3DMM模型和参数

打开网易新闻 查看更多图片

3.2.2.2 基于深度学习的3DMM参数估计

3DMM参数估计是指从二维人脸图像中恢复出对应的3DMM参数,从而实现三维人脸重建。传统的3DMM参数估计方法通常基于分析-合成(Analysis⁃by⁃synthesis)的框架,通过迭代优化一个目标函数来拟合输入图像,这种方法需要消耗大量的计算资源,且容易陷入局部最优解。

近年来,随着深度学习技术的发展,基于深度学习的3DMM参数估计方法逐渐受到关注。这类方法利用深度神经网络来直接从二维人脸图像中预测出3DMM参数,无需进行迭代优化,因此具有更高的效率和鲁棒性。基于深度学习的3DMM参数估计方法可以分为两类,即监督学习方法和非监督学习方法。

监督学习方法是指使用带有真实3DMM参数标签的人脸图像作为训练数据,训练一个深度神经网络来回归出3DMM参数。这类方法的优点是可以直接利用现有的3DMM模型和数据集,如Basel Face Model(BFM)和300W⁃LP等,而不需要额外的数据处理或标注[3]。缺点则是需要大量的带标签数据来训练网络,而且真实的3DMM参数标签往往不容易获取或不准确,导致网络泛化能力受限。

非监督学习方法是指使用无标签或弱标签的人脸图像作为训练数据,训练一个深度神经网络来预测出3DMM参数,并使用一些自监督或弱监督的损失函数来约束网络输出[4]。这类方法的优点是可以利用大量的无标签或弱标签数据来训练网络,提高网络泛化能力和表达能力,而且可以避免依赖于特定的3DMM模型或数据集。该方法的缺点是需要设计合适的损失函数来保证网络输出与输入图像之间的一致性和可解释性,而且需要考虑一些影响因素,如光照、表情、姿态等。

总之,基于深度学习的3DMM参数估计是一种新兴且有前景的三维人脸重建技术,它可以有效地从二维人脸图像中恢复出三维人脸结构和外观信息,为人脸分析、识别、编辑等应用提供有价值的输入。未来的研究方向包括提高网络精度和鲁棒性、扩展网络表达能力和泛化能力。

3.3 MetaHuman

虚幻引擎(Unreal Engine,UE)是Epic Games公司开发的主流游戏引擎。它在数字人类领域也有着深入的探索和突破,如在2018年推出了Siren项目展示了实时捕捉和渲染高保真数字人类的能力;在2019年推出了Unreal Engine 4.23版本,增加了对MetaHuman Framework(MHF)的支持,提供了一套用于创建和控制数字人类的工具集;在2020年推出了Unreal Engine 5版本,进一步提升了数字人类的渲染质量和性能。

MetaHuman Creator是虚幻引擎提供的一种基于云端的软件工具,可以在几分钟内创建高保真数字人类,并将其导入到虚幻引擎中进行动画制作和交互。MetaHuman Creator是基于MHF开发的,利用了云计算、机器学习、计算机图形学等技术,实现了快速、简单、灵活、逼真地生成数字人类的目标。

4数字人驱动技术

4.1 数字人驱动技术概述

数字人的驱动是指通过不同的方式控制数字人的动作和表情,使其能够与用户或环境进行交互。根据驱动方式的不同,数字人的驱动可以分为内驱和外驱两种。

内驱是指通过数字人自身的智能系统,自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,驱动人物模型生成相应的语音与动作来使数字人与用户互动。内驱的优点是可以实现数字人的自主性和灵活性,不需要依赖于外部设备或人工操作;缺点是需要设计复杂的智能算法和模型,以及大量的数据和知识来支持数字人的理解和表达能力。其典型应用场景有虚拟客服、虚拟讲师、虚拟员工等服务领域。经典的内驱方法有:

(1)语音驱动:将语音输入到深度模型,预测嘴型和面部微表情系数。

(2)音素驱动:将文本序列转换成音素序列,并通过深度学习模型预测嘴型和面部微表情系数。

(3)语音和音素多模融合驱动:融合语言和音素两个模态的信息预测嘴型和面部微表情系数。一般这种方法得到的系数更准确,效果更好。

(4)传感器数字人驱动:通过少量的动作捕捉设备辅助,其余依靠AI智能算法模型的解析及推理生成实时动作数据。

(5)语义和声音驱动:根据语义和声音生成特定场合下的数字人动作,如手势、步伐等。

外驱是指通过外部设备或人工操作,采集真人的动作和表情数据,然后将这些数据转换为数字人模型的控制信号,从而驱动数字人进行相应的动作和表情。外驱的优点是可以实现数字人的真实性和逼真性,以及高度的个性化和定制化;缺点是需要使用专业的设备或软件,以及大量的人力和时间来完成数据采集和处理。其典型应用场景有直播、影视、游戏等娱乐领域。经典的外驱方法有:

(1)动作捕捉:通过在真人不同的关节增加惯性、光学等动作捕捉设备传感器来获取真人的动作数据,以提升动作还原精度。

(2)面部捕捉:通过在真人的面部贴上标记点或使用面部识别技术来获取真人的面部表情数据,以提升表情还原精度。

(3)声音捕捉:通过在真人的嘴边安装麦克风或使用语音识别技术来获取真人的声音数据,以提升语音还原精度。

总之,内驱和外驱是两种不同的数字人驱动方式,各有优缺点,也适用于不同的应用场景。未来可能会出现更多结合内外驱优势的混合驱动方式用以提高数字人的交互性能和体验效果。本文接下来将重点介绍外驱方法。

4.2 基于BlendShape的数字人驱动技术

基于BlendShape的数字人驱动技术是指通过预设不同的面部表情形状(如微笑、皱眉、张嘴等),并给每个形状赋予一个权重,通过调节权重的大小来混合不同的形状,从而生成各种表情[5]。BlendShape在Unity、Unreal等游戏引擎中有很好的支持。

应用BlendShape技术进行驱动有2个关键的步骤:

(1)得到预设的表情基。这一步可以借助一些人工操作来制作预设的表情基,或者利用3DMM中的表情系数来构建表情基。目前业内最常用的是苹果发布的ARKit中提供的52个表情基,这套表情基涵盖了脸部大部分区域和基础表情。

(2)估计BlendShape系数。确定好BlendShape的表情基后,只需要估计各表情基的系数就能实现驱动了。估计表情基的系数有两种主流方法:一是用最小二乘法求解,针对数字人模型上的所有点和带权重的表情基建立等式,进而使用最小二乘法得到误差最小的系数;二是利用深度学习技术,在大规模数据集上训练能直接估计BlendShape系数的深度学习模型。

4.3 基于骨骼的数字人驱动技术

三维模型中的骨骼是指一种用于驱动模型运动的技术,它是由一系列的关节和骨骼组成,形成一个层级结构。骨骼需要与模型进行绑定和蒙皮操作,即将模型的顶点与骨骼关联起来,赋予每个顶点一个或多个权重值,表示该顶点受到哪些骨骼的影响。通过对骨骼进行位移和旋转等操作可以实现动画效果。

在计算机视觉中有一系列方法可以估计人脸部的关键点[6], 机器学习算法工具包dlib提供的算法能检测出人脸部68个关键点,MediaPipe能检测400多个关键点[7]。因此可以根据关键点位置在模型上添加对应的骨骼,然后通过算法实时检测关键点位置并实时驱动骨骼,进而实时驱动数字人。

5数字人生成和实时驱动架构

基于上述各关键技术,本文提出一种数字人生成和实时驱动架构,该架构的流程如图3所示。

打开网易新闻 查看更多图片

图3 数字人生成和实时驱动架构示意图

该架构基于Unity实现,并利用flask搭建web端,其中Unity主要提供用户界面,web端实现数字人生成和驱动算法。该架构能同时完成生成和驱动的任务。

5.1 数字人生成

本文设计一种基于深度学习的,不需要三维数据训练的数字人自动生成方法。该算法能依次完成下列任务:使用3DMM描述人脸、使用深度学习网络从照片中估计3DMM系数、基于骨骼点实现脸部和头部的融合、基于模板为模型自动绑定骨骼和UV映射关系。

(1)基于深度学习的3DMM系数估计。本方法搭建了一个无监督深度学习网络,该网络只需要输入一张照片即可完成数字人重建。同时该网络在训练阶段也不需要三维数据,因此极大降低了对训练数据集的要求。从网络结构上,它由编码器和解码器组成,编码器使用经典的ResNet网络从图像中提取特征,再将特征送入解码器估计3DMM系数。同时本网络是使用可微分的渲染模块,所以网络在训练时,可以通过计算得到的3DMM重新渲染到二维空间,并通过和输入照片的比较构建损失函数,实现网络参数的更新。

(2)脸部生成。作者在Unity平台下搭建了数字人生成和驱动系统,用户在Unity中上传图片,Unity将图片传送给Web端,调用前面训练好的网络,即可得到对应人物的3DMM系数,并生成对应的脸部模型,最后存入数据库中,等待下次调用。

(3)脸部和头部模型融合。根据 3DMM 系数只能得到脸部模型,因此作者准备一个头部模型,并将脸部和头部融合。但是不同的人生成的脸部形状不一,所以在脸部和头部重叠的区域添加了8个骨骼点,编写Python脚本,首先通过位移和缩放进行初步对齐,初步对齐后,头部和脸部的朝向一样,脸部的长度一样,然后再调整头部左右两侧的骨骼点使其和脸部贴合,最后再融合头部和脸部,得到完整的数字人头部模型。

(4) 自动绑定骨骼和UV映射。根据 3DMM 系数只能得到脸部的网格模型,为了驱动需要增加骨骼,为了展示皮肤细节,需要添加UV贴图。因此作者在选定3DMM模型后,就使用标准的3DMM模型手工完成了骨骼绑定,并确定了UV贴图映射关系。因为3DMM模型具有一致的拓扑结构,因此可以通过编写Python脚本从模板中读取骨骼和UV映射,并迁移至新生成的模型中。

通过上述方法,可以无监督地训练能从照片中估计3DMM系数的深度学习网络,可以将生成的脸部模型和头部模型融合,并给生成的模型做骨骼绑定,增加UV映射,最后得到一个带有骨骼和纹理,可以驱动的头部模型。

5.2 数字人实时驱动

4.2和4.3小节分别介绍了2种主流的数字人驱动技术,但是它们各有特点。

基于BlendShape的数字人驱动技术适合完成幅度不大的表情驱动。BlendShape是通过加权的表情基来驱动数字人的,它能表达的表情受限于表情基的选择,因此当面对较夸张的表情时,它无法让数字人做到和真人一样的表情。

基于骨骼的数字人驱动技术直接通过人脸关键点控制骨骼点,因此具有很强的表达能力,但是当关键点检测不稳定时,会影响驱动效果。

因此我们提出融合BlendShape的思想和骨骼实现数字人驱动。主要分五步:

(1)人脸关键点提取。人脸关键点是基于骨骼驱动的数据来源,本文使用MediaPipe框架提供的人脸关键点检测算法。该算法能提取出人脸上468个关键点,我们从中选出47个点作为骨骼点来驱动脸部表情。

(2)人脸关键点坐标平滑。使用算法从视频中提取人脸关键点时,会因为光照变化、剧烈运动等原因导致估计的关键点位置抖动,这会严重影响驱动效果。作者提出使用卡尔曼滤波器对数据进行平滑,成功消除了大部分抖动。

(3)表情系数提取。3DMM中包含了表情系数,因此可以利用训练好的深度神经网络估计表情系数,并得到该表情下脸部各点的三维坐标变化量。这些变化量可以看做基于BlendShape驱动的结果。

(4)融合BlendShape和骨骼的数字人驱动。基于BlendShape和基于骨骼驱动各有特点,因此作者提出一种融合驱动算法,该算法即能表示较夸张的表情,同时约束各点的坐标,确保它们在表情空间内。该算法基于卡尔曼滤波器的思路设计,通过计算基于BlendShape和基于骨骼驱动的结果在上一帧模型关键点的速率来作为影响两套数据权重的因素。

(5)眼球驱动。生成的3DMM模型眼球是无法运动的,而对数字人来说,眼睛是很关键的部位,因此作者针对性地提出了眼球驱动算法。该算法利用MediaPipe的结果,得到左右瞳孔上10个关键点的位置,基于三维刚体变换,相机模型,通过在左右眼旋转矩阵上增加额外约束推导出求解公式,得到左右眼的旋转欧拉角。

通过上述方法,可以得到BlendShape系数和平滑的人脸关键点位置,并通过二者的融合提升驱动效果,同时本方法能计算驱动眼球所需的欧拉角。

6结束语

数字人作为一种新兴的虚拟人物形式,具有很强的创造性和灵活性,可以在各种场合和领域发挥重要的作用。随着计算机技术和人工智能技术的不断发展和进步,数字人应用的趋势也越来越多样化、个性化以及智能化。相信在不久的将来,随着技术进步、市场需求、政策支持等多方面因素的推动,数字人作为一种新兴的数字化“人力”资产,将在各个领域发挥更大的作用,成为虚实融合世界的重要参与者和创造者。

注释、参考文献

(向下滑动阅读)

①图片源自:龚才春,中国元宇宙白皮书,2022.1(26):89。

[1] 王巧丽,徐增波,张玲.基于运动恢复结构三维重建的应用与研究进展[J].毛纺科技,2021,49(07):95⁃98.

[2]王静婷,李慧斌.单张图像三维人脸重建方法综述[J/OL].计算机工程与应用:1⁃22[2023⁃05⁃23].http://kns.cnki.net/kcms/detail/11.2127.tp.20230224.1818.018.html.

[3] Wang L, Chen Z, Yu T, et al. FaceVerse: a Fine⁃grained and Detail⁃controllable 3D Face Morphable Model from a Hybrid Dataset[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2022.

[4] Deng Y, Yang J, Xu S, et al. Accurate 3D Face Reconstruction with Weakly⁃Supervised Learning: From Single Image to Image Set[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2019

[5] 高娅莉. 基于Blendshape的人脸表情动画生成的研究与实现[D].湖南大学,2014.

[6] 章乐.人脸关键点检测[J].中国新通信,2015,17(20):125⁃128.

[7] Google. MediaPipe [DB/OL]. https://github.com/google/mediapipe.

主管单位:国家电影局

主办单位:电影技术质量检测所

刊号:CN11-5336/TB

标准国际刊号:ISSN 1673-3215

官方网站:www.crifst.ac.cn

期刊发行:010-63245081