本文提出了首个支持多种动作生成任务的动作大模型 Large Motion Model (LMM),其能够支持多种类型的控制信号(图1)来生成统一协调的 3D 动作。本文分别从数据设施、模型结构、训练策略三个角度出发,解决了通往动作大模型之路的挑战,并在多个主流的动作生成任务达到与单一专家模型相近甚至更高的精度水平。
论文标题: Large Motion Model for Unified Multi-Modal Motion Generation 论文链接: https://arxiv.org/pdf/2404.01284 代码链接: https://github.com/mingyuan-zhang/LMM 项目主页: https://mingyuan-zhang.github.io/projects/LMM.html
图 1. Larege Motion Model 性能展示
一、背景介绍
随着生成技术和 3D 视觉技术的发展,动作生成技术在近几年受到了很多研究者的关注。动作生成任务的输出往往是可以驱动 3D 人物模型的控制序列,一般以 3D 关键点序列、骨骼旋转角序列为主。其控制信号的类型各异,从而衍生出了不同的动作生成任务。例如文本驱动动作生成任务,音乐驱动舞蹈生成,动作预测任务等。这些任务具有相似的输出类型,但是有着不同的控制信号。这启发着我们构建统一的动作生成大模型是一个很有吸引力的技术方向,也是很有希望达成的目标。然而在通往这个技术目标的路上有三个重要的挑战:
数据设施:现有数据集往往只有单一控制信号,并且这些在学术界公开的数据往往规模都很小。更严峻的是,不同数据集对动作数据的刻画方法是不一样的,这意味着我们很难同时在不同数据集上进行训练。
结构设计:我们需要设计一个能够支持多种不同模态信号的统一生成框架,其中多模态的对齐,以及对于不同动作数据格式的支持都是结构设计部分绕不开的难题。
训练策略:如何让模型在不同帧率、不同数据格式上能够学到统一通用的动作先验,并且将其在各个子任务上充分地发挥出来,是构建高效动作大模型的重要课题。
本文依次提出了这三个挑战的解决方案,从而构建了首个统一多模态的动作生成大模型 LMM。
二、数据设施
我们首先构建了一个数据基础设施 MotionVerse,用于支持后续多模态动作大模型的训练。这里我们依次解决了不同生成任务形式的统一,和不同数据格式的统一。
为了统一这些任务的输入形式,我们提出一种通用的描述形式。每个生成任务的控制信号都是由条件特征,和输入掩码构成。条件特征可以是文本、音乐、语音、视频、动作类别等,对应不同的命令类型。输入掩码描述了哪些部分的动作序列是给定的。例如动作预测是给定前面一些帧,动作中间补全则是给定前面和后面的一些动作数据要求补全中间的内容。通过这种格式,我们可以将不同类型的任务以统一的形式存储下来。表 1 左边展示了不同主流动作生成任务在统一格式下的具体形式,右边展示了 MotionVerse 的数据构成。
表1:统一任务框架和MotionVerse 的数据构成
图2:MotionVerse的数据处理流程
针对动作数据格式不一致的问题,我们设计了如图2 所示的管线。我们以 SMPL-X[1] 的骨骼标注为标准,将不同数据的关键点格式变成 SMPL-X 的格式,并在之后进一步处理成 TOMATO[2] 动作表征。然而这里还有一个挑战是,不同数据集的关键点标注可能会有很大程度的缺失。例如 TED Gesture++ 数据没有下半身、手部动作等。
为了解决这个问题,我们将人体数据划分成十个部分,并对整体缺失的部分进行标注,要求后续模型在训练时能够知道哪些身体部位是缺失的。对于条件特征,我们使用 ImageBind[3] 模型来将所有类型的条件转换成统一的特征序列,从而可以将这些控制信号尽量先映射到相同的特征空间下,有利于模型后续的学习。
三、结构设计
模型结构设计部分我们以 FineMoGen[4] 为基础,其中生成算法采用了扩散模型,并且以 Transformer为模型底座。我们对里面的注意力模块进行了进一步升级,提出了新的 ArtAttention,用于支持多模态输入和针对数据有缺失情况的支持。
图3:ArtAttention 网络结构
整体的注意力结构也是分成了两支:空间注意力和时间注意力。在空间注意力的部分,我们模型能够利用不同身体部位的特征进行相互之间的优化,让身体各个部位更加协调。时间注意力部分我们升级了 FineMoGen 里的建模方案,引入真实世界的时间,用于针对不同帧率的动作数据学出更统一的动作先验。
四、训练策略
我们的训练过程分为两个阶段。在预训练阶段中,我们去掉所有条件特征,让模型关注于动作先验的提取。我们也引入了数据增强策略,包括对动作序列帧率的降采样和对不同时刻、不同部位的随机掩码。在这样的增强策略下,之前有缺失的动作数据也能够更好的融入整个学习过程。在第二个微调阶段,我们让模型接受条件特征,从中学会条件特征与动作特征的映射关系。测试时,我们可以给定多种不同的条件特征,以及针对动作预测、动作中间补全等任务的上下文条件,从而实现对各种动作生成任务的支持。
五、实验结果
我们在九个数据集上评估了LMM 的效果,本文展示其中的一部分。实验结果(表2、3)展示了我们提出的LMM 框架在各个任务上都能达到很出色的效果。
表 2. 不同方法在HumanML3D 测试集上的表现
表 3. 不同方法在AMASS-BMLrub 和 3DPW 测试集上的表现
图5:多条件动作生成
图6:更多可视化例子
图7:3D 动作生成引导视频生成
我们所构建的多模态动作生成大模型也促进了更多的动作生成任务应用形式。如图 5 所示,我们可以在传统动作预测,动作补全中我们也可以额外指定文本描述,从而定制化动作预测、动作补全的结果。此外,我们也可以将文本描述与音频结合起来,让数字人随着音乐的律动来完成给定的文本描述(图 6)。另一种应用的方向是结合现在人物视频生成的范式。用户可以先利用我们的动作生成大模型来定制化自己想要的人物动作,在用相机参数投影后用于引导 2D 视频生成,从而提升人物视频生成的可控性(图 7)。
引用
[1] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, and Michael J. Black. Expressive Body Capture: 3D Hands, Face, and Body from a Single Image. CVPR 2019
[2] Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang and Heung-Yeung Shum. HumanTOMATO: Text-aligned Whole-body Motion Generation. ICML 2024
[3] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. IMAGEBIND: One Embedding Space To Bind Them All. CVPR 2023
[4] Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu. FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing. NeurIPS 2023.
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈