MotionClone：无需训练，一键克隆视频运动

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

无需训练或微调，在提示词指定的新场景中克隆参考视频的运动，无论是全局的相机运动还是局部的肢体运动都可以一键搞定。

论文：https://arxiv.org/abs/2406.05338

主页：https://bujiazi.github.io/motionclone.github.io/

代码：https://github.com/Bujiazi/MotionClone

本文提出了名为 MotionClone 的新框架，给定任意的参考视频，能够在不进行模型训练或微调的情况下提取对应的运动信息；这种运动信息可以直接和文本提示一起指导新视频的生成，实现具有定制化运动的文本生成视频 (text2video)。

相较于先前的研究，MotionClone 具备如下的优点：

无需训练或微调：先前的方法通常需要训练模型来编码运动线索或微调视频扩散模型来拟合特定运动模式。训练模型编码运动线索对于训练域之外的运动泛化能力较差，而微调已有的视频生成模型可能会损害基模型潜在的视频生成质量。MotionClone 无需引入任何额外的训练或微调，在提高运动泛化能力的同时最大程度保留了基座模型的生成质量。

更高的运动质量：已有的开源文生视频模型很难生成大幅度的合理的运动，MotionClone 通过引入主成分时序注意力运动指导在大幅加强生成视频运动幅度的同时有效保障了运动的合理性。

更好的空间位置关系：为了避免直接的运动克隆可能导致的空间语义错配，MotionClone 提出了基于交叉注意力掩码的空间语义信息指导来辅助空间语义信息和时空运动信息的正确耦合。

时序注意力模块中的运动信息

在文本生视频工作中，时序注意力模块 (Temporal Attention) 被广泛用于建模视频的帧间相关性。由于时序注意力模块中的注意力分数 (attention map score) 表征了帧间的相关性，因此一个直观的想法是是否可以通过约束完全一致的注意力分数来复制的帧间联系从而实现运动克隆。

然而，实验发现直接复制完整的注意力图 (plain control) 只能实现非常粗糙的运动迁移，这是因为注意力中大多数权重对应的是噪声或者非常细微的运动信息，这些信息一方面难以和文本指定的新场景相结合，另一方面掩盖了潜在的有效的运动指导。

为了解决这一问题，MotionClone 引入了主成分时序注意力运动指导机制 (Primary temporal-attention guidance)，仅利用时序注意力中的主要成分来对视频生成进行稀疏指导，从而过滤噪声和细微运动信息的负面影响，实现运动在文本指定的新场景下的有效克隆。

空间语义修正

主成分时序注意力运动指导能够实现对参考视频的运动克隆，但是无法确保运动的主体和用户意图相一致，这会降低视频生成的质量，在某些情况下甚至会导致运动主体的错位。

为了解决上述问题，MotionClone 引入空间语义引导机制 (Location-aware semantic guidance)，通过交叉注意力掩码（Cross Attention Mask）划分视频的前后背景区域，通过分别约束视频前后背景的语义信息来保障空间语义的合理布局，促进时序运动和空间语义的正确耦合。

MotionClone 实现细节

DDIM 反转：MotionClone 采用 DDIM Inversion 将输入的参考视频反转至 latent space 中，实现对参考视频的时序注意力主成分提取。

引导阶段：在每次去噪时，MotionClone 同时引入了主成分时序注意力运动指导和空间语义信息指导，它们协同运行，为可控视频生成提供全面的运动和语义引导。

高斯掩码：在空间语义引导机制中，采用高斯核函数对交叉注意力掩码进行模糊处理，消除潜在的结构信息影响。

DAVIS 数据集中的 30 个视频被用于测试。实验结果表明 MotionClone 实现了在文本契合度、时序一致性以及多项用户调研指标上的显著提升，超越了以往的运动迁移方法，具体结果如下表所示。

MotionClone 与已有运动迁移方法的生成结果对比如下图所示，可见 MotionClone 具有领先的性能。

综上所述，MotionClone 是一种新的运动迁移框架，能够在无需训练或微调的情况下，有效地将参考视频中的运动克隆到用户给定提示词指定的新场景，为已有的文生视频模型提供了即插即用的运动定制化方案。

MotionClone 在保留已有基座模型的生成质量的基础上引入高效的主成分运动信息指导和空间语义引导，在保障和文本的语义对齐能力的同时显著提高了和参考视频的运动一致性，实现高质量的可控的视频生成。

MotionClone：无需训练，一键克隆视频运动

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

DIY计算器装ChatGPT操作系统！终极作弊神器，代码已开源

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

豆包电脑版，原地封神了！

爱猫去世后，她克隆了一只新猫！可终究与原版不同

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

马保国现身宿州奥斯卡酒吧，五连鞭轻松走起！嗨翻全场

女子晒姐妹给自己做的王俊凯语音聊天，从设备到代码都是自己做的，网友：这都能当毕设了

拜登政府常务副国务卿放话：我们在努力"拆散"中俄

经典卡尔曼滤波器改进视频版「分割一切」，网友：好优雅的方法

菲副总统称“若我被害就去找总统算账” 菲军方回应

江西车主开仰望U8穿越赣江女子从天窗探出来看风景

最新！俄方宣布：乌军“最强部队”被歼灭！视频曝光：俄先进导弹摧毁乌方目标！泽连斯基发声

02：克隆狂人彪子：复活家人却陷伦理漩涡

库尔斯克的战损数据出来了

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

湖人惨败掘金詹姆斯18分浓眉19中6约基奇34+13+8

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

中国破解了代码源？100架苏30用上国产武器，可能另有“隐情”

MotionClone：无需训练，一键克隆视频运动

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

DIY计算器装ChatGPT操作系统！终极作弊神器，代码已开源

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

豆包电脑版，原地封神了！

爱猫去世后，她克隆了一只新猫！可终究与原版不同

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

马保国现身宿州奥斯卡酒吧，五连鞭轻松走起！嗨翻全场

女子晒姐妹给自己做的王俊凯语音聊天，从设备到代码都是自己做的，网友：这都能当毕设了

拜登政府常务副国务卿放话：我们在努力"拆散"中俄

经典卡尔曼滤波器改进视频版「分割一切」，网友：好优雅的方法

菲副总统称“若我被害就去找总统算账” 菲军方回应

江西车主开仰望U8穿越赣江 女子从天窗探出来看风景

最新！俄方宣布：乌军“最强部队”被歼灭！视频曝光：俄先进导弹摧毁乌方目标！泽连斯基发声

02：克隆狂人彪子：复活家人却陷伦理漩涡

库尔斯克的战损数据出来了

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

湖人惨败掘金 詹姆斯18分浓眉19中6约基奇34+13+8

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

中国破解了代码源？100架苏30用上国产武器，可能另有“隐情”

江西车主开仰望U8穿越赣江女子从天窗探出来看风景

湖人惨败掘金詹姆斯18分浓眉19中6约基奇34+13+8