CVPR 2024 | NUS联合腾讯提出人物为中心的视频编辑框架DynVideo-E

近来一段时间，基于扩散模型的视频生成和编辑技术引起了学术界和工业界广泛的关注，但由于逐帧编辑与视频长序列一致性之间的固有矛盾，导致现有的方法仅能处理较短的视频。之前的工作通过引入2D视频特征来解决这一问题，但在以人物为中心的场景中表现不佳。本文介绍一篇发表在CVPR 2024上的论文，本文的研究团队来自新加坡国立大学Show Lab和腾讯ARC Lab。作者引入了一种动态神经辐射场（Dynamic NeRF）作为全新的视频表示，该表示可以在3D空间中执行编辑并通过变形场传播到整个视频中。为了保证时序一致性且可控的编辑效果，作者提出了基于2D表示的-NeRF编辑pipeline，称为DynVideo-E，DynVideo-E具有一系列创新设计，包括基于2D和3D扩散先验的多视图多姿态蒸馏采样方法（SDS），文本引导的局部超分辨模块和基于图像的3D背景编辑等等。作者通过大量的实验表明，本文提出的DynVideo-E在两个具有挑战性的数据集上显著优于 SOTA 方法。

论文题目： DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing 论文链接： https://arxiv.org/abs/2310.10624 项目主页： https://showlab.github.io/DynVideo-E/

一、引言

扩散模型在视频编辑领域中面临的最大挑战就是如何保证视频序列的内容一致性，现有的方法尝试通过引入视频中间帧的2D表示，将视频编辑降级为图像编辑来提高编辑稳定性。但这类方法本质上是在操作二维表示，因而在编辑具有大规模运动和视点变化的视频时，性能会严重退化，特别是在以人物为中心的场景中。

本文作者受此启发，尝试直接在3D空间进行编辑操作，即引入动态NeRF表示[1]，动态NeRF通过人体姿态引导可以有效地将大规模运动和视图变化的视频信息聚合到3D背景空间和3D动态人体空间中，并通过变形场传播到整个视频。上图展示了本文DynVideo-E方法的实际编辑效果，左侧给定编辑主题人物（绿巨人和鸣人形象），右侧给定背景风格图像，模型可以同时实现对视频序列前景和背景的编辑效果。为了保证时序一致性且可控的编辑，作者同时引入2D和3D扩散先验进行监督。

为了进一步提高3D动态编辑的分辨率和几何细节，作者设计了文本提示引导的局部超分辨模块，并通过视图条件增强了人物7个身体区域的细节表示。如上图所示，DynVideo-E也可以对真实人物主体实现照片级的编辑效果，同时保持非常高的时序一致性。

二、本文方法

2.1 动态视频NeRF模型

下图展示了本文DynVideo-E的整体框架，主要从背景静态空间和前景空间两个层面进行视频编辑。由于以人物为中心的视频通常具有较大的视点变化、复杂的场景内容和复杂的人体动作，因此作者引入了动态NeRF来对这类视频进行表示，本文使用HOSNeRF[2]作为backbone模型。

由于本文的目标是编辑主体人物和视频背景，而主体人物的动作交互保持不变，因此作者在HOSNeRF的基础上删除对象状态来进行简化，简化后的动态NeRF模型由一个动态主体模型和静态场景模型构成。可以将所有视频帧的动态信息聚合到3D人体空间中，具体反映在映射到3D空间中的颜色和密度上，形式化可以表示为：

其中是标准位置编码函数，和分别是人体关节和局部关节的旋转角度。而静态场景模型可以将背景的内容聚合到 Mip-NeRF 360 [3] 空间中，同样将高斯参数映射到三维空间中的颜色和密度上，表示如下：

在对动态NeRF模型进行优化时，通过最小化渲染像素颜色与ground-truth像素颜色之间的差异进行训练，这里作者使用MSE损失、LPIPS损失以及Mip-NeRF360自带的正则化损失进行计算。

2.2 基于2D和3D扩散先验的蒸馏采样方法（SDS）

之前的视频编辑方法主要是通过文字提示来指导编辑，但是作者发现，如果给定一张参考图像，模型可以更细粒度的理解用户的编辑目的。为此，本文作者提出使用图像扩散先验来实现更精细的控制。

为了从参考图像中获得更多的3D监督信号，作者使用3D扩散模型提取参考图像固有的3D几何和纹理信息作为3D扩散先验，给定带有噪声预测网络的3D扩散模型，就可以通过最小化添加到渲染图像和预测网络中注入的噪声来构造SDS损失函数，形式化表示如下：

其中图像是在3D空间中的相机视点处通过主体人物的姿态渲染得到的。但是这种从参考图像中直接导出的扩散先验仅来源于人体姿态，不足以产生满足对人体交互细节进行处理的3D动态空间，因此作者进一步提出使用基于 2D 文本的扩散先验来进行引导。

然而，直接使用预训练的2D扩散模型先验会阻碍模型从参考图像中学习多样化的内容，因为2D扩散先验更加倾向于从文本描述中提取内容。因此，作者使用LoRA算法对2D扩散模型在参考图像上进行微调，微调过程中使用随机背景替换来增强参考图像的多样性，如上图所示，去除微调过程的模型会错误理解参考图像的个性化内容。

2.3 基于图像的3D背景编辑

在完成视频主体人物的调整后，作者希望能够将给定的2D参考图像中的艺术风格迁移到视频的3D背景中，如下图所示，作者采用最近邻特征匹配风格损失（NNFM）来获取风格信息。

具体来说，作者通过提取渲染背景图像和参考图像的VGG特征图和，随后计算渲染特征图与参考特征图之间的余弦距离进行优化：

三、实验效果

本文的实验同时包含了长视频和短视频设置，作者使用HOSNeRF和MeuMan数据集进行评估，其视频分辨率均为1280×720，视频序列长度在300到400帧之间。此外，作者选择了目前的SOTA方法作为baseline方法，其中包括Text2Video-Zero、Rerender A-Video、Text2LIVE、StableVideo 和 CoDeF。

上图展示了本文方法与对比baseline方法的视频编辑效果对比，样例视频中均包含较大的运动和视点变化，因此参与对比的基线方法都无法编辑前景或背景，并且它们的结果无法保持一致的结构。相比之下，本文的 DynVideo-E 可以生成高质量的编辑视频，可以准确地编辑前景主题和背景风格，并保持高度的时序一致性，这在很大程度上优于 SOTA 方法。

此外，作者还通过一系列的标准数值指标和人类偏好评估来量化本文方法的性能，同时计算输出编辑视频的所有帧和相应文本描述之间的平均 CLIPScore 来衡量文本理解能力。如上表所示，本文的DynVideo-E达到了最高的CLIPScore分数。在人类偏好评价方面，通过向评分者展示编辑得到的视频和文本描述，并要求他们根据文本忠实度、时序一致性和整体质量来选择自己喜欢的视频。从表中数据可以看出，本文方法在各个方面均取得了最佳效果，相比现有基线性能提升了将近 50%∼95%。

四、总结

本文引入了一种全新的视频编辑框架DynVideo-E，对以人物为中心的视频实现大规模运动和视图变化的编辑，同时保持高度的时序一致性。DynVideo-E首次提出利用动态 NeRF 作为3D视频的表示，这使得模型的编辑可以在动态3D空间中执行，并通过变形场准确地传播到整个视频。随后，本文提出了一套基于2D、3D扩散先验的多视图蒸馏采样（SDS）方法来对视频主体的交互细节进行增强，对于视频背景，作者设计了基于图像的3D背景编辑方法来将给定参考图像的风格稳定的迁移到生成视频中。

参考资料

[1] Wei Jiang, Kwang Moo Yi, Golnoosh Samei, Oncel Tuzel, and Anurag Ranjan. Neuman: Neural human radiance field from a single video. In European Conference on Computer Vision, pages 402–418. Springer, 2022.

[2] Jia-Wei Liu, Yan-Pei Cao, Tianyuan Yang, Eric Zhong cong Xu, Jussi Keppo, Ying Shan, Xiaohu Qie, and Mike Zheng Shou. Hosnerf: Dynamic human-object-scene neural radiance fields from a single video. arXiv preprint arXiv:2304.12281, 2023.

[3] Jonathan T Barron, Ben Mildenhall, Dor Verbin, Pratul P Srinivasan, and Peter Hedman. Mip-nerf 360: Unbounded anti-aliased neural radiance fields. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5470–5479, 2022.

llustration From IconScout By Delesign Graphics

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

CVPR 2024 | NUS联合腾讯提出人物为中心的视频编辑框架DynVideo-E

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

神十八在轨30天，空间科学实验稳步推进

后Sora时代，CV从业者如何选择模型？卷积还是ViT

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

AI狂飙，谁是中国独角兽背后的「超级买家」？

互联网诸神陨落，是谁比下去了阿里、美团、京东和腾讯？

画个框、输入文字，面包即刻出现：AI开始在3D场景「无中生有」了

就是要打持久战，拖垮美西方！大V发声，泄露了俄军机密

《庆余年》大爆，爱奇艺们焦虑

数据可视化必须注意的30个小技巧总结

犹如花朵绽放的美，俄罗斯画家沃利戈夫的油画

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

李毅教授怎么了？前段时间还那么风光，这就寻死觅活了。令人唏嘘

五官乱飞，张嘴、瞪眼、挑眉，AI能模仿到位，视频诈骗要防不住了

中日韩领导人会议取得"重大成果" 日韩媒体高度关注

这个行业，要变天了？

王朔评价白岩松：紧锁眉头扮演社会良心，却是骨子里的做作

CVPR 2024 | NUS联合腾讯提出人物为中心的视频编辑框架DynVideo-E

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

神十八在轨30天，空间科学实验稳步推进

后Sora时代，CV从业者如何选择模型？卷积还是ViT

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

AI狂飙，谁是中国独角兽背后的「超级买家」？

互联网诸神陨落，是谁比下去了阿里、美团、京东和腾讯？

画个框、输入文字，面包即刻出现：AI开始在3D场景「无中生有」了

就是要打持久战，拖垮美西方！大V发声，泄露了俄军机密

《庆余年》大爆，爱奇艺们焦虑

数据可视化必须注意的30个小技巧总结

犹如花朵绽放的美，俄罗斯画家沃利戈夫的油画

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

李毅教授怎么了？前段时间还那么风光，这就寻死觅活了。令人唏嘘

五官乱飞，张嘴、瞪眼、挑眉，AI能模仿到位，视频诈骗要防不住了

中日韩领导人会议取得"重大成果" 日韩媒体高度关注

这个行业，要变天了？

王朔评价白岩松： 紧锁眉头扮演社会良心，却是骨子里的做作

王朔评价白岩松：紧锁眉头扮演社会良心，却是骨子里的做作