打开网易新闻 查看更多图片

最近,文本图像合成领域的发展可谓是风生水起,很多AI大厂纷纷在这一领域展开探索,开发出了一些非常有趣的的算法和模型,而且各有特点。例如OpenAI先后发布的两个文本图像合成模型:CLIP[1]和DALL-E[2],前者可以根据输入文本对图像进行分类,而后者可以直接基于一段文本合成图像。谷歌大脑基于Transformer并结合扩散模型训练得到的Imagen可以根据文本合成非常有趣的高清大图。但是社区的研究者们并不安于现状,近期来自清华大学和智源研究院(BAAI)的研究团队发布了目前第一个能够根据文本直接合成视频的CogVideo模型。CogVideo同样基于大规模预训练的Transformer架构,作者还提出了一种多帧率分层训练策略,可以高效的对齐文本和视频片段。此外还需要强调的一点是,CogVideo目前只支持中文文本输入。下面我们来看一下具体的生成效果。

打开网易新闻 查看更多图片

论文链接: https://arxiv.org/abs/2205.15868 代码链接: https://github.com/THUDM/CogVideo

打开网易新闻 查看更多图片

比如直接输入”一个男人正在滑雪“或者”一个女人在下午的沙滩上跑步“,CogVideo可以立马生成两段非常逼真的视频序列。

打开网易新闻 查看更多图片

除了单人场景,CogVideo对于多人文本语境生成也不在话下,甚至还能来一段风景延时摄影。

打开网易新闻 查看更多图片

此外,CogVideo也能生成出非常魔幻的视频,例如上图中一只正在喝水的狮子以及一个正在跳舞的卡通小姐姐,合成效果非常生动,下面我们来看看CogVideo是怎么实现这些效果的。

一、本文方法

CogVideo的训练首先基于本文作者团队提出的文本合成图像模型CogView2[3],CogView2是一个包含60亿参数的预训练transformer模型,CogVideo可以看做是CogView2的视频升级版本,CogVideo共有94亿个参数,并在540万个文本视频对上进行了训练。CogVideo的训练主要基于本文提出的多帧分层生成框架,具体来说就是先根据CogView2通过输入文本生成几帧图像,然后再根据这些图像进行插帧提高帧率完成整体视频序列的生成。为了更好的在嵌入空间中对齐文本和视频片段,提高模型对文本预训练知识的迁移,作者提出了一种双通道注意力机制来提高性能。此外为了应对模型超大的参数和长视频序列的存储压力,作者将Swin Transformer[4]中的滑动窗口引入到了本文的自回归视频生成任务中,下面进行详细介绍。

1.1 多帧率分层训练方法

CogVideo的多帧率分层训练框架如下图所示,框架的输入序列包括目标帧率大小、文本数据和帧的标记符号。视频生成主要分为两个阶段,在第一阶段中,模型先在给定帧率条件下按照输入文本的顺序生成T帧图像。然后在第二阶段中,上一阶段生成的图像帧作为双向注意力区域重新输入到模型中,模型会根据上下文语义来对输入帧序列之间进行插帧生成,此外作者强调在两个阶段中,都可以通过输入的目标帧率token来控制生成帧的速率

打开网易新闻 查看更多图片

对于多帧率训练策略的样本构建,作者以帧率token为核心,从训练视频中以此帧率采样帧,构成一个固定长度的训练序列,随后与一段文本数据组合构成一个训练样本,这样构建主要由以下两点考虑:(1)如果直接将长视频按照固定帧率分割成视频片段,往往会导致得到的新视频片段与文本数据之间的语义不匹配,因此对于文本没有过多的处理,仍使用全文,但是这样可能会出现视频序列无法包含文本中提到的所有内容。(2)这样构建会使相邻帧在外观上大致相同,这样做的原因是,视频前后帧的变化非常明显会带来较大的损失,可能会导致型不断复制每一帧以达到平凡解,从而缺乏对视频长时序依赖关系的学习。此外为了提高训练样本的多样性,作者在构建样本时预设了一系列不同的帧速率。

通过上述方式生成得到的帧序列之间可能是不连贯的,因此作者又加入了一个帧插值模型,将上一步得到的帧序列当做过渡帧插入到递归生成模型中来得到一个较为完整的高帧率的视频。此外,由于目前Transformer的通用性,这两个模型基本上可以共享相同的结构和训练过程,只需要修改其中的注意力掩码即可完成不同的任务。对于具体操作,整体的视频生成过程由顺序帧生成阶段和递归插值两个阶段构成:

  1. 首先将文本和低帧率采集到的帧序列输入到模型,输入序列为 ,本文设置 ,最小采样帧率为1fps。

  2. 对于递归插值阶段,模型的目的是生成更加精细的视频。在这一阶段,作者先将上一阶段中生成的帧分割成多个长度为 的片段来覆盖视频的开头和结尾,然后开始在每个片段中插入帧,输入序列变为,其中第 帧是自回归生成的,通过不断的递归减半帧率,就可以不断细化插值的位置来得到视频序列。

1.2 时空双通道注意力

对于本文所涉及的文本生成视频任务而言,收集高质量的大量训练样本其实具有很高的时间和人力成本,因此一个很自然的想法就是从现有的预训练模型中对相关知识进行迁移,例如本文提出使用从CogView2中进行迁移,因为CogView2已经很好的掌握了基本的文本图像对应关系,且CogView2种包含的视觉信息也足以覆盖视频的视觉概念范围。为了实现这一关键的迁移步骤,作者在原有Transformer注意力的基础上提出了一种时空双通道注意模块,如下图所示。作者在预训练CogView2中的每个transformer层中添加一个新的时空注意模块。在训练过程中,CogView2的所有原有参数都被冻结,模型只更新新添加的时空注意模块的参数。

打开网易新闻 查看更多图片

具体来说,本文提出的的双通道注意力块可以形式化表示为:

打开网易新闻 查看更多图片

其中参数 是一个处于 的向量,用来衡量两个通道之间的权重比例, 为输入特征的隐藏层维度。

由于作者在CogView2中的几乎每一层上都加入了一个新模块,这无疑也增加了FFN的数量,FFN本身是一个包含大量视觉信息的重参数模块,因此其中两个通道融合在一起也可以在每一层共享相同的参数来加快训练速度并提高内存效率。此外,由于图像和视频模态之间的相似性,将其知识引入到时间通道也可以有助于模型对于视频建模能力的学习。

1.3 自回归生成中的滑动窗口机制

为了进一步减轻训练和推理过程中模型在时间通道上的内存和时间开销,本文作者参考了Swin Transformer中的滑动窗口机制。原始的Swin注意力并不适用于本文的自回归场景,因此作者通过在滑动窗口中施加自回归注意力mask来将其扩展到自回归时序场景中。通过实验发现,Swin Transformer的滑动窗口可以完成不同帧的远距离生成的并行化,这进一步提高了自回归生成的效率。作者将这一优势归结于两个关键点:

  1. 自回归mask,如果当前帧被标记有自回归mask,那模型会被强制只能先关注当前帧之前和之后的帧。

  2. 滑动窗口,滑动窗口也给模型规定了一部分优先被处理的区域

打开网易新闻 查看更多图片

上图展示了本文的自回归滑动窗口,模型可以一边生成滑动窗口划定的当前帧的区域,一边生成之前帧中遗留的几个区域,二者可以并行运行。例如上图中,在 帧中,模型可以先根据之前的帧中的黄色和绿色区域生成当前选定的红色框,在此同时,模型也在对之前帧中的灰色区域进行生成,这样可以充分提高模型的生成效率。形式化表示为,假设 是每一帧的高度和宽度, 是滑动窗口的高度和宽度,对于 和 处的两个区域,如果它们满足以下条件:

则表明第 帧中的第 个区域可以与第 帧中的第 个区域并行生成。

二、实验效果

本文的实验使用了两个常见的人类视频行为识别数据集UCF-101和Kinetics-600,前者包含101类人类行为,数据集规模较小。后者包含600类人类行为,数据集规模较大。为了提高实验的可信度,作者将实验分为机器评估和人类评估两个部分,对于机器评估部分,作者主要使用FVD和IS两个指标作为评价标准,其中FVD主要评估视频整体生成质量的效果,FVD数值越小代表生成质量越高。IS主要是从视频生成清晰度和多样性两方面对生成质量进行衡量,IS值越大代表生成效果越好。下表展示了本文模型在两个数据集上与其他baseline方法的对比结果,整体来看,CogVideo的生成视频效果处于中等水平。

打开网易新闻 查看更多图片

对于人类评估部分,作者邀请了90位志愿者来对CogVideo和其他baseline方法生成的视频进行打分,下图的结果表明,CogVideo在帧纹理、运动生成真实性和语义相关性等多个方面均明显优于其他方法,并且在整体质量方面获得了人类志愿者的最高分。可以看出,90人中的49.53%都认为CogVideo生成的视频更加逼真。

打开网易新闻 查看更多图片

三、总结

本文对于文本视觉领域中的文本视频合成方向发起了挑战,并且给出了一个非常惊人的解决方案。CogVideo应该是目前社区中第一个开源的大规模文本到视频合成的Transformer模型,CogVideo也第一次尝试了如何将预训练的文本到图像生成模型迁移到文本到视频合成模型中,这为后续工作的开展提供了全新的思路。此外作者团队设计的多帧率分层训练框架也可以帮助模型更好的学习文本-视频之间的语义对应关系,并通过控制帧率token来调整模型不断适应新数据的能力。此外,作者还提出了一系列操作来提高模型的训练和推理效率。从应用层面来讲,CogVideo无疑是AI文艺创作领域中的一个新利器,其可以大幅度减轻短视频和视频艺术创作者的工作量。

参考

[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. arXiv:2103.00020, 2021.

[2] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., and Sutskever, I. Zero-shot text-to-image generation. arXiv:2102.12092, 2021.

[3] M.Ding,W.Zheng,W.Hong,andJ.Tang.Cogview2:Fasterandbettertext-to-imagegeneration via hierarchical transformers. arXiv preprint arXiv:2204.14217, 2022.

[4] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10012–10022, 2021.

作者:seven_

Illustration b y Tanya Korniichuk from icon s8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看更多图片

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球