AI视频边生成边播放！首帧延迟仅1.3秒，生成速度9.4帧/秒

CausVid团队投稿
量子位 | 公众号 QbitAI

AI生成视频，边生成边实时播放，再不用等了！

Adobe与MIT联手推出自回归实时视频生成技术——CausVid。

思路就像从下载整部电影到直接观看流媒体的转变，在模型生成首帧画面后，视频便可以即时播放，后续内容则动态生成并无缝衔接。

如果你用过视频生成模型，一定对漫长的等待时间记忆深刻，生成一段10秒的视频，往往需要等待好几分钟才可以开始观看。

研究团队表示，这一延迟的根本原因在于：传统视频生成模型普遍采用的双向注意力机制，每一帧都需要参考前后帧的信息。

这就像写故事时必须先构思好整个剧情的所有细节才能动笔，在完整视频生成完毕前，你看不到任何画面。

为此，他们提出了一种全新的解决方案，通过蒸馏预训练的双向扩散模型（DiT），构建自回归生成模型。

实验中，CausVid基于自回归生成的特性，无需额外训练就能支持多种应用，生成速度和质量均显著超越现有方法。

研究团队还表示将很快开源基于开源模型的实现代码。

用双向教师监督单向自回归学生模型

如前所述，研究团队通过蒸馏预训练的双向扩散模型（DiT），构建自回归生成模型。

为了进一步提速实现实时视频生成，作者通过分布匹配蒸馏（DMD）将生成步骤从50步缩减到仅需4步。

DMD是一种扩散模型蒸馏技术，将多步扩散模型转换为快速的单步生成器。DMD此前已在图像生成中取得成功，Adobe Firefly文生图的快速模式就是基于此技术。

本次研究团队将其创新性地应用到视频扩散模型中，实现了显著加速。

然而，自回归模型有一个核心难题——误差累积。

每一帧视频都基于之前的帧生成，早期生成的任何细微缺陷都会被放大，导致生成的视频逐渐偏离预期轨迹。

为了解决这一问题，团队提出了非对称蒸馏策略。具体来说：

引入一个拥有未来信息的双向教师模型，在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具备更强的精确度。

使用双向教师模型生成的的噪声-数据配对来预训练单向学生模型，提升其后蒸馏训练过程的稳定性。

在训练过程中，针对不同时间点的视频帧施加不同强度的噪声，这一策略使模型能够在测试时基于干净的已生成帧对当前帧进行去噪。

通过这种创新性的非对称蒸馏方法，CausVid显著减少了自回归模型的误差累积问题，并生成了更高质量的视频内容。

这种非对称蒸馏形式中，学生模型和教师模型使用了不同的架构，而这只有在DMD风格的蒸馏中才可行。其他方法，例如渐进式蒸馏（Progressive Distillation）或一致性模型（Consistency Distillation），都要求学生模型和教师模型使用相同的架构。

下面是自回归扩散视频模型的误差累积示例（左图）和CausVid结果（右图）对比：

实验效果如何？

实验中，CausVid表现惊艳：

首帧生成延迟从3.5分钟降至1.3秒，提速170倍
生成速度从0.6帧/秒提升至9.4帧/秒，提升16倍
生成质量经VBench和用户调查验证，优于主流模型例如Meta的MovieGen和智谱的CogVideoX

得益于单向注意力机制，CausVid完全支持在大语言模型中广泛应用的KV缓存推理技术，从而显著提升了生成效率。结合滑动窗口机制，CausVid突破了传统模型的长度限制。

尽管训练阶段仅接触过10秒的视频，CausVid依然能够生成长达30秒甚至更长的视频，其生成速度和质量均显著超越现有方法。

基于自回归生成的特性，CausVid无需额外训练就能支持多种应用：

图片动画化：将静态图片自然转化为流畅视频，赋予画面生命力。
实时视频风格转换：如将Minecraft游戏画面即时转换为真实场景。这一技术为游戏渲染带来全新思路：未来可能只需渲染基础3D几何信息，由AI实时补充纹理和光影
交互式剧情生成：用户通过调整提示词，实时引导视频剧情发展，带来全新的创作体验。

项目链接：https://causvid.github.io/

AI视频边生成边播放！首帧延迟仅1.3秒，生成速度9.4帧/秒

用双向教师监督单向自回归学生模型

实验效果如何？

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

别等Sora了！这些国产AI视频大模型，款款都超能打

Sora之后，苹果视频生成大模型STIV，87亿参数一统T2V、TI2V任务

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

AI工具大盘点，2年死去738个

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

导师让我去打扫实验室卫生，却发现师弟在实验室干“私活”

长得这么漂亮拿来做实验，有的浪费了吧

第14艘055大驱加急，造舰速度越造越快，解放军深知当前形势

老师要求做实验必须穿白大褂，男生直接裹成盼盼小面包了

70年前的阿兰·图灵情书！计算机之父和一段「有罪」的罗曼史

关于调整G206国道桐城段限速值的公告

面条吃多了对胰岛不好？建议：若想血糖稳定，4种食物或要少碰

小伙做实验，结果让他大失所望，劣质设计不该在市面

女人对速度快的男人毫无抗拒