机器之心报道
机器之心编辑部
2025 才刚开始,AI 视频生成就要迎来技术突破了?
今天上午,阿里旗下通义万相视频生成模型宣布了 2.1 版重磅升级。
新发布的模型有两个版本,分别是通义万相 2.1 极速版和专业版,前者注重高效性能,后者瞄准卓越表现力。
据介绍,通义万相此次全面升级了模型整体性能,尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展,为 AI 的艺术创作打开了新的大门。
我们先来一睹视频生成效果,看看能不能惊艳到你。
先以经典的「切牛排」为例,可以看到,牛排的纹理清晰可见,表面覆盖着一层薄薄的油脂,闪烁着光泽,刀锋沿着肌肉纤维缓缓切入,肉质 Q 弹,细节拉满。
Prompt: 在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人穿着黑色衣服,手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。
再来看一个人物特写生成效果,小女孩的面部表情、手部和肢体动作都很自然协调,风掠过头发也符合运动规律。
Prompt:可爱少女站在花丛中,双手比心,周围跳动着各种小爱心。她穿着粉色连衣裙,长发随风轻扬,笑容甜美。背景是春日花园,鲜花盛开,阳光明媚。高清写实摄影,近景特写,自然光线柔和。
模型强不强,再来跑个分。目前,在权威视频生成评测榜单 VBench Leaderboard 上,升级后的通义万相以总分 84.7% 的成绩登上榜首位置,超越了 Gen3、Pika、CausVid 等国内外视频生成模型。看起来,视频生成的竞争格局又迎来了一波新变化。
榜单链接:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
即日起,用户就可以在通义万相官网用上最新一代模型了。同样地,开发者也可以在阿里云百炼调用大模型 API。
官网地址:https://tongyi.aliyun.com/wanxiang/
一手实测
表现力提升,还能玩转特效字体
最近一段时间,视频生成大模型的迭代速度很快,新版本的通义万相有没有实现代差级别的提升?我们进行了一番实际测试。
AI 视频会写字了
首先,AI 生成的视频终于能告别「鬼画符」了。
此前,市面上主流 AI 视频生成模型一直无法准确地生成中英文,只要是该有文字的地方,就是一堆难以辨认的乱码。如今这一行业难题被通义万相 2.1 破解了。
它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。
现在,用户只需输入简短的文字描述,即可生成具有电影级效果的文字和动画。
比如一只小猫正在电脑前打字,画面依次跳出「不工作就没饭吃」7 个大字。
通义万相生成的视频中,猫咪坐在工位上一本正经地敲键盘、按鼠标,模样像极了当代打工人,弹出的字幕再加上自动生成的配乐,让整个画面都更具诙谐感。
再比如从一个橘色的正方体小盒子里跳出英文单词「Synced」。
无论是生成中文还是英文,通义万相都能搞定,没有错别字,也没出现「鬼画符」。
不仅如此,它还支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示等。
比如在塞纳河畔的埃菲尔铁塔附近,绚烂的烟花在空中绽放,随着镜头拉近,粉色数字「2025」逐渐变大,直到充斥整个画面。
大幅度运动不再「鬼畜」
复杂的人物运动一度是 AI 视频生成模型的「噩梦」,以往 AI 生成的视频要么手脚乱飞、大变活人,要么出现「只转身不转头」的诡异动作。
而通义万相通过先进的算法优化和数据训练,能够在多种场景下实现稳定的复杂运动生成,特别是在大幅度肢体运动和精确的肢体旋转方面。
比如下面这则生成视频中,男子奔跑时动作流畅自然,没有出现左右腿不分或者扭曲变形的问题。而且它还很注重细节,男子每一次脚尖触地都会留下印迹,并微微扬起细沙。
Prompt:日落时分,金色的阳光洒在波光粼粼的海面上,一名年轻帅气的男子沿着沙滩奔跑,稳定跟踪镜头。
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
难度较大的滑雪视频它也能生成。
女孩身着滑雪装备,在阿尔卑斯山的雪坡上滑行。她灵活地控制着滑雪板,时而加速,时而转弯,高速运动下甩起的马尾辫、卷起的积雪让镜头更加逼真。
Prompt:一个年轻女孩在阿尔卑斯山滑雪
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
由此可见,它在物理规律理解方面也有着显著提升,能够模拟出真实感十足的视频,避免出现「一眼假」的情况。
运镜媲美电影大师
大导演斯皮尔伯格曾说过:一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头,摄影师们恨不得上天入地、飞檐走壁。
不过在这个 AI 时代,「拍」电影就容易了许多。
我们只需输入一句简单的文本指令,比如镜头左移、镜头拉远、镜头推进等,通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。
我们输入 Prompt:摇滚乐队在前院草坪上演出,随着镜头的推进,画面聚焦到吉他手身上,他身穿皮夹克,一头凌乱的长发随节奏摆动。吉他手的手指在琴弦上快速跳跃,背景中其他乐队成员也在全情投入。
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
通义万相 2.1 严格遵循了指令。视频一开始,吉他手、鼓手激情演奏,随着摄影机缓慢拉近,背景逐渐模糊,画面放大,突出了吉他手的神态和手部动作。
再来一个拉远镜头的视频。
一个年轻侦探的眼睛特写,镜头拉远,男子正站在一条繁华的街上,身后是摩天大楼和静止的汽车,仿佛时间被定格一般。
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
长文本指令不会丢三落四
要想 AI 生成的视频效果达到惊艳水准,必然离不开精准的文本提示。
然而,有时大模型「记性」有限,面对包含各种场景切换、角色互动和复杂动作的文本指令,它就容易丢三落四,不是遗漏细节,就是搞不清逻辑顺序。
上新后的通义万相在长文本指令遵循方面就有了较大的进步。
Prompt: 一位摩托车骑手在狭窄的城市街道上以极快的速度疾驰,避开了附近建筑物发生的大爆炸,火焰猛烈地咆哮着,投射出明亮的橙色光芒,碎片和金属碎片在空中飞舞,加剧了现场的混乱。身着深色装备的车手,弯腰紧握车把,神情专注,他以极快的速度向前冲去,丝毫不畏惧身后的火光冲天。爆炸留下的浓浓黑烟弥漫在空中,将背景笼罩在世界末日般的混乱之中。然而,骑手依然不屈不挠,准确无误地在混乱中穿梭,极富电影感,超精细细节,身临其境,3D,动作连贯。
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
在以上这段长篇大论般的文本描述中,狭窄的街道、明亮的火焰、弥漫的黑烟、乱飞的碎片以及身着深色装备的骑手…… 这些细节都被通义万相捕捉到。
通义万相还具备更强大的概念组合能力,能够准确理解各种不同的想法、元素或者风格,并将其组合在一起,创造出全新的视频内容。
一位穿着西装的老人从鸡蛋中破壳而出,瞪大双眼紧盯镜头的白发老头,再配上公鸡咯咯叫的声音,画面相当搞笑。
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
擅长卡通油画等多种风格
新版通义万相还能生成电影质感的视频画面,同时对各类艺术风格也有很好的支持,比如卡通、电影色、3D 风格、油画、古典等风格。
造型奇特的外星船锈迹斑驳,背着氧气瓶的宇航员摆动双腿在水下沉潜,整个镜头都很有科幻电影的 feel。
Prompt:电影质感,一名宇航员正在探索一艘水下外星船残骸。
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
再来看这个 3D 动画风格的小怪兽,站在葡萄藤上手舞足蹈,甚是可爱。
Prompt:一只毛茸茸的快乐的青提小怪兽站在葡萄树树枝上快乐的歌唱,逆时针旋转镜头。
视频链接:https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ?token=593940781&lang=zh_CN
此外,它还支持不同长宽比,涵盖 1:1、3:4、4:3、16:9 和 9:16 五个比例,能够更好适配电视、电脑、手机等不同终端设备。
从以上表现来看,我们已经可以使用通义万相进行一些创作,把灵感转化为「现实」了。
当然这一系列进步,还得归功于阿里云在视频生成基础模型上的升级。
基础模型大幅优化
架构、训练、评估全方位「变身」
去年 9 月 19 日,阿里云在云栖大会上发布了通义万相视频生成大模型,带来了影视级高清视频的生成能力。作为阿里云全自研的视觉生成大模型,它采用了 Diffusion + Transformer 的架构,支持图像和视频生成类任务,在模型框架、训练数据、标注方式和产品设计上均有诸多创新,提供了业界领先的视觉生成能力。
此次升级后的模型中,通义万相团队(以下简称团队)进一步自研了高效的 VAE 和 DiT 架构,针对时空上下文关系的建模进行了增强,显著优化了生成效果。
Flow Matching(流匹配)是近年来新兴的一种生成模型训练框架,其训练过程更简单,通过连续正则化流(Continuous Normalizing Flow)可以取得与扩散模型相当甚至更优的生成质量,并且推理速度更快,也因而逐渐开始应用于视频生成领域,比如 Meta 此前推出的视频模型 Movie Gen 便使用了 Flow Matching。
在训练方法选择上,通义万相 2.1 采用了基于线性噪声轨迹的 Flow Matching 方案,并针对该框架进行了深度设计,使得模型收敛性、生成质量和效率均得到提升。
通义万相 2.1 视频生成架构图
针对视频 VAE,团队结合缓存机制与因果卷积,设计了一种创新的视频编解码方案。其中缓存机制可以在视频处理中保持必要的信息,从而减少重复计算,并提升计算效率;因果卷积能够捕获视频的时序特征,适应视频内容的递进变化。
在具体实现中,通过将视频拆分为若干块(Chunk)并缓存中间特征,代替了直接对长视频的 E2E 解码过程,使显卡的使用仅与 Chunk 大小相关,而无需考虑原始视频长度,让模型可以对无限长的 1080P 视频进行高效编解码。团队表示,这一关键技术为任意时长视频的训练提供了一种可行路径。
下图显示了不同 VAE 模型的结果对比。从模型计算效率(帧 / 延迟)和视频压缩重构(峰值信噪比,PSNR)指标来看,通义万相采用的 VAE 在参数不占优的情况下,依然实现了业内领先的视频压缩重构质量。
注:圆圈面积代表了模型参数大小。
团队在 DiT(Diffusion Transformer)上的核心设计目标是实现强大的时空建模能力,同时保持高效的训练过程。做到这些需要进行一些创新性改变。
首先,为了提高时空关系的建模能力,团队采用了时空全注意力机制,使模型能够更准确地模拟现实世界的复杂动态。其次,参数共享机制的引入,在提升性能的同时有效降低了训练成本。此外,团队针对文本嵌入做了性能优化,使用交叉注意力机制来嵌入文本特征,既达成了更优的文本可控性,也降低了计算需求。
得益于这些改进和尝试,在相同计算成本的情况下,通义万相的 DiT 结构实现了更明显的收敛优越性。
除了模型架构上的创新,团队在超长序列训练与推理、数据构建管线与模型评估方面同样进行了一些优化,使模型可以高效处理复杂生成任务,并具备更强的效率优势。
百万超长序列的高效训练如何炼成
在处理超长视觉序列时,大模型往往面临着计算、内存、训练稳定性、推理延迟等多个层面的挑战,因而要有高效的应对方案。
为此,团队结合了全新模型工作负载的特点和训练集群的硬件性能,制定出了分布式、显存优化的训练策略,在保证模型迭代时间的前提下优化训练性能,最终达到了业界领先的 MFU,并实现了 100 万超长序列的高效训练。
一方面,团队创新分布式策略,采用了 DP、FSDP、RingAttention、Ulysses 混合的 4D 并行训练,训练性能和分布式扩展性双双得以增强。另一方面,为了实现显存优化,团队基于序列长度带来的计算量和通信量,采用分层的显存优化策略来优化 Activation 显存并解决了显存碎片问题。
另外,计算优化可以提高模型训练效率并节省资源,为此团队采用 FlashAttention3 进行时空全注意力计算,并结合训练集群在不同尺寸上的计算性能,选择合适的 CP 策略进行切分。同时针对一些关键的模块去除计算冗余,并通过高效的 Kernel 实现来降低访存开销、提升计算效率。在文件系统方面,团队充分利用阿里云训练集群中高性能文件系统的读写特性,通过分片 Save/Load 方式提升读写性能。
4D 并行分布式训练策略
与此同时,针对训练中因 Dataloader Prefetch 、CPU Offloading 和 Save Checkpoint 导致的内存溢出(OOM)问题,团队选择错峰内存使用方案。并且,为了保证训练稳定性,团队借助了阿里云训练集群的智能化调度、慢机检测以及自愈能力,实现了自动识别故障节点并快速重启任务。
数据构建与模型评估引入自动化
视频生成大模型的训练离不开规模化的高质量数据和有效的模型评估,前者可以确保模型学习到多样化的场景、复杂的时空依赖关系并提高泛化能力,构成模型训练的基石;后者有助于监督模型表现,使其更好地达到预期效果,成为模型训练的风向标。
在数据构建上,团队以高质量为准绳,打造出了一套自动化的数据构建管线,在视觉质量、运动质量等方面与人类偏好分布保持高度一致,从而可以自动构建高质量的视频数据,并呈现出高多样性、均衡分布等特征。
在模型评估上,团队同样设计了一套全面的自动化度量机制,将美学评分、运动分析和指令遵循等二十几个维度纳入其中,并针对性地训练出了能够对齐人类偏好的专业打分器。在这些度量指标的有效反馈下,模型迭代和优化过程显著加快。
可以说,架构、训练和评估等多个方面的协同创新,让升级后的通义万相视频生成模型在实际体验中收获了显著的代际提升。
视频生成的 GPT-3 时刻
还有多久?
自去年 2 月,OpenAI 的 Sora 问世以来,视频生成模型成为了科技界竞争最为激烈的领域。国内到海外,创业公司到科技大厂都在纷纷推出自家的视频生成工具。然而相对于文字的生成,AI 视频想要做到人们可以接受的程度,难度高了不止一个等级。
如果像 OpenAI CEO 山姆・奥特曼说的那样,Sora 代表了视频生成大模型的 GPT-1 时刻。那么我们在此基础上实现文本指令对 AI 的精准化控制、角度和机位的可调整、保证角色的一致性等视频生成该有的能力,再加上快速变换风格场景这样 AI 独有的功能,或许就可以很快迎来新的「GPT-3 时刻」。
从技术发展的路径来看,视频生成模型是一个验证 Scaling Laws 的过程。随着基础模型能力的提升,AI 将会越来越懂人类的指令,并能创造出越来越真实合理的环境。
从实践的角度看,我们其实早就已经迫不及待了:自去年起,不论短视频、动画领域,甚至影视行业的人们都已经开始利用视频生成 AI 进行创作探索。如果我们可以突破现实的限制,用视频生成 AI 做以前无法想象的事,新一轮行业变革就在眼前。
现在看来,通义万相已经率先迈出了一步。