宣战Sora！Runway最新视频生成模型上线，可生成10秒高保真、高动态视频

智东西
编译李水青
编辑心缘

智东西6月18日报道，6月17日，美国AI视频生成创企Runway推出新的视频生成模型Gen-3 Alpha，支持生成10秒左右的高质量视频。

//oss.zhidx.com/uploads/2024/06/6671067ee56b4_6671067ee159c_6671067ee1577_gen-3-alpha-output-008.mp4

▲提示：日本某城市高速行驶的火车窗户上，映出意味女性的微妙倒影。

Runway于2018年底创立于美国纽约，是最早做AI视频生成模型的创企之一。然而，在其2023年2月和6月分别推出第一代和二代模型后，这位昔日王者就被同行压着打，OpenAI的Sora和Luma AI上周发布的Dream Machine，都使Runway此前的模型相形见绌。（《最强视频大模型易主？比Sora更真实还直接免费！服务器瞬间挤爆》）

时隔一年，Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度，它可以理解并生成复杂的场景和运动画面，还能胜任多种电影艺术手法。

比如在以下视频动图中，Gen-3 Alpha收到的提示词是“一顶卷发假发和墨镜突然落在他的头上，悲伤的秃头中年男子变得高兴起来”，只见生成的视频不仅准确呈现了假发和眼镜的运动路径，而且还将男士由悲到喜的情绪刻画得十分细腻。

▲提示：一顶卷发假发和墨镜突然落在他的头上，悲伤的秃头中年男子变得高兴起来

相较于Gen-2，Gen-3 Alpha在保真度、一致性和运动性能上都有了显著的提升，被Runway称为“构建通用世界模型道路上”的重要一步。如下面的视频所示，Gen-3 Alpha可以模拟出水下色彩斑斓的珊瑚街道，不仅水下街道的建筑、动植物十分还原真实世界，甚至阳光透过水的光影效果也很逼真。

//oss.zhidx.com/uploads/2024/06/667106633ea9e_667106633a430_667106633a40d_gen-3-alpha-output-0011.mp4

▲提示：FPV飞行穿过水下郊区色彩斑斓的珊瑚街道。

Runway的发言人在给外媒VentureBeat的邮件中提到：“首批产品将支持5秒和10秒的视频生成，速度很快——5秒的视频只需45秒就能完成，10秒的视频也仅需90秒。”

目前，该模型的确切发布日期还未公布，Runway仅展示了演示视频。Runway联合创始人兼首席技术官Anastasis Germanidis透露，Gen-3 Alpha将在未来几天内首先面向付费用户提供，而免费用户则要再等等。

官方地址：https://runwayml.com/blog/introducing-gen-3-alpha/

一、高保真、高精细、高运动，Runway要打造现实世界模拟器？

按照Runway的说法，Gen-3 Alpha是一个能够“表示和模拟各种现实场景和互动”的AI模型，是“向构建通用世界模型迈出的一步”。

首先来看一下Runway使用Gen-3 Alpha制作的示例视频。

Gen-3 Alpha支持细粒度的时间控制。其接受过高度描述性、时间密集的字幕训练，能够实现富有想象力的过渡和场景中元素的精确关键帧。

//oss.zhidx.com/uploads/2024/06/667106923330a_667106922f31e_667106922f2f8_gen-3-alpha-output-002.mp4

▲提示：一只蚂蚁从巢穴中爬出的特写镜头。镜头拉远，露出山丘后面的街区。

//oss.zhidx.com/uploads/2024/06/6671066d4317a_6671066d3e8ad_6671066d3e888_gen-3-alpha-output-010-1.mp4

▲提示：一名宇航员正在里约热内卢的一条小巷里奔跑

Gen-3 Alpha可以生成逼真的人类。它擅长创造具有多种动作、手势和情感的富有表现力的人类角色。

//oss.zhidx.com/uploads/2024/06/6671069076182_667106907165c_6671069071636_gen-3-alpha-output-003.mp4

▲提示：一张电影广角肖像，一个男人的脸被电视的光照亮。

//oss.zhidx.com/uploads/2024/06/667106992145b_667106991dbd1_667106991dbad_gen-3-alpha-output-001.mp4

▲提示：一名女子的侧面照，远处有烟花绽放。

训练Gen-3 Alpha的是一支由研究科学家、工程师和艺术家组成的跨学科团队的合作成果，从而使得模型可以诠释各种风格和电影术语。

//oss.zhidx.com/uploads/2024/06/6671068e734c1_6671068e6850c_6671068e684e6_gen-3-alpha-output-004.mp4

▲提示：从窗户向外看，看到一个巨大的奇怪生物在夜晚破败的城市中行走，一盏昏暗的路灯照着街区。

//oss.zhidx.com/uploads/2024/06/667106812f0fd_667106812a9f5_667106812a9ca_gen-3-alpha-output-007.mp4

▲提示：一个空仓库，鲜花开始从混凝土中绽放。

//oss.zhidx.com/uploads/2024/06/6671065a22a2d_6671065a16810_6671065a167ed_gen-3-alpha-output-012.mp4

▲提示：夜间手持跟踪拍摄，跟随一只脏兮兮的蓝色气球漂浮在废旧的欧洲老街地面。

//oss.zhidx.com/uploads/2024/06/6671068c9f04a_6671068c9a9c2_6671068c9a99b_gen-3-alpha-output-005.mp4

▲提示：从肩膀上方拍摄一个女人奔跑并注视远方火箭的镜头。

//oss.zhidx.com/uploads/2024/06/66710686b5778_66710686b1aab_66710686b1a84_gen-3-alpha-output-006.mp4

▲提示：巨嘴鸟穿过塞伦盖蒂。

//oss.zhidx.com/uploads/2024/06/667106766d453_6671067668dbe_6671067668d9a_gen-3-alpha-output-009.mp4

▲提示：东京的一条小巷里，一只粉红色的小猪正快速向镜头跑来。

二、结合视频图像进行训练，跨行业团队训练，本周将可访问

在职场社交平台领英上，一位Runway用户预计他将在本周晚些时候获得Gen-3 Alpha的访问权限。

这位用户在X平台上提到，Gen-3 Alpha“很快就会在Runway产品中上线，并将支持所有现有的模式，包括文本转视频、图像转视频、视频转视频，以及一些通过更强大的基础模型才能实现的新功能。”

他还提到，自2023年发布Gen-2以来，Runway发现“视频扩散模型在性能提升方面还有很大的发展空间，而这些模型在学习预测视频的任务时，已经构建出了真正强大的视觉世界表征。”

Runway在其博客文章中提到，Gen 3-Alpha“结合了视频和图像进行训练”，并且“这是由研究科学家、工程师和艺术家组成的跨学科团队共同努力的成果”。

Gen 3-Alpha背后具体的数据集尚未公开，外界也不清楚这些数据是付费的的还是从网上收集的。Runway的发言人通过电子邮件回复外媒VentureBeat：“我们有一个内部研究团队负责监督所有训练过程，使用的是精心挑选的内部数据集来训练模型。”

Runway还公布，他们已经与各大娱乐和媒体组织携手合作，为Gen-3定制了专属版本，据称这有助于在角色风格上实现更统一的控制，并满足特定的艺术和叙事要求等。目前，定制模型的训练费用尚未公开。

结语：Runway为AI视频生成大战再添一把火

Gen-3 Alpha是Runway即将推出的系列模型中的首款，这些模型都在其专为多模态大模型而搭建的新基础设施上训练而来，但具体是如何训练的，以及模型关键技术仍待披露。

AI视频生成领域的大战一触即发，继OpenAI的Sora亮相后，近期Luma AI刚推出的Dream Machine、快手刚推出的可灵又掀起了一波AI生成视频小高潮，本次Runway的动作为赛道再添一把火。模型的实际使用效果如何，我们将持续关注。

宣战Sora！Runway最新视频生成模型上线，可生成10秒高保真、高动态视频

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

我国人在过节，世界却发生三大悲剧，欧洲大变，德国向俄宣战

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

我国四大“军事禁地”，个个都重兵把守，一旦遇袭直接宣战！

迟到十年的宣战书：31年开始打仗，为何到41年中日才“正式宣战”

洋人递交折子要慈禧下台，不料慈禧看后大怒，直接同时宣战十二国

老杜女儿和马科斯切割后，老杜要参与明年选举，对马科斯家族宣战

开放耳机市场迎来大爆发，它比TWS到底好在哪？

1962年对印开战前夜，耿飚派人将印度外交官从床上叫起，正式宣战

男子去路边摊吃饭，老板用手机模型引流，网友：这哪是模型啊这分明是销冠

爆燃的高分战争动作大片，场面残酷真实，感受视觉震撼不容错过！

有律师竟然把蒋介石洗白为英雄烈士，网友怒了：互联网如此疯狂？

这才叫高分战争片，场面炸裂带你感受视觉震撼，值得观看不容错过

憋尿都要看完的战争电影,全程惊险火力劲爆,感受视觉震撼！

场面真实劲爆的高分现代战争大片，全程火力对决，感受视觉震撼！

宣战Sora！Runway最新视频生成模型上线，可生成10秒高保真、高动态视频

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

我国人在过节，世界却发生三大悲剧，欧洲大变，德国向俄宣战

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

我国四大“军事禁地”，个个都重兵把守，一旦遇袭直接宣战！

迟到十年的宣战书：31年开始打仗，为何到41年中日才“正式宣战”

洋人递交折子要慈禧下台，不料慈禧看后大怒，直接同时宣战十二国

老杜女儿和马科斯切割后，老杜要参与明年选举，对马科斯家族宣战

开放耳机市场迎来大爆发，它比TWS到底好在哪？

1962年对印开战前夜，耿飚派人将印度外交官从床上叫起，正式宣战

男子去路边摊吃饭，老板用手机模型引流，网友：这哪是模型啊 这分明是销冠

爆燃的高分战争动作大片，场面残酷真实，感受视觉震撼不容错过！

有律师竟然把蒋介石洗白为英雄烈士，网友怒了：互联网如此疯狂？

这才叫高分战争片，场面炸裂带你感受视觉震撼，值得观看不容错过

憋尿都要看完的战争电影,全程惊险火力劲爆,感受视觉震撼！

场面真实劲爆的高分现代战争大片，全程火力对决，感受视觉震撼！

男子去路边摊吃饭，老板用手机模型引流，网友：这哪是模型啊这分明是销冠