中国AI视频大模型Vidu惊艳亮相，性能堪比Sora，引领AI视频生成进入新纪元

Vidu，中国首款具备长时长、高一致性、高动态的视频大模型，惊艳亮相中关村论坛。由生数科技与清华大学联合研发，Vidu可轻松生成16秒、1080P超清视频，支持一键高清视频生成，视觉效果媲美顶尖AI生成模型Sora。

Vidu展现了卓越的多镜头叙事能力、时间空间连贯性及对物理规律的遵循，并能创造出超越现实世界的超现实主义画面。短短两个月，Vidu突破传统GIF局限，技术水平令人惊叹。对此，数字经济应用实践专家骆仁童博士表示，Vidu的出现不仅是技术的突破，更是中国AI视频大模型创新的一次革命。它将算法与艺术的边界模糊化，让我们看到了一个全新的可能性。

在视频创作领域，镜头语言的运用至关重要。传统的AI视频生成方法在镜头语言的应用上往往显得单调且缺乏创新，镜头运动通常仅限于简单的推、拉、移等操作。这主要是由于现有的视频内容生成技术存在局限性，这种技术手段使得长时序的连贯预测变得异常困难，导致视频中只能呈现微小的动态变化。

相比之下，Vidu技术在镜头语言的应用上取得了显著突破。Vidu能够一次性生成包含多个镜头的连贯片段，从近景到远景，整个过程流畅自然。更令人赞叹的是，Vidu还能直接生成转场、追焦、长镜头等复杂效果，在提升视频画面整体叙事感方面表现出色。

除了镜头语言的丰富性外，Vidu还注重保持时间和空间的一致性。在视频制作中，确保画面的连贯和流畅性至关重要，这需要保持人物和场景的时空一致性。

值得一提的是，Vidu还具备模拟真实物理世界的能力。这一特性使得生成的视频在细节表现上更加逼真动人，能够准确地呈现出汽车轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化等细节。

Sora和Vidu在走路镜头的模拟上可谓旗鼓相当，两者各有千秋。视频中的角色行走自如，尤其是环境渲染方面，霓虹灯在湿漉漉的路面上的倒影，为画面增色不少，使得逼真度大幅提升。Vidu不仅能够生成人物，甚至能模拟出走路的熊，人物一致性让人惊艳。

在处理复杂镜头和多角度切换方面，Vidu也毫不逊色，虽然画面细节仍需打磨，但其流畅的镜头转换宛如真人导演的巧妙构思。

在画面创意方面，Vidu同样令人赞叹，如画室中的船随浪起伏，木制玩具船在地毯上航行等场景，充分展示了其想象力。

在理解和呈现中国文化元素方面，Sora在国外唐人街舞龙环节表现出色，画面细节丰富，文化氛围浓郁。而Vidu生成的“龙”则更接近西方世界的龙形象。

生数科技，清华大学联合孵化的人工智能创业公司，以惊人的速度推出了全新大模型——Vidu。仅用时两个半月，便在业界掀起了一场技术风暴。Vidu不仅代表着生数科技的最新成果，更是团队多年技术积累的结晶。

在朱军副院长的领导下，生数科技的核心团队汇聚了清华大学人工智能研究院的精英力量。他们致力于生成式人工智能和贝叶斯机器学习的研究，深耕行业二十余载。在扩散模型领域，团队更是国内先行者，取得了一系列令人瞩目的成果。

在AI视频生成技术的赛道上，生数科技的Vidu已然成为国内最具竞争力的大模型之一。虽然腾讯等科技巨头也推出了类似产品，但Vidu凭借其卓越的性能和创新性，展现出了追赶甚至超越的潜力。

Vidu的诞生，标志着生数科技在多模态大模型赛道上迈出了坚实的一步。该模型基于U-ViT融合架构，具备强大的长视频表示与处理能力。无论是文本到图像、文本到视频，还是图像到视频、视频到视频，Vidu都能轻松应对，满足各种生成需求。更值得一提的是，Vidu支持任意宽高比和分辨率的视频生成，为用户带来前所未有的创作体验。

商道童言（Innovationcases）欢迎点赞和分享哦！~~

免费电子书： | | | |

数字经济应用实践专家骆仁童主讲课程

人工智能：

数字应用：

数字中国：

数字化转型：》

产业数字化：《》

宏观与趋势：

思维与技能：》

创新与创业：

中国AI视频大模型Vidu惊艳亮相，性能堪比Sora，引领AI视频生成进入新纪元

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

GPT-4 更强的标志，原来藏在了 logo 里

可以互相交谈的人工智能来了

“离谱的AI扩图”火了！张张那叫一个出其不意

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步

英国防大臣称中国向俄提供"致命性援助" 驻英使馆反击

一哄而上，打不赢美国高科技

罕见！郑树森院士被国际期刊终身禁稿

松下LUMIX S9首发评测：不足一斤重复古无反相机谁能不爱

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

男子坐星巴克店铺外的桌椅坐下一分钟不到就被撵走

美女舞蹈生展示一字马，完全不顾穿的什么，看到不该看的！

东部战区发布“联合利剑－2024A”演习区域示意图

就任越南国家主席的苏林，较为突然地被免去公安部长职务

NBA最佳阵容:国际球星统治一阵詹库三阵

中国AI视频大模型Vidu惊艳亮相，性能堪比Sora，引领AI视频生成进入新纪元

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

GPT-4 更强的标志，原来藏在了 logo 里

可以互相交谈的人工智能来了

“离谱的AI扩图”火了！张张那叫一个出其不意

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步

英国防大臣称中国向俄提供"致命性援助" 驻英使馆反击

一哄而上，打不赢美国高科技

罕见！郑树森院士被国际期刊终身禁稿

松下LUMIX S9首发评测：不足一斤重复古无反相机谁能不爱

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

男子坐星巴克店铺外的桌椅 坐下一分钟不到就被撵走

美女舞蹈生展示一字马，完全不顾穿的什么，看到不该看的！

东部战区发布“联合利剑－2024A”演习区域示意图

就任越南国家主席的苏林，较为突然地被免去公安部长职务

NBA最佳阵容:国际球星统治一阵 詹库三阵

男子坐星巴克店铺外的桌椅坐下一分钟不到就被撵走

NBA最佳阵容:国际球星统治一阵詹库三阵