上线一个月,Vidu 再度迎来重大更新!

4月底,由生数科技和清华大学联合研发的国内首个纯自研原创视频大模型 Vidu 面向全球发布,7月底正式上线,全面开放使用,凭借在快速推理、精确语义理解、高动态性和极致动漫风格等方面的优势,Vidu 产品表现位列全球视频大模型的“第一梯队”。

仅过去一个多月的时间,Vidu 迎来重大功能更新。9月11日生数科技举办媒体开放日活动,期间 Vidu 全球首发「主体参照」(Subject Consistency)功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。目前该功能面向用户免费开放,注册即可体验!(体验地址: www.vidu.studio)

一、全球首个!仅需一张图片实现主体可控

所谓“主体参照”,就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。

该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新。Vidu 也是全球首个支持该能力的视频大模型。

比如进行人物角色的“主体参照”,无论是真实人物还是虚构角色,Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

比如动物,Vidu 可以实现其在不同环境下、大幅运动状态中细节特征保持一致。

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

比如商品,商品的外观和细节在不同场景中保持高度一致。

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

上传的主体也不限于写实风格,比如针对动漫角色或者虚构的主体等,Vidu 也可以保持其高度一致。

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

在视频大模型领域,尽管已有如“图生视频”和“角色一致性”等能力,但 Vidu 的“主体参照”功能在一致性方面实现了质的飞跃。具体对比看:

  • 图生视频(Image to Video):基于首帧画面的连续生成,无法直接输出目标场景,限制了视频内容的多样性和场景的自由度;
  • 角色一致性(Character to Video):只限于人物面部特征的一致性,难以保证人物整体形象的稳定;
  • 主体参照(Subject Consistency):不局限于人物,面向任意主体,其次在人物主体下,可选择保持面部一致,也可选择保持人物整体形象的高度一致,通过输入文字描述灵活输出目标场景;

我们以具体案例来看,输入一张林黛玉的角色照,输入同样的“在现代咖啡厅喝咖啡”的描述,能直观看到,在Vidu “主体参照”功能下,林黛玉的形象在现代场景中得到了完美保留,场景输出也自然而真实。

原图

打开网易新闻 查看更多图片

图生视频

打开网易新闻 查看更多图片

主体参照

打开网易新闻 查看更多图片

角色一致性

打开网易新闻 查看更多图片

二、改变视频创作“游戏规则”

视频大模型领域的竞争日益激烈,尽管众多模型层出不穷,但它们普遍存在着一个核心问题——可控性不足,或者叫一致性的不足。

在实际的视频创作中,视频内容往往围绕特定的对象展开,可以是角色或特定物体,这些对象在视频中的形象需要保持连续一致。然而现有的视频模型往往难以实现这一点,常常是主体在生成过程中容易崩坏。

尤其在涉及复杂动作和交互的情况下,保持主体的一致性更是一项挑战。此外,视频模型的输出结果具有较大的随机性,对于镜头运用、光影效果等细节的控制也不够精细。所以现阶段的视频模型虽然在画面表现力、物理规律、想象力等方面实现了一定程度的突破,但可控性的不足限制了它们在创作连贯、完整视频内容方面的应用。目前,大多数的 AI 视频内容还是基于独立视频素材的拼接,情节的连贯性不足。

为了解决这一问题,业界曾尝试采用“先AI生图、再图生视频”的方法,通过AI绘图工具如 Midjourney 生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。

但问题在于,AI 绘图的一致性并不完美,往往需要通过反复修改和局部重绘来解决。更重要的是,实际的视频制作过程中涉及众多场景和镜头,这种方法在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,且最终的视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。

Vidu 的“主体参照”功能彻底改变了这一局面。它摒弃了传统的分镜头画面生成步骤,通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一创新方法不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵活多变的视频内容。这一突破将为视频创作带来了前所未有的自由度和创新空间。

打开网易新闻 查看更多图片
(图为AI视频制作流程的重塑)

三、加速故事类、广告类视频创作

这一功能也确实得到了众多一线创作者的“高度评价”。

  • 仅需三张定妆照,完成短片创作

“主体参照”功能通过锁定角色或物体的形象,一方面让故事情节更具连贯性,另一方面让创作者能够更自由地探索故事的深度和广度。

光驰矩阵的发起人、青年导演李宁正在打造中国首部AIGC院线电影《玄宇》。他利用 Vidu 预创作了一段男主的视频片段,其中所有人物画面仅通过男主近景、中景、远景三张定妆照生成。李宁在创作分享中提到,之前的AI电影创作过程,采用传统的文生图、图生视频流程,在分镜的连贯上很难掌控,人物的整体造型很难保持一致,前期需要耗费大量的精力去调试图片,同时画面还容易产生镜头光影失控、图像模糊甚至变形等一系列问题,且随着视频篇幅的增加,这些问题被进一步放大。Vidu “主体参照”功能让人物的整体一致性显著提升,不再需要前期生成大量的图片,人物运动和画面过渡也更加自然,极大助力了长篇叙事的创作。

中央广播电视总台导演、AIGC艺术家石宇翔(森海荧光)创作了一条动画短片《夏日的礼物》,在分享创作流程中他表示,与基础的图生视频功能相比,“主体参照”功能摆脱了静态图片的束缚,生成的画面更具感染力和自由度,让创作的连贯性大大提升。同时帮助他节约7成左右的生图工作量,显著提效,让他能够将更多精力放在故事内容的打磨上,而非生成图片素材上。另外他表示,再叠加上 Vidu 的复杂动作处理能力和多元素的理解能力,他觉得 Vidu 就像是一位真人助理“动画师”在辅助创作。

  • 基于一张商品图,仅六个小时完成一支广告片

“主体参照”功能在商业广告片方向展现了强大的潜力。广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性。Vidu “主体参照”功能能够很好的实现,例如,在下面的跑步鞋广告案例中,仅通过一张商品图,便完成了所有视频画面的生成,无论是不同角度、背景,还是动态表现,跑步鞋的形象在整个视频中都保持了高度一致。

生数科技官方介绍到,该视频仅一位人员花费6个小时完成,包含前期策划、素材生成,后期剪辑,其中30段 AI 视频素材的生成仅花费3个小时,整个流程仅参照一张商品图。传统广告片制作高度依赖线下实拍和后期制作,时间周期长、成本投入大,但现在通过 Vidu 能够极大地节省广告制作的成本,整个产出流程更加高效,品牌方对新素材的开发也能更加灵活。

与功能发布同步,生数科技也推出了合作伙伴计划,邀请广告、影视、动漫、游戏等行业的机构加入,共同探索新的视频创作模式,在内容共创、技术支持、市场拓展等方面展开合作。首批合作伙伴包括开心麻花、猫眼娱乐、巨人网络、美克家居、融创文化、河南省非物质文化遗产保护和智慧化中心、李可柒画院等知名企业与机构。

四、“主体参照”是 AI 完整叙事的开端

作为国内首个纯自研的视频大模型,Vidu 自发布以来便在海外内受到广泛关注。在7月底正式上线后,凭借在动态性、语义理解、动漫风格、快速推理等方面的亮点,Vidu 产品表现位列全球视频大模型的“第一梯队”,并在TikTok 等海外社交媒体平台上掀起多种 AI 视频主题玩法的热潮,如“跨越时空的拥抱”等。根据第三方的数据显示,Vidu 上线首月便位列全球网页类产品用户访问量增速第一。

面向专业创作领域,Vidu 也牵手海内外多位 AI 艺术家,探索 AI 赋能下的全新创作模式。比如与北京电影节 AIGC 短片单元最佳影片得主、Ainimate Lab 合作打造的动画短片《一路向南》,画面质量接近传统动画制作标准,但成本仅为传统流程的 1/40。Ainimate Lab AI 负责人陈刘芳表示,该短片的创作团队仅由三人构成:一名导演、一名故事版艺术家和一名 AIGC 技术应用专家,制作周期约为 1 周,而传统流程需要 20 人,包含导演、美术、建模、灯光、渲染等不同“工种”,周期在一个月左右。由此可见,Vidu 大大缩短了制作周期并显著降低了成本。

生数科技联合创始人兼CEO唐家渝表示, "主体参照"这一全新功能的上线,代表着 AI 完整叙事的开端,AI 视频创作也将迈向更高效、更灵活的阶段。无论是制作短视频、动画作品还是广告片,在叙事的艺术中,一个完整的叙事体系是“主体一致、场景一致、风格一致”等要素的有机结合。

因此,视频模型要达到叙事的完整性,就必须在这些核心元素上实现全面可控。“主体参照”功能是 Vidu 在一致性方面迈出的重要一步,但这仅仅是开始。未来,Vidu 将继续探索如何精确控制多主体交互、风格统一、多变场景稳定切换等复杂元素,以满足更高层次的叙事需求。

从更长远的视角来看,一旦实现了全面的可控性,视频创作行业将经历一场颠覆性的变革。届时,角色、场景、风格,甚至镜头运用、光影效果等元素,都将转化为可灵活调整的参数。用户只需要动动手指、调调参,就可以完成一部影像作品的创作,而每一个作品的背后,也将是用户基于AI构建出的独特世界观和自我表达。