新智元报道
编辑:Aeneas
【新智元导读】世界模型迎来高光时刻:谷歌还在闭源,中国团队已经把SOTA级世界模型全面开源了,LingBot-World正面硬刚Genie 3,彻底打破了全球垄断!
刚刚,国内AI公司,又给了业界不小的震撼。
蚂蚁灵波科技发布的LingBot-World,刚刚成为开源SOTA级的世界模型。
可以说,它已经全面对标了谷歌Genie 3,甚至在一些性能指标上超越了Genie 3!
更令人震撼的是,LingBot-World是开源的。开源阵营,又一次领跑,彻底打破了闭源垄断。
Demo一放出,立刻惊呆了外国网友。
才没过多久,X上已经被LingBot-World刷屏了,直接登顶了热搜榜的TOP 1。
海外网友疯狂打call,直呼这个来自中国的模型太震撼了!
更耐人寻味的是,LingBot-World在X上发布后,Genie甚至宣布将于近期开源。
全面对标Genie 3
在可交互性、生成质量、物理一致性和生成时长上,LingBot-World都能全面对标Genie 3。
可能你会问,为什么要对标Genie 3?
不可否认的是,谷歌DeepMind发布的Genie 3,代表着该领域的最高水平。
然而Genie 3有一个大问题:它是闭源的,因而社区无法基于它进行开发和迭代。因此如果学术界和初创公司想训练一个高质量世界模型,门槛是极高的。
Genie 3仍处于闭源状态
但蚂蚁灵波的这次开源,直接就让大家拥有了SOTA级的物理仿真底座,根本无需从零造轮子。
无论是代码、权重还是数据管线,都全部公开,全球社区都将依此打造无限可玩的下一代虚拟世界!
在多个领域,LingBot-World都能打造高保真、高动态、高物理一致性的可交互动态环境,包括照片级真实景观、科学可视化和风格和的艺术世界
让我们具体来看看,LingBot-World具有哪些性能优势?
首先,这是一个高保真的世界模型。
它能进行多模态的角色模拟,具备强大的泛化能力。猫怎么跳、蚂蚁怎么爬,关羽怎么挥刀、龙骑士怎么起飞,这背后复杂的物理动态和行为逻辑,它都能理解和模拟。同时,还能模拟极具表现力的动态环境。
细粒度可控性,让它实现了对角色相机的精准控制;Zero-shot的交互生成,还能把故宫实拍这类真实场景和游戏截图直接生成可交互的视频流。
LingBot-World高保真模拟与精准控制能力令人惊叹
关羽骑马挥刀动作背后的物理动态和行为逻辑,模拟得十分精确
故宫这类真实场景的可交互视频流,看不出破绽
其次,它有着SOTA级长视频生成能力,还是完全开源的!
一个真正厉害的世界模型,就在于不仅记得住,还能记得久。
LingBot-World的长时记忆,即便在大幅度运镜或长时间跨度下,依然能让主体特征保持稳定性,不漂移、不遗忘。
林教头风雪山神庙的的多种场景中,始终保持着长时序的一致性与记忆
对它来说,60秒的无损生成只是起点。依托强大的记忆能力,它突破了时序一致性的瓶颈,直接实现了10分钟的高质量无损输出!
从此,我们不必担心再多看一会就要穿帮,在这个连续运行的世界里,角色、环境和故事都可以自然地发生。世界模型,真正开始「像一个世界」。
选择一个世界设定和一个特定事件,它就能生成一个世界
最后,它的下游应用潜力也是巨大的。
因为整个世界都能讲得通,物理仿真环境前后一致、逻辑自洽,还有稳定的长时记忆,它就成为了3D场景重建和具身智能、游戏Agent训练的理想底座。
可以说,这是一个永远不会塌的训练场:世界是稳定的,时间是连续的,智能体可以在里面不断试错、不断成长。
LingBot-World,摘下圣杯
长期以来,理解并模拟物理世界的技术,一直都是AI领域的圣杯。
然而,尽管当前的SOTA模型在渲染视觉连贯的短片段时已经非常逼真,但本质上,它们却仍然是基于统计关联性来生成像素过渡,并不能真正理解因果关系、物体恒存性以及交互后果这些底层规律。
可以说,从视频生成到世界模型之间,有着巨大的鸿沟,原因就在于高质量互动数据的稀缺、扩散架构的灾难性遗忘,以及实时控制的计算成本过高。
甚至,该领域最先进的方案始终处于专利垄断状态,而现在LingBot-World框架的诞生,彻底打破了这种壁垒!
从此,大规模虚拟世界的研究会更加普及,内容创作、游戏开发、机器人学习的实践,会注入一股强大动力。
对内容创作者来说,灵感不会再被制作成本所限制——一个想法,就能生成一个可持续运转的世界。
游戏里的角色,不再只是在脚本里走流程;机器人也能在稳定的虚拟环境中反复试错。
LingBot-World框架不仅是一个生成式模型,更是一个能实时学习虚拟世界动态并进行渲染的完整系统。
而团队创新背后的三大支柱,就是具备层级语义的可扩展数据引擎、多阶段的进化训练流程,以及具身人工智能的多功能应用。
为了构建能稳健处理新视角、复杂动态和长期规划的世界模型,团队将数据引擎结构化为数据采集、数据分析和数据标注协同的统一流程。
通过下图这个分析引擎,团队有效弥合了原始视频数据与训练用资源之间的鸿沟。
接下来,团队提出了一个多阶段的进化策略,将基础视频生成器转化为交互式的世界模拟器。
在这个训练流程中,第一阶段(预训练)会建立一个通用视频先验。第二阶段(中期训练)会注入世界知识;第三阶段(后训练)则是实现低延迟与严格因果关系。
LingBot-World的视频生成流程如下。
左图显示,系统会以图像或视频、噪声潜在变量及用户自定义动作信号为输入,生成具有长期连贯性、空间记忆和精准动作跟随能力的视频序列。
而在右图中,DiT模块首先经过自注意力层,让系统学习时空一致性、发展空间记忆能力,然后通过Plucker编码器注入动作信号,最后通过交叉注意力层,将文本嵌入向量条件化到视频潜在变量上。
最终,LingBot-World能生成可控的视觉世界,而非随机的视频生成。
定性分析结果显示,LingBot-World能有效处理不同物体的属性和空间构型,帧与帧之间的过渡极其流畅,并且逻辑自洽。
另外,这个世界模型还表现出一个关键特性,就是能自发地保持全局一致性。这就证明:视频模型已经具备了物体重现的隐性记忆!
因此,它不仅能呈现动态视觉效果,还能推理未观测状态的演变。
比如下图第5行中,离开画面的车辆在未被观测的情况下仍会继续其运动轨迹,并在物理上合理的位置重新出现。这就表明,该模型模拟的是现实世界中潜在的时空一致性,而非简单地记忆像素数据。
总之,对于交互式世界模型而言,LingBot-World能提供更具动态感和交互性的环境,这就能大大提升用户在交互式场景中的沉浸式体验。
如此强大的效果,让LingBot-World在多个场景中都有着巨大的应用价值。
比如,引入可操控的全局事件,它就可以根据文本提示,来生成多样化的未来轨迹。
结果显示,模型既能处理「冬季」「像素艺术」这样的全局性环境变化,也能精准调控「烟花」「鱼类」这样的局部情境,并且始终保持物理与时间维度的连贯性。另外,它还可以作为一个行动智能体,预测一系列模拟环境探索的动作,转换为相机轨迹,从而驱动后续的世界生成。
最后,通过大规模3D重建基础模型,我们还能将生成的视频序列进一步转化为高质量的场景点云。
因为这些点云展现出了高度的空间一致性,就为下游的具身智能训练提供了多样化的数据来源。
这一点,我们会在下面详细展开。
蚂蚁灵波为何同时布局VLA和世界模型
巧的是,就在前两天,蚂蚁灵波刚刚发布了空间感知和VLA基座模型。全新开源的LingBot-VLA,刷新了具身智能开源SOTA。
29号,紧接着又发布了LingBot-World世界模型。
从这一系列动作和布局可以看出,蚂蚁灵波在坚持这样一条路线:做「大脑」,做「智能基座」。
为何选择同时布局VLA和世界模型?
原因就在于,VLA负责在真实世界中执行任务(Action),而世界模型负责在虚拟空间中进行低成本试错与推演。
前者是机器人的「大脑」和「手」,后者赋予机器人物理常识,二者分工不同,却天然互补。
VLA擅长直面真实世界,把感知转化为具体动作,真正去完成「拿、放、走、避让」等动作,但真实环境的成本很高,试错代价很大。此时世界模型的出现,恰好补上了这块短板。
后者在虚拟空间中复刻现实世界的物理规律和时序逻辑,让大量失败和修正,都可以在低成本的可控环境中完成,选出最符合物理定律、最安全的路径,然后再迁移到真实世界执行。
二者的深度融合,就形成了「感知-行动-认知」的闭环,解决了具身智能数据获取难、训练成本高、泛化能力弱的行业核心痛点。
这种闭环机制,就从根本上解决了具身智能长期面临的「数据获取难、训练成本高、泛化能力弱」三大难题。
在这些逼真的虚拟环境中,机器人能快速试错、学习,再应用到真实世界,这样就极大降低了研发成本。
因此,世界模型也成为兵家必争之地,无论是OpenAI、谷歌还是英伟达,都在押注世界模型。
要知道,机器人完成一项任务,往往要持续很久,但传统模型生成的视频,通常只能稳定几秒,之后画面就会开始崩坏,因此,机器人很难把任务从头到尾顺利完成。
然而LingBot-World却能做到10分钟级别的无损生成,而且在多步骤、长序列任务中都能保证训练的稳定性。这对机器人训练的意义,可以说是范式级的!
原因在于,机器人训练里最痛的点之一,就是动作是对的,但过一段时间就全错了。不过,如果模型能稳定生成10分钟级别的视频,意味着它具备了长时记忆状态,以及行为之间的因果一致性。
因此,找 → 拿 → 搬 → 放 → 整理这种多技能组合,都可以在一个连续轨迹里学完,这对通用机器人有决定性的意义,让它们「在脑子里练习」成为真正成为可能。
从此,机器人第一次真正具备了长期行为能力!
部署后实时演示的实拍视频
PhysicalAI时代,谁将成为巨头?
可以看到,世界模型在当下仍然处于前沿探索阶段,技术路径尚未真正收敛,研发投入高、周期长,注定不是一条「快钱」的路线。
但正因如此,选择坚定投入世界模型与VLA融合的公司,本身就做出了一次清晰而长远的判断——他们押注的不是短期应用,而是机器人未来的「理解力」和「行动力」。
这个行业,终究要有人去做「大脑」,而不仅仅是「躯体」。
从表面看,蚂蚁灵波选择打造「智能基座」,似乎是一条与宇树、智元等硬件路线错位竞争的道路,但这恰恰是一条最难的基础设施级赛道。
不过,打造智能基座虽然最难,增量空间也是最大的。
更重要的是,当这样的能力选择对社区开放,接受真实世界的检验与迭代,其影响力将不只属于某一家公司,而会成为推动具身智能乃至整个AI时代向前演进的一股关键力量。
Physical AI时代,感谢有蚂蚁灵波。

