2026 年 2 月 12 日,普林斯顿大学机械与航空航天工程系副教授 Anirudha Majumdar 在 X 上发表了一篇长博文,直面一个正在机器人学界升温的核心争论:为具身智能构建世界模型,到底应不应该去“预测像素”?

Majumdar 是普林斯顿机器人研究倡议(Princeton Robotics Initiative)的联合主任,同时在 Google DeepMind 担任兼职访问研究科学家。他的研究聚焦于让机器人在以人为中心的环境中安全、可靠地泛化到新场景,曾获斯隆研究奖(Sloan Fellowship)、两次 Google 教授研究奖,以及《国际机器人研究期刊》(IJRR)年度最佳论文等荣誉。

打开网易新闻 查看更多图片
图丨Anirudha Majumdar(来源:Princeton MAE)

他本人也是去年 12 月 Google DeepMind 那篇引发广泛关注的 Veo 机器人策略评估工作的合作者之一,该研究展示了如何用前沿视频生成模型 Veo 作为机器人策略的“世界仿真器”,通过 1,600 多次真实世界评估验证了其有效性。

在文章中,Majumdar 表示当前机器人领域的世界模型几乎等同于视频生成模型,这条路线在概念简洁性、评估便利性、商业推动力等方面拥有不容低估的短期优势;但 Yann LeCun 倡导多年的潜在世界模型(以 JEPA 架构为代表)在长时域规划上更具前景,可能在五年左右的时间尺度上成为关键组件。两者并非你死我活的替代关系,更可能走向协同。

以下是这篇博文的全文编译。

机器人的世界模型

在机器人学界,一个大致的共识似乎正弥漫在空气中:未来的通用策略将建立在“世界建模”的配方之上,而非迄今为止占主导地位的 VLM(Vision-Language Model,视觉语言模型)骨架方案。

论点如下:VLM 没有被显式地训练来预测未来,因此在几何、空间和物理推理能力上,也就是预测动作精细后果所需的那类能力并不可靠。相比之下,世界模型允许机器人“想象”未来以进行规划,例如:(1)生成一段想象中成功执行的视频,再用逆动力学模型推断所需动作;或者(2)直接使用一个以动作为条件的世界模型来优化规划。

2026 年初的机器人学:世界模型=视频模型

在 2026 年初,机器人领域的世界建模由视频世界模型主导,即那些被训练来预测未来视频帧(以文本以及潜在的动作为条件)的生成式模型。这些模型建立在视频建模领域巨大进步的基础之上:在互联网规模数据上训练的基于扩散的架构,能够生成惊人逼真的视频,包含复杂的物理交互,例如来自 Veo、Cosmos 和 Wan 的视频。

仅在过去一年中,我们就已经看到经过机器人数据微调的视频模型能够执行策略评估、数据生成和推理时规划生成;相关综述可参阅文献[1]。就我个人而言,参与 Veo 的策略评估工作提供了一次巨大的认知更新,看到如下所示的视频模型“仿真”,让我确信视频模型终于到了可以在机器人领域大展身手的时刻。

视频模型的挑战

尽管结果令人振奋,当前所有用于机器人的视频模型都受到同一组幻觉问题的困扰:物体凭空复制、无中生有、凭空消失,或者在自发地或在被遮挡后重新出现时发生形变。

此外,长时域生成是一个重大挑战:当前机器人领域的视频模型很难在超过 20-30 秒之后仍能产出高质量的生成结果。

潜在世界模型:不要预测像素

从直觉上看,视频建模对于世界模型而言似乎是一个不必要地困难的任务。预测背景中树叶运动的像素级细节,或者预测即将出现在我办公室门口的人的精确面部特征,显然是没有必要的。

我们可以转而构建一个潜在世界模型(latent world model),只预测环境的某些特征。具体来说,通过预测可预测之物,我们可以将表征能力集中在真正重要的事情上,而不是那些细枝末节,比如在特定光照条件下物体的精确外观。

Yann LeCun 多年来已经非常有力地阐述了这一论点(参见他在普林斯顿机器人研讨会上的演讲)。他在 Meta 和 NYU 的团队开发了多种形式的 JEPA(Joint-Embedding Predictive Architecture,联合嵌入预测架构),这种架构学习观测的潜在表征,以预测其他(例如未来)观测的表征。

V-JEPA 2 展示了这种自监督学习如何涌现出有用的视频特征。此外,该工作还展示了模型的动作条件版本如何通过在推理时优化动作序列来实现机器人规划。

潜在世界模型的论点在长时域任务上尤其有说服力。预测世界在未来 10-20 秒内如何在像素层面演化似乎还说得过去,但将这一尺度扩展到分钟或小时级别,既极其困难,又完全没有必要。

为什么视频模型将在短期内胜出

在接触视频模型之前,我曾被上述潜在世界模型的论点所说服;只预测世界显著特征的极简主义方法确实很有吸引力。然而,我想要论证的是,视频建模在技术和实践上有一些不应被低估的显著优势。这些优势在一年前对我来说并不显而易见,我希望在这里把它们明确写出来能对其他人有所帮助。

概念上的简洁性。视频建模的任务是明确无歧义的:预测未来帧。类似于 LLM(Large Language Model,大语言模型)的下一个 token 预测,一个清晰的监督信号可以为下游任务带来良好的特征,以及诸如物体分割、视频编辑和视觉推理等涌现能力。

这与 JEPA 形成鲜明对比:预测可预测之物这一任务并非完全指定的(not fully specified),如果实现不当会导致表征坍缩——构建一个可预测嵌入的最简单方式就是让它成为常数。

清晰的评估指标。对视频模型进行爬坡优化(hill-climbing)是直截了当的。有标准指标(如 LPIPS 或 FID)可以用来评估视频生成的质量。JEPA 则不然,它优化的损失函数并不一定与下游性能相关(不过最近的 LeJepa 论文在这方面展现了一些积极迹象)。

推理时缩放与验证器。视频模型允许 VLM 被直接用作验证器。通过生成多段视频并用 VLM 打分,我们可以过滤掉不真实或低质量的生成结果。这提供了一个简洁的推理时缩放配方。

视频模型赋能策略评估。视频模型可以充当机器人策略的完整仿真器。为了执行闭环 rollout,仿真器的输出必须与策略的输入匹配。对于视觉运动控制(visuomotor control),这就要求生成完整的图像(除非策略被迫在潜在世界模型的潜在空间中接收输入)。

视频模型与图像编辑器的天然组合。视频模型可以接受编辑后的帧作为输入。正如我们在 Veo 工作中所展示的,这提供了一个简洁的配方,用于在分布外(out-of-distribution)场景中进行策略评估。

真实世界的观测可以被编辑(例如引入新物体或背景),然后用于条件化策略 rollout。可以想象,类似的策略也能用于视频模型在分布外场景中的数据生成(类似于 DreamGen)。

巨大的商业激励。支持视频模型的主要论点实际上是一个非技术性的。开发好的视频生成模型面临着巨大的商业压力。从社交媒体应用到电影制作,视频模型将以独立于机器人领域的速度快速发展。

我们已经反复看到这部电影的剧情,从用于游戏的深度相机,到用于智能手机的 IMU(Inertial Measurement Unit,惯性测量单元),再到用于 NLP(Natural Language Processing,自然语言处理)的 LLM——因独立商业原因开发的技术,最终革新了机器人学。同样的事情很可能也会发生在视频模型身上。

在近期(2-3 年),我预计视频模型将继续作为机器人世界建模的主导力量。尤其是对于短时域操作任务,这仍然是当今机器人学大部分研究的北极星,我预计上述优势将超过潜在世界模型的潜在收益。

JEPA 会在长期胜出吗?

JEPA 用于机器人的核心未解技术问题是:JEPA 学到的"可预测特征"是否等同于对机器人有用的特征?可预测的特征本身并不一定有用——我们总是可以预测那个将任何图像映射为常数的特征。然而,DINO 的存在提供了一个强有力的证据,它可以说是 JEPA 风格自监督学习最大的成功案例。

DINO 特征在广泛的下游视觉任务中取得了最先进的结果,如分割、深度预测和物体检测。类似的收益能否在机器人世界建模中实现,仍然是一个开放问题。

为了超越视频模型,JEPA 还需要克服我上面强调的一些商业压力。然而,LeCun 的 AMI 初创公司似乎有可能积聚足够的资源来跨越这一障碍,并展示 JEPA 在世界建模方面的威力。

如果让我在大约 5 年的时间线上下注,我会押注 JEPA 成为机器人世界模型的关键组成部分。我怀疑,一旦我们在基础操作技能上取得进展,超过几秒的时间跨度将真正开始在机器人学中变得重要,届时 JEPA 在规划方面的优势应该会显现出来。

然而,基于上一节强调的原因,我不认为 JEPA 会一对一地替代视频模型。首先,JEPA 和视频模型可以协同工作。事实上,我们已经看到了将两者结合的工作,例如用潜在世界模型在推理时改进视频模型。此外,JEPA 的表征学习目标也可以与视频重建目标同时应用。最后,对于策略评估等用例,视频生成有非常明确的优势(例如使用图像编辑来生成场景变体)。

无论事情最终如何发展,这都是一个非常激动人心的时刻,不同的实体正在下注不同的路线,还有一些根本性的开放问题等待解决。

参考资料:

1.https://x.com/Majumdar_Ani/status/2021242532517040560

2.Mei et al., 2026, "Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions".

运营/排版:何晨龙