近期,一家位于旧金山的初创公司 Moonlake AI 宣布公开测试其“世界建模智能体”(World Modeling Agent),同步发布的技术博客展示了一个保龄球小游戏的十阶段构建过程,从网格资产生成、刚体物理赋予、碰撞检测、计分逻辑、音频集成到逆运动学(IK, Inverse Kinematics)抓取动画,全由 AI 自主完成。Moonlake 的 beta 产品能在 15 到 20 分钟内,将一段自然语言描述变成可运行、可操控、有物理反馈的完整游戏原型。

Moonlake 试图让任何人通过自然语言,直接生成带有物理引擎、游戏逻辑、碰撞检测、计分系统甚至空间音频的完整交互式世界。用创始人自己的话来说,他们不只是在做一个游戏生成器,而是想借游戏开发这个过程,去训练一个关于“世界如何运作”的前沿 AI 模型。

该公司总部位于旧金山,由两位斯坦福 AI 实验室出身的博士 Fan-Yun Sun 和 Sharon Lee 联合创立。Fan-Yun Sun 在斯坦福读博期间同时在英伟达的学习与感知研究团队以及 Metropolis 深度学习部门(即 Omniverse 相关项目)工作,主攻方向是为训练 AI 智能体生成大规模 3D 世界。

Lee 的研究方向则是将扩散模型(Diffusion Model)和 3D 引擎结合,构建能够理解空间的基础模型。两人的研究背景高度互补,一个解决“如何生成世界”,一个解决“如何让世界有交互”。

打开网易新闻 查看更多图片
图丨 Fan-Yun Sun(右)和 Sharon Lee(左)(来源:Moonlake)

公司于 2025 年 10 月从隐身模式走出,宣布完成了 2,800 万美元种子轮融资,由 AIX Ventures、Threshold Ventures 和英伟达旗下风投 NVentures 联合领投。

天使投资人阵容也相当亮眼:YouTube 联合创始人 Steve Chen、AngelList 创始人 Naval Ravikant、Google 首席科学家 Jeff Dean、GAN(Generative Adversarial Network,生成对抗网络)发明者 Ian Goodfellow,以及来自 Hugging Face、DeepMind、Stability AI、OpenAI 的多位高管。截止近期,融资数字已更新为约 3,000 万美元,团队大约 15 人,由 ACM ICPC 奖牌得主和国际奥林匹克竞赛获奖者等组成。

2025 年 12 月,Moonlake 发布了他们的核心产品 Reverie,也就是所谓的 GGE(Generative Game Engine,生成式游戏引擎)。按照公司的说法,这是第一个“可编程的世界模型”,用于实时交互内容生成。它和此前的 AI 视频生成模型有一个关键区别:状态持久性。

大部分视频生成模型(比如 Sora 之类)能产出漂亮的画面,但它们本质上是在预测“下一帧看起来应该像什么”,不维护一个真正的世界状态。如果玩家在游戏里打碎了一个花瓶,几秒钟后花瓶可能又恢复原样了。

Moonlake 的系统通过将扩散模型与结构化 3D 信号绑定,让世界中发生的变化能持续保持。Lee 在接受采访时说过,生成式世界中一直缺失的那块拼图就是“控制”,创作者需要能定义什么会变、为什么变、变化维持多久。

具体来看 Moonlake 的技术架构,它并不是一个单一模型,而是一个“编排者”(orchestrator)。用户的自然语言指令进入后,系统调用一整套专门化的第三方 AI 模型来分别处理不同任务:空间布局用多模态推理,游戏逻辑靠程序合成(program synthesis),物理交互用模拟层,视觉渲染则由实时扩散模型完成。

Fan-Yun Sun 对 Fast Company 描述说,他们的编排模型会随着时间推移学会如何融合这些模态,并逐步把外部模型的能力纳入自己体内。

Moonlake 在官方博客中给出了一个很具体的案例来展示这套系统的推理过程:一个赛博朋克风格的保龄球迷你游戏。用户只给了一句话的提示:“在街机房里创建一个赛博朋克美学、半写实风格的保龄球小游戏”,没有提供任何架构约束或实现细节。

接下来,系统的 agent 自动走完了十个阶段:先是资产实例化,生成球道、球瓶、保龄球的 3D 网格和 PBR(Physically Based Rendering,基于物理的渲染)纹理;然后是物理化,把球瓶转换为刚体,赋予摩擦系数 0.4、弹性 0.15,球瓶质量 1.5 公斤,保龄球 5 公斤;再到空间布局、核心游戏逻辑、球的生命周期管理、边界稳定、边缘情况处理、音频集成、IK(Inverse Kinematics,逆向运动学)手臂抓取系统,最后是由用户反馈驱动的细节打磨。

从这一实例也能看出,Moonlake 对“世界模型”的定义和当前 AI 圈主流话语有较大不同。过去一年里,“world model”这个词在 AI 行业被大量使用,但大多数时候指的是下一帧视频预测,即给定当前画面和用户操作,预测接下来视觉上应该是什么样。

Google DeepMind 的 Genie 3 在 2025 年 8 月发布,能以 24 帧每秒生成可导航的 3D 环境;李飞飞的 World Labs 在 2025 年 11 月推出 Marble,可以从文本、图片或视频生成可下载的 3D 世界。

Moonlake 的思路和上述这些都不太一样。在他们看来,一个世界的状态不能被简化为一帧图像或一团像素。

他们的博客文章用保龄球瓶做了个例子:一个保龄球瓶同时是空间中的一个有纹理的物体、一个有质量和惯性的刚体、一个可以被撞倒的对象、一个对比分有贡献的符号实体,以及一个撞击时的声源。当球击中瓶子的那一刻,变换矩阵更新、物理求解器解析碰撞冲量、比分递增、音频触发、重置计时器推进等,这些不是独立事件,是同一个因果事件的同步结果。如果其中任何一个模态更新而其他没跟上,世界就不连贯了。

所以 Moonlake 追求的是跨模态的因果一致性,而非单纯的视觉逼真。他们把世界模型应该同时编码的东西分成了五个维度:几何(变换、拓扑、空间关系)、物理(质量、力、碰撞约束)、可供性(affordance,即什么动作是可能的、由谁来执行)、符号逻辑(规则、分数、定时器、状态机)、感知映射(视觉投影和空间音频)。这个框架比纯视觉世界模型更全面,也更贴近传统游戏引擎实际做的事情。

打开网易新闻 查看更多图片
(来源:Moonlake AI)

就当前实际的产品体验来看,其的确可以较为迅速的制作出一个简单的游戏原型,但仍需耗费较大精力进行打磨。在 Fast Company 报道的实测中,记者初次尝试做一个 3D 地牢探险游戏时遭遇了失败,产出了一个满是胶囊形角色的单间。

之后他缩小范围,做了一个 2D 冰淇淋堆叠游戏,初版在 15 到 20 分钟内出来了。核心玩法基本到位,冰淇淋从天上掉下来的节奏恰到好处,键盘控制映射也是自动完成的,系统甚至主动加了一个冰淇淋落到蛋筒上时的弹跳动画。但厨师是个白色粗糙图形,冰淇淋不会正确堆叠。

于是他又花了好几个小时反复和 AI 沟通修复物理效果,陷入“几乎解决但没完全解决”的循环。最终他把剩余需求一股脑塞给系统,15 分钟后拿到了有计分、有 Game Over 画面的完整游戏,消耗月度 1,500 信用点中约 950 点,按 40 美元月费算不到 25 美元。速度惊人,打磨依然费力。

不过 Moonlake 真正的长期赌注不在工具层面。Lee 和 Fan-Yun Sun 反复强调的一件事是:用户每一次在平台上纠正系统的物理行为、补充游戏规则、调整因果关系,都在为 Moonlake 自己的多模态模型提供训练信号。

Fan-Yun Sun 把这和现有的世界数据采集方式做对比,例如租 Airbnb 用激光扫描房间是静态的、难以规模化的;分析视频缺少人类语境;只用单一游戏数据(比如大量《堡垒之夜》录像)训练出的模型不会泛化到真实世界。

而 Moonlake 上的用户交互天然带有意图和反馈,是因果数据。如果这个飞轮跑起来,数据规模会指数级增长,模型也会随之变强。游戏之后,他们设想的应用方向包括机器人训练、自动驾驶和制造业人因分析。Lee 称他们已经接到了制造企业的咨询。

只是目前其 beta 版每天仅放量 100 人,离“飞轮转起来”大概还有相当遥远的距离。

参考资料:

1.https://x.com/moonlake/status/2026718586354487435

2.https://moonlakeai.com/blog/building-interactive-worlds

3.https://www.fastcompany.com/91491025/moonlake-ai-vibecoded-video-game

运营/排版:何晨龙