毛继明简介 :极佳科技合伙人&副总裁,拥有超过16年的工程研发与架构经验,专注于大规模分布式系统和自动驾驶仿真技术。曾任百度Apollo仿真和工程负责人,以及百度、赢彻T10级别架构师。

毛继明在极佳科技推动了DriveDreamer系列等世界模型相关技术的研发与商业化落地,服务了数十家自动驾驶及机器人客户。

打开网易新闻 查看更多图片

如今,世界模型已经成为具身智能实现突破的关键所在,但业界对于世界模型仍未形成统一的标准,也存在不同的观点。

去年,极佳科技提出了一种名为DriveDreamer4D的框架,旨在利用世界模型的先验知识来提升4D驾驶场景的重建效果。日前,极佳科技合伙人&副总裁——毛继明,在由智猩猩、车东西主办的「第四届自动驾驶峰会」上,详细介绍了世界模型的特点、作用及发展趋势。

世界模型的发展背景

“每一代的智驾算法,对于数据数量及质量的需求,都是在疯狂提升的,这导致行业也在面临数据缺口的困境。”

他指出,从2023年下半年开始,大家开始尝试通过生成数据来去辅助算法性能的提升,但当时还对此存在疑虑。可从2024年下半年开始,世界模型开始收获更多的信任。

未来,智能驾驶的用户对于算法的需求会更高,甚至需要其超越人类。毛继明指出,去年年底,小马智行CTO楼天城曾在采访中提出一个观点:人天然是「双标」的——由于对机器缺乏信任,所以机器必须要比人表现得更好才能获得人类的信任。所以楼天成提出了一种非常形象的解决思路——Learn by practice。

打开网易新闻 查看更多图片

“这里所说的Practice,必须在可交互的环境中进行,这样才能确保安全和高效。那么要生成这样的环境,仍然需要依赖世界模型。”

不管是生成可供训练的数据,还是生成可交互场景,世界模型都扮演着非常重要的角色。可以说,世界模型是智驾算法进入新一代的钥匙。

毛继明介绍称,去年,世界模型的概念被提起的频率非常高,包括李飞飞的world labs,Google的DeepMind,还有1x和Covariant这两家具身智能公司,他们机器人的Foundation model也是用的世界模型的技术。更别提Tesla和Wayve,他们的智驾方案从2023年就开始应用世界模型。

打开网易新闻 查看更多图片

再看国内,三大造车新势力,蔚小理从去年下半年开始,也都纷纷提出要基于世界模型去构建算法研发体系。此时,世界模型已经不再是一个只存在于实验室的预研课题,而是成为了产业界的共识,已经到了应用的爆发期。

2023年9月,极佳科技首次将世界模型与智驾进行了结合,然后发表了一系列的论文——也就是DriveDreamer系列。

世界模型的三大功能

「世界模型究竟是什么?」这是许多人都会问到的问题,但其实,世界模型至今还没有一个业界公认的标准化定义。而毛继明通过对很多不同的世界模型的认知,对其中一些内核功能进行了汇总:‍

首先,从宏观上来看,世界模型可被认为是真实世界的投影,至少是一个局部的投影。所以要想建设一个世界模型,第一步就是要对真实世界建模。所以,建模和关系抽象,是世界模型的第一个核心功能。

打开网易新闻 查看更多图片

另外,若想让世界模型发挥真正的价值,就需要与智能体去进行交互,因为前者需要为智能体去提供想象的能力。在这一过程中,智能体会给世界模型提供一个有缺失的观测,而世界模型会补齐缺失的部分,返回给智能体一个完整的想象。

同时,世界模型也会为智能体提供“What-if”能力,也就是推理和预测能力。之后,世界模型还会返回一个对结果的好坏判定。

总结来看,世界模型一共有三大功能:建模、想象,预测。这就是传统的世界模型应该具有的能力。

如何搭建世界模型?

极佳提出了一种基于分层的搭建方式,将视频生成、空间几何生成和物理引擎:

最底层:视频生成

2024年上半年之前,几乎所有的世界模型都是基于视频生成来构建的,其中最经典的例子就是Sora。根据OpenAI发布的论文,他们认为Sora就是一个World Simulator。

毛继明认为,视频生成有两个好处:

1、视觉是人们观测世界最重要的Signal。

2、视频生成的机制,天然就具有想象力和推测力。它能够基于一张图片去想象出其中的信息,同时又可以将图片作为起始帧,去推理后边会发生什么。也就是说,基于视频生成模型,可以同时实现实际建模场景的想象和预测。

第二层:空间几何生成

在去年下半年,新的观点产生了——由于世界是具备物理空间的,而视频生成的基本结构都是基于像素的,所以业界发现后者对世界的建模是有缺失的。因此,大家开始集中式地引入了「空间几何生成」的新维度。

毛继明表示,在引入空间几何后,再配合原有的视频生成,可以说基本能解决世界appearance层面的问题,但其实这仍然不够。“因为这个世界,最终还是由一些物理规律所驱动的。而以当下的技术,很难单纯地从Observation中学到物理规律。

第三层:物理引擎层

所以极佳通过引入新的一层——「物理引擎层」,来驱动模型在时间纬度上进行一些合理的变换。我们称之为「世界模型中的基础模型层」,它代表了世界中物质的确定性部分。”

例如,黄仁勋在演示Cosmos时,经常和Omniverse放在一起去讲,后者正是物理引擎与空间几何这两层的内容。

更进一步,毛继明指出:“除了物质的确定性部分,世界模型还应该包含不确定性的部分,也就是有人参与的部分。”,这部分可以被称之为「世界知识层」。

打开网易新闻 查看更多图片

他介绍称,「世界知识层」的构成首先是一些领域约束,例如交规——大家开车遵守交规,但也有可能不遵守交规。所以领域约束其实是一种「弱约束」,它并不像物理规律。其次,是Reward function,世界模型想要呈现它的判定能力的话,就必须由reward function去进行评分。第三就是Distributions,它代表人类宏观倾向性的数学化的表达。

另外,很多世界模型也引入了大语言模型,这是因为模型很难通过Observation完全地重建出来,很多时候还需要辅以大语言模型中的知识。如此,有了Distribution、Reward function和领域约束,世界模型中的世界知识,最终应该固化在Long-term memory中,在世界模型架构中产生作用。

如何真正落地?

毛继明称,要想将世界模型真正落地在具体场景中,还需要一系列对外的组件:包括知识更新的接口、Condition的Adapter,以及Internal的Agents。

他介绍称,在实际场景中落地时,世界模型最经典的一个用法就是「数据泛化应用」了,也就是通过世界模型的想象能力,在给定一些简单条件的前提下,就可以还原出世界应有的样子。

“数据泛化,激活的是condition和视觉生成这两层。这也是极佳科技一开始切入到世界模型赛道时,所做的起始工作。包括DriveDreamer和DriveDreamer-2。”

毛继明表示,在传统的视频生成模型基础上,极佳着重优化了「多视角一致」的能力,这也是智驾领域必要的一个Feature。

同时,为了满足不同客户的个性化需求,极佳也优化了Condition Adapter,这有助于生成可泛化的多样性数据,去进一步优化感知算法的鲁棒性。

毛继明展示了一个案例:给世界模型的一个Condition,即仅仅告诉世界模型车道在哪里,车在哪里,世界模型即可发挥出想象力,想象出来一个完整的世界。更进一步,如果需要更充分的想象力,可以使用文字作为输入,然后利用它的想象力去生成一个复杂场景,这就是在DriveDreamer-2中实现的功能。

打开网易新闻 查看更多图片

另外一个业务场景,是4D场景重建。这会新增两个功能区:1、是几何生成,2、Internal agents。极佳有两篇论文与之对应——Drive Dreamer 4D和Reckon Dreamer,这也是极佳和理想汽车的合作项目。

“它的应用场景更适用于数字孪生,也就是说可以对Identical case进行重建,并且在重建的三维世界中完成可交互的反馈式事件。”

根据极佳重建场景的具体实践来看,如果接入了自动驾驶算法和控制器,可以实现在这个世界里自由移动,满足闭环仿真的需求,实现Learn by practice。

世界模型将会如何发展?

“我们希望未来的Agent能够像人一样思考,所以它应该拥有人类大脑中的各种组件,其中最核心的组件就是世界模型。它最终会部署到车端或者是机器人端,被点亮所有功能。”

毛继明认为,世界模型是现实世界的投影,但是现实世界是非常复杂的。它被多维度、多类型的规律共同驱动、共同影响。

例如:视频生成,代表的是平面像素级别的变化,它是由真实世界中广泛存在的在物体上的光的漫反射、镜面反射等等光学规律所驱动的;

空间几何,表达了真实世界中具体存在的宏观物体,应该具有明确的体积属性、位置属性;

物理引擎指的是说物体应该具有材质属性,以及物体之间相互运动的动力学表达。这三种表达都是在不同的层级上,必须用不同的规律去驱动。

“我们如果要去建设一个完备的、至少局部完备的世界模型,需要对多种领域有深刻的认知,我们需要找到一种办法,把不同领域的不同规律融合到一起,这是非常大的挑战。

接下来他指出,之所以要为世界模型分层,其中一个原因,是能够注入先验知识,这样可以不使用那么多数据就可以完成世界模型的建设。

毛继明还认为,世界模型的这种构建逻辑和自动驾驶的发展类似——伴随着真实数据的积累,以及生成数据的反哺,一定会发生跨层级融合。

就像自动驾驶多模块架构终究会演进到单模型端到端架构一样。“我们坚信世界模型会变成一个end toend one model,也就是说世界模型最终会把多层次变成更少的层次,最后融合成为一个统一大模型。”

进一步,他表示,在商业化实践中,客户通常要求是,在当前的已有客户数据质量基础上,以最低的计算成本、时间成本、GPU资源成本以及存储成本,达到世界模型的精度要求。

这需要在:数据质量、模型精度、成本接受度这三方面,针对每个客户,满足他们不同的三维度平衡需求。所以他认为,几乎不太可能有「一种模型包打天下」的情况,而是要构建世界模型的分层框架。

“在多个商业项目落地过程中,一定会沉淀下来很多不同的做法和不同的组件。当不同场景的研发成果沉淀为可部署的组件后,就可以面对多样化的客户需求灵活地组织,以最快的方式来达到要求。”

打开网易新闻 查看更多图片

不过毛继明也直言,目前,世界模型的性能提升,是个「老大难问题」。如果类比人类大脑的直觉感知来看,现在世界模型的运行方式需要通过非常复杂的推理机制,能耗非常高,速度也很慢。

“如果以现在这样的效率,那世界模型是不可能实现高效部署的。所以我觉得「端侧的世界模型」就是终局,我们终究要探索一些新的世界模型算法范式,这是全行业共同去探讨的一个话题。”