对话任少卿：世界模型是自动驾驶与机器人的新范式

一凡整理自凹非寺隔壁的副驾寺
量子位 | 公众号 QbitAI

和任少卿的对话，是从最基本的一个智能驾驶使用场景开始的——

在北上广城市快速路的限时段公交车道，智能驾驶系统如何能像人类一样，限制的时间段避开，非限制时段高效利用？

在过去，AI系统会严格按照人类写好的规则驾驶。但现在，端到端自动驾驶模型的范式之下，手写规则的方法开始被剔除，意味着AI系统需要自己去学习“限时公交车道”的特殊路况和场景，这需要时间，也可能短期内无法直接满足需求。

所以是不是智能汽车业内业外，过于迷信“端到端”了？

自动驾驶作为一个综合工程，为什么要端到端？

端到端又为何会出现在此时此刻？其本质是什么？

对智能汽车研发和车圈变革又会带来怎样的影响？

上述问题，没有人比任少卿更有发言权了。他既是世界级AI科学家，深度学习经典成果ResNet作者之一，近十年来也躬身产业一线，见证和实践自动驾驶技术从研发到上车，当前是蔚来智能驾驶副总裁、蔚来自动驾驶研发的负责人。

任少卿认为端到端是一种必然，类似造车会走向一体化的必然，有技术难度但不存在谁有独家秘籍，甚至“被强调太多了”……在他分享的四大关键技术要素中，模型只是第一点——数据、优化机制和功能体验，四位一体，缺一不可。

在他的视角里，AI也好，自动驾驶也好，这几年有变化，但本质没有变化。于是对于很多业内热议的具体问题，他都有着从本质出发的回答。

以下是对话实录：

聊端到端

量子位：端到端怎么识别公交车道，实现按时段规避和利用？

任少卿：方法肯定很多，但如果要特别精确地识别，可能还要学习怎么识别文字。

量子位：现在还不行？

任少卿：现在更多的是以历史的经验去看，历史的经验里可能噪声比较多。

什么叫噪声呢？现在的系统其实一部分是靠历史的经验，一部分是实际感知的结果。比如说旁边如果有个车进到公交车道了，那系统可能考虑是不是也可以开进去；那如果旁边的没有车走进公交车道，那系统就也不会进去。那其实按交通规则是不应该开进公交车道的，那这就是噪声。

我觉得这确实是一个核心的点，怎么去精准地识别，这个是需要去解决的。

量子位：这两年大家都在聊端到端，很多玩家All In进去。

假设没那么原教旨主义，就写一条规则，告诉系统什么时间能走公交车道，从而解决这个问题不是也挺好吗？为什么一定要把手写的规则都剔除掉？

任少卿：举个例子，比如说不同城市，北京（公交车道）可能相对来说还规则一些。大部分都是早上7点到 9 点，晚上5-7点在高峰期（不能走）。

再比如上海，上海延安路上是专门有一条给71路公交车行驶的车道的，在任何时间非71路是都不可以行驶的。而且这条车道还有专属的交通信号灯，可能信号灯长得都和普通信号灯不一样。

所以不同的城市对于“公交车道”是有各种各样的规则和场景的，而且如果今天这个规则变化了，那怎么弄？所以让工程师针对每一个场景去写一条规则得去搞，这个显然很难搞定。

其实这种案例非常非常多。那为什么原来大家都没考虑走端到端呢？这个和功能和场景都有关系。

比如三五年前，大家都在高速NOA的时候，场景比较简单。在高速上大部分的场景，就看前面三台车：

本车前面那台车，左边车道一台车，右边车道一台车，然后三辆车一起建模，写个规则。虽然也得写好几万行的代码，但是它毕竟场景简单。

那现在到了城区道路的领航辅助，还有我们NIOIN展示的、大家都在说的主动安全功能，那面对的是要处理各种各样的复杂场景，如果一个一个规则去写，这个显然非常难。从根本上来说，第一个是效率的问题，第二个是效果的问题。

我觉得更好更拟人地去应对全面的、复杂的场景，是自动驾驶要搞端到端的核心原因。

如果我们跳出自动驾驶的领域来看这个事儿，走向端到端技术还有一个原因，就是大家要做更统一的东西。

其实只有自动驾驶领域的人才会说端到端和非端到端，别的AI应用领域好像大家都不怎么说。比如做语言模型的、做机器人的，大家基本听不到说“今天我端到端了”这样的描述。

自动驾驶的历史比较长，在很多年前算法模型的能力没有这么强，大家更多把这件事情变成一个流水线。因为自动驾驶用自回归模型用得比较早，早期开发比较初期，所以自动驾驶就有非端到端的架构。到了今天大家觉得模型性能提升了，就把它给整合起来。

就跟造车一样，比如说压铸件，之前工艺没现在先进，就分成好多小块，先造出来，然后再焊上。那现在有了一体压铸的机器和技术，而且很成熟了，从时间效率上就高了非常多。

所以说回到自动驾驶，端到端本质是用一个更统一的方式去提升计划效率，包括时间的效率，包括人的效率。

再进一步说的话，从AI的发展来看，其实深度学习也是这个逻辑。最近10到15 年，所有AI 算法的发展，包括应用，本质上就是两件事：第一件事情是产生更好的效果，第二件事情是产生更好的泛化性。

第一件事情比较容易理解。原来一个任务，可能AI去执行效果差很多，比如说大家现在用得最多的是人脸识别，特别是通用的、对陌生人脸的识别，一开始AI没有人做得好，后来跟人差不多，现在绝对比人识别要好。

AI一步一步缩小和人的差距，然后做得比人更好，这是性能提升，是AI发展的第一个方向。

第二个发展方向，就是通用性。

比如说一个图像识别的算法，和物体检测的算法，分别用来判断一张图是什么类别和判断这张图里面有什么物体，开始都是不同的算法、不同的框架。那后来这俩图像和物体检测就可以融合了，再后来所有图像类的任务基本上都融合了，可能后续说图像类的任务和语音类的任务也快融合了。

实际上是希望最后变成所有智能体的任务，自动驾驶开车也好，机器人走路也好，机器狗爬山也好，所有任务都是用同样一套框架去做，这也是端到端之后要做的事情。

量子位：所以Transformer是一个很重要的变量，带来了效果上或者是算法能力上的提升，还带来了什么？

任少卿：Transformer在其中算是一个工具。

但是我想说AI的发展，实际上大家都在追求这两件事情，今天如果没有Transformer，可能也会有其他的工具，但大家追求的这个方向实际上是没有变的，就是想追求更好的效果和更通用的能力。回到我们刚才说的这个事情上，自动驾驶的端到端实际上是某种程度上在追求两件事儿。

另外的就是什么样的框架，除了自动驾驶外，相关的所有的智能体或者类机器人的方向，都能用同样的方式去解决。

这个是我觉得一定会有人去做，也是大家想做的事情。

量子位：现在用户都会去关注，车企的智驾是不是端到端的系统。多少有点诡异，因为端到端这个的事情它更大的意义是在于研发，在于厂商本身，对于用户其实没有那么大的意义。我不在乎我的这个车是不是端到端的系统，我觉得他能处理很多或体验很好就行。

任少卿：我觉得这是一件挺有意思的事。

用户愿意去关注这些工作还挺好的。比如说好多使用语言模型的用户，甚至开始关心这个模型怎么训练了。所以大家关心关心这事也挺好。尤其是对于早期使用的一些用户来说，讨论的这些话题对他来说是有意思的，他才参与这个过程。

再往后大家也会随着整个行业的技术迭代去讨论其他更多的话题，当然这些技术迭代也会带来一些新的体验和产品形态。

量子位：端到端会给你们研发的流程带来什么样改变？

任少卿：这其实是个模型化的事，大家现在可能过多地在关注研发流程、架构调整等等这些事情。但是模型化对于自动驾驶研发而言，绝对不是只是这半年的事。

自动驾驶最早可能2013年就开始用深度学习，然后逐渐地在增多比例。只是说可能大家最近谈起的比较多，所以就多说一说了。

量子位：自动驾驶会不会犯类似“分不清9.11和9.9哪个大”的常识性错误？

任少卿：有的，其实是一样的，语言模型里面叫幻觉，自动驾驶就是大家一直在说的 Corner case，或者说误检，漏检。

比如说，语言模型突然输出了一句莫名其妙的话，那在自动驾驶的感知模型里就是突然间有一帧没了，或突然间蹦出来一个实际上不存在的东西，其实都是类似的。

那自动驾驶开始解决这个问题的时间，相对来说是比较早的。更多的就是通过时序的切割机制，通过校验机制等去解决。

实际上像语言模型里面管控承诺也是这样， COT（思维链）的一方面的逻辑实际上就是让系统自我校验：通过一个更复杂的输出表达，然后自我去校验。

现在也有像MOE ，或者还有其他的一些方法，比如说实际应用端的和后端的校验，都是同样的逻辑，所以整体来说就是模型训练，性能对齐，输出一个跟人类偏好差不多东西。

还有就是有错的问题，通过多次的校验，用神经网络，非神经网络的方法，再加上一些人力规则的方法去校验这个事情，把错的东西挑出来变成正确的。

世界模型

量子位：进入系统的视频数据，一方面是标注的真实数据，另外一方面就是世界模型的生成数据，有点像LLM中合成数据。

任少卿：如果要定义一个任务的话，最终要回答一个问题，这个问题就是你定义的任务有多通用。从自回归的角度来说，定义的任务越通用，学术的角度上看意义越大，从应用的角度看也是一样。

10 年前大家说计算机视觉领域的三大基础任务，图像分类，检测和分割。去理解一个图像，能对它进行分类，进行提框，找出里面的物体进行分割，这确实是根本任务。

但是到了今天，这个基础任务的定义不够了。我们需要一些更根本的问题。

语言问题定义的根本问题，是预测下一个token，下一个词。

实际上对视觉也是一样。如果能定义一个更基础、更根本的任务去解决问题，那在这上面找应用，它覆盖的范围就更广更通用。

量子位：用视频生成视频，本质上也是对问题的穷举？

任少卿：是的，作为一个基础任务，最根本、最本质就是要定义这个东西。所以现在的定义就是，视频去生成视频这件事情更本质，因为它能包含所有的其他可能性。

输出视频是一个分类，把中间的物体抠出来，那它就是可以做物体检测的任务。输出的是一个分割的结果，就是可以做分割的任务。输出的是一个三维重建，换个角度的结果，就可以做三维重建的任务。所以视频生成视频这件事情，实际上从问题的定义上来说是一个更根本的问题。

而且我们认为，重建是对于时空理解和对原始数据全面理解最深刻的表现形式。

因为基本上原来的信息量，都需要重构出来，才能去做中间的事情。

量子位：现在的世界模型和更早前的虚拟仿真，本质不同是什么？

任少卿：虚拟仿真我觉得完全是一个另外的逻辑。这实际上是两个方向，一个方向，我们说计算机视觉，一个方向是计算机图形学。

其实是分别干了两件事，一个事情是理解世界，一个事情是再造世界，就是虚构一个视觉。但是最近两年两个方向也越来越近了。

总体上来说，完全地理解这个世界是世界模型要干的事。

那现在也有一些用原始视频的方式来仿真，但它本质上不是要完全理解这个事情。不是说给它一个输入，就要把输入完全理解，而是说要重构一个东西出来。但重构的东西不见得是这个世界的全部。所以仿真的问题是仿真不包含这个世界的全部信息。

比如说最早的仿真，拿游戏来举例，游戏其实某种情况下就是仿真。最早的仿真就是像大家打红白机游戏，有（像素化）粗的信息，但是很多精细的东西是没有的。所以仿真一直存在的问题，就是它不断地逼近真实世界，但它离真实世界还有距离。

量子位：蔚来讲世界模型的时候，用了类人脑的方式，将其划分成两个部分，这是为了方便听众理解，还是系统本身就是划分成了两块？

任少卿：分这么开是为了方便大家理解。实际上做的时候是耦合在一起做的，不是完全分开。

实际上我们讲的时候，第一部分关于空间重构，其实也是重构成视频。那重构成视频，某种程度上里面也包含时间的信息，只是说我们给大家讲例子它不会那么长。

那讲第二部分时间认知的时候，我们更强调时间认知，想象推演的能力。那推演出来的结果时间长，变化多，但是实际上它是和第一部分空间重构的能力耦合在一起的。

量子位：对生成式AI关注多吗？

任少卿：我觉得挺好，最近实际上变化很大呀。就是为什么要去说世界模型这件事，为什么会往这个方向走。

因为就是回到刚才那个话题，端到端、非端到端只是智能驾驶领域的一个大家讨论的事。从技术角度来说，我们会想实际上从更大的范围之内，那自动驾驶和机器人与大语言模型的融合会是什么样的方式？

量子位：世界模型，就是你们给出的一个方式。

任少卿：对，它是一个更贴近通用的一个方式，自动驾驶能用，之后机器人也能用。那语言模型，后面的原生规模也会是类似的框架。

当然其实还有更激进的方式，就融合所有域，但是这个咱们就后面再说啦。

量子位：规模很宏大，会遇到工程问题吗？

任少卿：会遇到很多工程问题，所以现在给大家讲的世界模型，它会更贴近于下一个阶段的机器人、自动驾驶，以及语言模型的基本框架。

量子位：什么是世界模型的多元自回归生成结构？

任少卿：其实这里面的这三个东西，和大家实际上都在研发的语言模型，机器人框架，很类似。

里边有三个关键词，从右往左说，第一个是生成，这个生成的方式，它有很多的优势，不用标数据了，学习效率更高，所以语言模型早就已经是生成式的了。

那自回归本质上可以解决长时序的问题，所以语言模型long contents也是类似的方式。自动驾驶和机器人要解决长时序的问题，也得用这种方式。

多元是什么呢？多元就是这个multivariable input 和output(多模态输入与输出)，本质上是要解决多数据源的问题，那之后自动驾驶想用互联网的数据，或者互联网想用更多领域的数据，其实都要用类似的这种方式。

我们是希望通过这些框架，去打通跨领域的事。

智能驾驶四大关键技术要素

量子位：现在都在做城区NOA，但每一家最后呈现的体验不同，你觉得是什么因素决定的？

任少卿：可以认为大概四大因素吧：

第一是模型，第二是数据，第三是优化——模型总还是会出问题，出了问题之后怎么用其他的方式、基于优化的方式去做联动。

第四个是功能的多少，feature 有多少，实际上就是基于前面三块，但也并不是完全相关。

所以第一点来说，模型的角度实际上就是我们这次所说的核心。每家其实会有不一样，甚至说每家不一样的点还不少，这是模型的角度。

第二个就是数据的角度，数据多还是少、频率快还是慢。对于我们来说，蔚来的数据闭环，我觉得可能是全球最好。

第三，模型输出的结果也会有问题，那处理的方式，导致的效果更好还是更差？怎么能做到效果好，其实有两点，一个是指不要误杀模型输出的好的结果，一个是指如果没有误杀模型的结果，模型做得不好的时候相对来说更丝滑：肯定不要出现这个模型前半段这么开的，后半段就不是了，或者说后半段输出的轨迹不平缓了。

就比如说，如果突然有个障碍物出现，系统打方向盘，虽然也没撞墙、是做对了的，但是对用户来说肯定体感不好，明显有段落感，这种体验就不好。那怎么去做优化就是很重要的一件事。

第四个就是说基于以上，还能有什么新的功能，从用户体验的角度来说，能不能做得更好。这就包括用户使用情况的追踪，跟用户的交互等等。

总结来看，技术能不能做到在一个层级上，这个事情很重要。

某种程度上来说，模型根本上是为了提高效率。模型提升了上限，但是实际上它并不能保证它的下限一定在提高，它有可能下限在下降。

所以后面包括融合模型和优化方法，实际上就要保证下限能保持或者提得更高，同时又不降低效率。同时需要让用户用得好，需要让用户有更多可用、爱用的功能。

自动驾驶与机器人

量子位：现在好多机器人创业公司，说要打通虚拟世界跟物理世界，和打通不同领域有什么不一样？

任少卿：那个是另外一个工程模型。

说打通不同领域，实际是在说打通不同应用。就比如说自动驾驶和机器人、大语言模型这些技术的融合，就他得彻底用同样一套框架去做。

其实大家很容易理解——实际上自动驾驶是一个特殊的“机器人”，是所有机器人应用里面最大的一个应用之一，也是目前价值最大的。其实大家发现说之前的自动驾驶，或者直到现在自动驾驶，为了做它的这个研发成本是非常非常高的。那大家现在都在深耕自动驾驶，因为它前期的商业场景是非常大的。

如果用目前自动驾驶的同一代技术栈去做机器人，可能没有任何一个机器人的应用在当下能撑得起来这个投入。

但是我们认为说长期再往后走，自动驾驶也是个泛机器人领域，所以那能不能用同样一套框架、用更高的可共享度，然后用更低的成本去做所有的机器人，就泛机器人能力这个事情，我们觉得一定是能做的。

但要找到相应的技术，本质上前面说的这些世界模型，我们觉得我们自己的框架也能去做机器人。

量子位：暗示蔚来也能做机器人？

任少卿：主要是我觉得从技术的维度上来说，这件事情它基本就是这个路径实现的。

那如果机器人探索出来它统一的框架，它一定能回来做自动驾驶。因为本身是很相似的，同时这些方式肯定都是要用大量的数据的。

那在自动驾驶上把这样的一套充分认知的框架，做出来的可能性更大，因为它的数据量更大了。

做机器人来说，我觉得还是要分三层，我们认为它实际上有三层的能力，第一层能力叫做概念认知，第二层叫时空认知，第三层叫做运动的，或者说叫交互。

第一层的概念认知实际上就是大于模型解读，第二层的时空认知就是刚才我们说的这些。第三层的运动能力从某种程度上看，就是怎么去控制轮子，怎么去控制腿，怎么去用某一只手，或者怎么去拿一个工具或者物品，拿起工具来了又要去把它用起来。但是通用来说我们说道的第二层的能力，就是这个时空认知的能力，是一个很通用的能力。

量子位：如何看待这几年整个产业的变化？

任少卿：其实我觉得在整个产业上，从技术的角度来说，自动驾驶前面几年技术都没什么特别大的变化，最近这半年一年倒是变化挺大。很多的变化本质也并不来自于自动驾驶领域，更多源于我们前面说的这些AI科技在其他领域上的发展。

量子位：可能最后还是会追求变成一个通用的模型，打造一个像人一样的这种智能体？

任少卿：是这样的，剩下的问题是怎么把它打造出来。AI 通用模型和机器人等类型的科技交叉越来越多，所以我觉得做智能驾驶也不能只关注智能驾驶。

对话任少卿：世界模型是自动驾驶与机器人的新范式

聊端到端

世界模型

智能驾驶四大关键技术要素

自动驾驶与机器人

女孩近距离投喂母狮被袭击，园方回应

直击上海“王炸”楼市新政：首日迎签约潮温州看房团现身“全国地王”项目

德黑兰部分地区手机通信中断证券交易所停止交易

极氪公布春节十大猎装旅行路线，揭秘深度自驾游版图

佛山顺德一4A景区灰塑被人拿下，官方通报

年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

2026年考研国家线公布

“太恐怖，iPhone半夜自己给陌生人打47分钟电话！”

男子爬到何仙姑雕像头顶拍照，山东蓬莱阁景区回应：“八仙过海”石雕属于公共区域无人值守，后续会加强巡逻

“我们看到导弹飞过去了！”中东广东企业迅速启动应急预案

中使馆：请在以中国公民坚持非必要不外出提前熟悉周边避弹设施和避险路线，确保人身和财产安全

2025年国民经济和社会发展统计公报发布

上海市气功研究所招聘5人，部分岗位要求博士学历，工作人员：有编制及五险二金

3月1日起浙江八大水系全面禁渔，为期4个月

关注 | 永旺超市撤出天津等地？最新回应！

“反诈老陈”被罚，160万粉丝账号已搜不到

“100%椰子水”到底有几分真?四款产品送检均疑似加水加糖

三十年专业护航，骆驼与终端门店的“双向奔赴”之路

阿联酋航空表示已暂停在迪拜的所有航班运营

“手机将全面涨价”，冲上热搜

对话任少卿：世界模型是自动驾驶与机器人的新范式

聊端到端

世界模型

智能驾驶四大关键技术要素

自动驾驶与机器人

女孩近距离投喂母狮被袭击，园方回应

直击上海“王炸”楼市新政：首日迎签约潮 温州看房团现身“全国地王”项目

德黑兰部分地区手机通信中断 证券交易所停止交易

极氪公布春节十大猎装旅行路线，揭秘深度自驾游版图

佛山顺德一4A景区灰塑被人拿下，官方通报

年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

2026年考研国家线公布

“太恐怖，iPhone半夜自己给陌生人打47分钟电话！”

男子爬到何仙姑雕像头顶拍照，山东蓬莱阁景区回应：“八仙过海”石雕属于公共区域无人值守，后续会加强巡逻

“我们看到导弹飞过去了！”中东广东企业迅速启动应急预案

中使馆：请在以中国公民坚持非必要不外出 提前熟悉周边避弹设施和避险路线，确保人身和财产安全

2025年国民经济和社会发展统计公报发布

上海市气功研究所招聘5人，部分岗位要求博士学历，工作人员：有编制及五险二金

3月1日起浙江八大水系全面禁渔，为期4个月

关注 | 永旺超市撤出天津等地？最新回应！

“反诈老陈”被罚，160万粉丝账号已搜不到

“100%椰子水”到底有几分真?四款产品送检均疑似加水加糖

三十年专业护航，骆驼与终端门店的“双向奔赴”之路

阿联酋航空表示已暂停在迪拜的所有航班运营

“手机将全面涨价”，冲上热搜

直击上海“王炸”楼市新政：首日迎签约潮温州看房团现身“全国地王”项目

德黑兰部分地区手机通信中断证券交易所停止交易

中使馆：请在以中国公民坚持非必要不外出提前熟悉周边避弹设施和避险路线，确保人身和财产安全