时髦的“端到端”智驾，走到哪一步了

从去年到今年，国内几家新势力和供应商（华为、元戎、Momenta等）纷纷喊着要上“端到端”智驾，并将其作为2024下半年的工作重点。“端到端”是不是特斯拉首倡存在争议，但毫无疑问，特斯拉是第一个将其工程化和商业化的企业。

如果以“全量推送”为考核点，2024年3月，特斯拉在北美推送FSD V12正式版。但在中国落地，仍在走流程。这给了国内很多企业说自己不亚于、甚至在中国强于特斯拉智驾模型的机会。

7月30日，小鹏向全球推送AI天玑系统XOS 5.2.0版本；

9月11日，华为鸿蒙智行推送ADS3.0。有意思的是，无论哪个界，都在大谈“端到端”的时候淡化了“华为”；

10月23日，理想推送了“端到端+VLM”，声称行业首创。理想的确是第一个将二者实际结合的品牌；

蔚来稍微落后一点，高调发声的“世界模型”尚未落地——7月份推出了包含个别功能的Demo版。

一个人脑决策的模拟

既然“端到端”这么时髦，到底什么是“端到端”（ End-to-End, E2E）？抱歉，没有公认的准确定义，就像端到端的机理一样，基本上属于自拉自唱的节目。

低情商解释——“端到端”是实现智驾的一条技术路线。智驾从CNN、RNN、GAN、到Transformer大模型（典型应用是城区轻图NOA），直到如今的端到端。“端到端”即将经典感知、规划、决策、执行多模块智驾，合成一体，由感知直接“生成”决策和执行。

看到“生成”俩字，就很容易理解，这和ChatGPT是一个路子，即建立一个茫茫多参数（可能多达100B以上，1B=10亿）模型，通过强大算力，不断用数据训练这个模型，期待它产生明智的决策，无论下一个新场景，它有没有碰到过。这样一来，端到端其实就是用大模型的方式，来解决智驾的长尾（罕见场景）问题。

高情商解释——不了解上文那一大堆缩写？没事！比如你牛马附体，驾车下班路上还不断打电话处理公务，不知不觉就开回家了，回头都想不起怎么回的家。这一路的驾驶行为，就是端到端。

说白了，就是试图用大模型模拟人脑的决策方式，明智地处理无穷无尽的新场景。

有些人觉得这一通解释，说了跟没说一样。其实这么想有道理，这很像“将大象推入冰箱”的任务，开门关门都非常清楚（因为符合人的生活经验），但对于将大象推进去的关键步骤，却语焉不详。

不怪搞技术的，因为的确说不清楚。他们的解释是“可解释性差”，气人不？

但是不着急，之于用户，对于端到端的推崇以及呼声，从一个窄众群体（发烧友以及智能爱好者们）到当下全民，越来越有成为全民兴奋点的趋势。端到端的全量推送，对国产品牌高度关注的用户们，讨论度一点都不比投资者们少，他们在期待某种意义的反击（虽然他们获取或者了解的信息量参差不齐）。

目前人类的技术，感知没问题，决策到执行段也没问题。如何从感知到决策，有大问题。人脑是怎么思考的，大家其实不知道。但原则是“经验决定预测”，这是当前人类驾驶比AI强的地方。一个数理逻辑不好的人，甚至没太多文化的人，也能开好车，就是这个道理。端到端省去了规控这一块，直接决策，反馈加快了，企业希望决策准确度不降反升。

保守派和原教旨派

有人提出，端到端的本质应当是感知信息的无损传递，虽有道理但难懂。其实端到端的精髓，莫过于考虑如何不用规则来思考。这并非指抛弃交通规则，而是无需程序员事先对每一个可能场景编好应对方案，AI自己就会基于眼前场景找到最优答案。因此，可以将端到端近似描述为“基于经验和基础规则的预测模型”。

（经典规控模型）

端到端之前的智驾方案，都是多个模块的组合。感知、规划、控制都是独立的。信息在串联模块当中传递有延迟和数据缺失，而且误差的逐级积累，也可能带来安全隐患。

理论上，端到端应该将三者合一，消除内部数据接口。但是，小鹏、极越等“保守派”仍实行两段式“端到端”，即将感知和规控分为两个模型。小鹏前者叫Xnet（感知神经网络），后者叫规划神经网络（XPlanner）和视觉语言模型（VLM）XBrain。

而原教旨派则认为“两段式”没有脱离传统智驾的窠臼，即两个网络中间，仍然是人工定义的接口。传统智驾的信息漂移、延迟的毛病都继承下来了（尽管有改善）。

两段式的好处在于，既然人类定义了中间接口，人类就能看懂中间结果，便于检查系统、找出毛病。比如感知出了问题，不用将整个系统用“好数据”重新训练。也容易兜住系统下限，避免出现令人匪夷所思的错误。

但是，10月23日理想公布的“4D One Model”和特斯拉一样，是一段式，即端到端+VLM。

VLM看来必不可少，其实也是个大模型。它可以从图像（交通场景）和文本（交通标识）中学习的多模态模型。简单说，输入了图像和文本，输出（生成）文本。这个文本用于规控模型来理解场景意义。

VLM和端到端模型本身的区别在于，它不用训练就具有泛化能力（当然能训练更好）。其最重要的工作在于，获取图像中的空间属性，即识别障碍和运动路径。

无论VLM，还是端到端大模型，都是黑盒子。人们不知道它怎么生成了认知和决策，就像不知道如何将大象推入冰箱一样，但看结果是推进去了。

这就是所谓的“可解释性低”。即决策逻辑可以理解，但过程不可理解。一旦决策结果出了问题，没别的办法，只能不断加大数据填喂量，调整模型参数，尽可能堆高模型准确率，但不保证100%安全。

必须承认，端到端同时扩张了智驾系统的上下限，这就是为什么有的企业跟风做端到端，训练了好久，发现系统表现反而更差了。这就麻缠了，因此需要“划红线”，比如绝对不能闯红灯等规则，明确到神经网络中去。这就是兜底原则。

大模型需要“奶妈”

建造和训练大模型，首先要很多钱。因为到了B级参数量级，连存储数据都很贵，匡论算力。

目前特斯拉超算中心的算力支持由D1芯片和超算Dojo组成。投资10亿美元，总算力100EFLOPs（1EFLOPs为每秒1018次浮点运算），这一部署尚未完成。

而智能云端算力的门槛大致为1EFLOPs，车企目前平均后台算力为3 EFLOPs。华为后台算力可能为7.5 EFLOPs。三大电信运营商的算力部署规划从15到21 EFLOPs不等。

（端到端流程示意）

理想训练算力（不等同于总算力）为5.39 EFLOPs，由5000块计算卡组成（英伟达A100和A800）而一块用于训练生成式大模型的A100，报价10万元人民币，A800则至少在12万元以上。

显然，超算中心搭建必须有大资金支持，就算每月电费也可能高达数百万元。在汽车圈，今后几年内特斯拉用于训练的算力规模，显然是最大的。

有了硬件，还得有数据。数据量决定了训练质量。

7月份马斯克在财报会议上打的比方广为人知，他说FSD V12“训练了100万个视频案例，勉强工作；200 万个，稍好一些；300 万个，你就会感到，Wow；1000 万个，它将变得难以置信。”当然，老马作为传播教父，具体数据不用纠结，知道数据量与系统决策正确性正相关即可。

需要明确的是，“坏数据”（青涩的驾驶、糟糕的驾驶习惯、违反交通规则等）会“向下拖曳”大模型的训练效果。简单说，最好是理智守法克制的老司机。

特斯拉的影子驾驶，能扒到大量数据。训练的本质是模仿。仿着仿着就出徒了。那么问题来了，填喂数据的质量谁来保证？还是得人工审核。即便不是纯人工，也要做某种人工规则下筛选。就像无图（其实是轻图）同样要做人工标注一样。

堆人力资源也是昂贵的投资，且注定改善训练不会太快。高质量数据则意味着罕见场景+好数据。如果产品的保有量上不去，也意味着扒不到太多好数据，训练改善就慢，系统迭代就会落后于对手。

思路、投资和技术路径相似的前提下，产品保有量成了智驾水平最重要的致胜（参数丨图片）因素。那么，谁的算力投资大、路径清晰、产品的绝对保有量更大呢？结论呼之欲出。

（特斯拉FSD状态）

如是，端到端的“奶妈”是投资、数据、人力和耐心！

端到端的思路诞生于大模型和算力的突破，只是一条看似很有希望的路线。现在的问题是，训练到一定量级，系统改善可能遭遇瓶颈（训练量逐渐与效果脱钩）。现在走在前面的企业，可能都碰到了“数据墙”，但他们都讳莫如深。如今有人认为，既然力大砖飞，端到端模型参数到达100B（和ChatGPT4.0差不多量级），训练量到亿级，智驾水平会不会发生质的飞跃？

这个暂时还没人试过。在产生足够的经济回报之前，搭建这样的系统，怀疑荷包先撑不住。马斯克的“第一性”是好东西，但不等于马老师本人就是第一性。

从Transformer+BEV，到端到端，一直是国内第一梯队跟紧特斯拉思路，落后半年到1年，而第二梯队则落后特斯拉两年左右，即刚开始搭建系统。迄今为止，说特斯拉是智驾领路人，并不为过。而Waymo的Robotaxi，则没有产生这么大的影响力。现在特斯拉也开始鼓吹Robotaxi，国内车企是否继续跟进，也是看点。总体而言，大家都在围绕销量做文章。至于影响和塑造人类交通和生活方式这种宏大叙事，那得活下来的企业才有资格想这个问题。

时髦的“端到端”智驾，走到哪一步了

保留激光雷达是为了安全！理想汽车李想：如果马斯克在中国高速深夜开过车，特斯拉也会保留激光雷达【附激光雷达行业现状分析】

陆上大疆！国产机器狗成精了！科幻变现实！马斯克惊了！

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

李想曾给智驾下达死命令，半年成不了头部负责人下课，理想计划三年实现100%自动驾驶

本田要和日产合并，抱团取暖能成功吗？

理想有望在2025年实现L3智驾 L4门票需500万辆汽车

迈向L4！理想汽车升级版端到端+VLM：将于月底全量推送

马斯克称脑机接口能解决大多数疾病，大规模量产后成本将与手机相当

看完鸿蒙智行TechDay，我觉得他们领先的不止是智驾

小米SU7爆火，全凭雷军？

小米汽车成功逆袭，车圈草台班子被打脸

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

丰田汽车突然宣布：将ROE提高至20%！仅次于比亚迪？

李想：马斯克在中国晚上开高速，也会用激光雷达！

李想曾给智驾下达死命令，半年成不了头部负责人下课

中国电动汽车销量首超燃油车，引领全球汽车市场电气化转型

奥迪一汽新能源正式投产：撬动奥迪中国市场的重要支点到来了

从“优等生”到掉队，欧拉汽车销量为何失速？

马斯克点赞宇树科技轮足机器人 360°跳跃旋转还会“托马斯闪光”

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点