2024年年初,随着特斯拉曝出自己的FSD V12版本采用了端到端技术,自动驾驶能力出现了质的提升之后,智能驾驶的赛道就此进入了新阶段。特斯拉在北美打响的发令枪,而冲在最前方的都是中国公司。以理想、华为鸿蒙智行、蔚来、小鹏为代表的头部新势力纷纷发力;以百度、商汤绝影、毫末智行等人工智能玩家也紧跟其后,提出自己的端到端方案。最近的广州车展上,极氪等车企也宣布进入端到端领域。
端到端的底层逻辑
眼下,新、老势力都在主打端到端,那何为“端到端”?
端到端,可以从一本书聊起。诺贝尔奖获得者丹尼尔·卡尼曼在《思考,快与慢》中用两个系统——快系统和慢系统来解释人类的思考和决策过程。
快系统是直觉和本能,它通常处理那些仅需通过经验和记忆、无需耗费脑力的任务。比如回答1+1等于几,或判断一个乒乓球和篮球哪个更大。这种无需经过深度思考,瞬间可以做出反应的场景,约占据了人类行为的95%。
而慢系统则负责需要通过专注力、逻辑性、深度分析才能完成的任务,来解决剩余5%场景下的复杂任务。比如计算243*876等于几或进行一场如《星际争霸》这样的决策战略游戏对战等。
当然,这两个系统并非各自为战,而是互相辅助,是人类认知和理解世界并做出决策的基础。
我们再将这套逻辑平移到汽车驾驶中。开车时遇到红灯停,遇到绿灯可以通行,这已经成为了“驾驶本能”。而当遇到陌生路段,尤其是匝道、环岛、十字甚至海星状路口时,就需要时间观察、思考再决策。
自动驾驶的原理也是一样,需要用快系统让自动驾驶系统更高效;也需要慢系统去处理更复杂的信息。
理想智驾的三次进化
随着技术的精进,当前用户对于智能驾驶技术的接受度和认可度正在显著提升,智驾功能开始在新能源汽车销售当中占据越来越大的影响权重。在新能源市场竞争的下半场,理想汽车率先进行前瞻布局,持续加大研发投入,获得显著成果,在智驾赛道上脱颖而出。
理想汽车10月全量推送的端到端+VLM双系统智驾技术架构,就是采用了快系统+慢系统的思路构建。“端到端模型”就是“快系统”,用来对日常驾驶进行快速处理,传感器输入的信息,直接输出行驶轨迹。而在应对复杂路况时,理想汽车通过视觉语言模型(VLM),也就是“慢系统”,给“端到端模型”输出建议。
通过端到端模型和VLM模型,理想汽车的最终目标是能够覆盖全部的驾驶场景,对任何情形都能够像人类司机那样老练。而要实现这一目标,光靠两个系统还不够,理想引入了“重建+生成式世界模型”,它就像一个“考官”,帮助这两个系统在一次次“真题试炼”中持续迭代升级。
世界模型的“考题”来自于两个部分:一个是测试人员和内测用户帮忙收集的“错题集”,这些在实车测试中出现过问题的场景都会被重建成考题;同时,理想还会用生成模型将考题进行泛化形成模拟题,比如改变了天气、光照、背景环境、障碍物的行为等等,使得模型能够举一反三。
最后通过“错题”+“模拟题”的考试方式,经过自动化的模型评分体系,给出最后模型的得分,用来筛选合格的端到端模型,并且指导下一次的迭代方向。
事实上,理想汽车的智能驾驶系统在实现One Model一体化端到端之前,经历了三个进化阶段。
第一阶段时,其采用了NPN架构,从传感器输入到行驶轨迹输出,需要经历感知、定位、规划等过程。这一阶段支撑了理想百城NOA的布局。
第二阶段,理想采用了分段式端到端架构,模块更少,过程更短,从传感器输入到路径输出,只剩下感知和规划,有导航就能开,效率更高,该架构能够实现理想“无图NOA全国都能开”的目标。
而第三阶段,就是一体化端到端。相比无图NOA有感知和规划两个模型,中间还有大量的规划,而一体化模型信息传递不再需要人来设定规则,信息损失能够最小,具有更高上限。在用户角度看来,驾驶会更聪明和拟人。一体化模型中间无需规划、验证,直接传感器输入,通过端到端模块输出行驶轨迹。
由此,智能驾驶技术不再局限于传统的模块化架构,而是向着一体化大模型的方向大步迈进。端到端大模型通过大规模数据训练与深度学习算法,实现了从原始传感器数据直接输出驾驶指令的跨越,极大地提升了智能驾驶的响应速度与决策精度。
而随着功能和智能化的进一步提升,理想智能驾驶系统的算力也“水涨船高”,从2023年的2.82EFLOPS增长到2024年的10EFLOPS;智驾训练里程从去年的12亿公里增长到接近30亿公里。在智驾的技术水平和可靠性上,实现了迁跃。
真正实现“车位到车位”
得益于理想汽车持续的研发投入,其智驾功能正在加速迭代和落地。
今年7月,“全国都能开”的无图NOA全量推送给AD Max用户。基于端到端+VLM的全新智能驾驶技术架构在7月开启千人内测,成都车展期间进行万人团招募,在10月23日的OTA6.4版本中正式推送给全量用户,其成长速度可以说创造了行业奇迹。
而这次OTA6.5版本,可以实现车位到车位全场景覆盖能力。从上车就能开一键智驾,自主进出园区和识别闸机抬杆,城市环岛、掉头等复杂场景通行,首创的全国范围收费站ETC自主通行,自主泊入露天、地库多种停车位。总之,主打一个从起步泊出到行程结束泊入全场景覆盖,从车位到车位,中间0断点。
从上车选定导航路线之后开始,点击“一键智驾”或者跟理想同学说一句“我们出发吧”,从车位到车位的过程就能直接启动。车辆自动驶出车位、地库、狭窄的小区道路,遇到闸机车辆也会自动停下,等缴费抬杆之后继续自主行驶。
如果路途中有高速,这套系统可以通过视觉语言模型识别收费站ETC,选择好通行车道,降速缓行通过ETC,同样无需接管。这一功能目前在其它品牌的智驾系统中还没有实现全量落地。
除了上述智驾功能升级,在主动安全方面,理想汽车同样不设上限的保障用户安全。在这次OTA6.5版本中,理想还将加入后向主动紧急制动R-AEB 和后向误加速抑制 R-MAI,进一步提升了驾驶安全性,构建起更加完整的智驾防护罩。
根据规划,11月底“车位到车位”能力将随这次OTA6.5版本车机系统推送给全量AD Max用户。
事实上,在10月底推送的OTA6.4版本中,理想基于端到端+VLM的全新智能驾驶技术架构就已经相当成熟,能够丝滑解决用车难点场景。
比如难倒几乎所有智驾系统的U型掉头场景中,理想这套一体化端到端系统具备更强的侧向感知能力,掉头过程中可以更准确识别和预测对向直行车辆的行驶轨迹并做出避让。
另一项亮点功能是路边P挡直接起步。得益于端到端系统更强的freespace规划,该系统不再依赖车道关系,当车辆不在车道中时也可以启发式搜索出一条从路边驶入主路的路线。只需要双击拨杆,理想可以直接从路边起步,自主并入车道。
此外,在千钧一发的时刻,这套系统的安全能力上限更高。
比如,AES紧急避险功能方案,行业大部分的AES都依赖驾驶员手动掰一下方向盘才能触发AES,算上人的反应和执行时间很可能已经来不及避让。而理想的 AES不需要掰方向盘,是真正意义上的全自动紧急避让。AES支持最高激活上限 135km/h,适用于高危的高速驾驶场景。
系统本身智能意外,为了让用户放心,交互也很重要。理想的这套系统还能在智驾状态下基于VLM播报。这套系统同样会基于快系统和慢系统的思维进行两个种类的播报。比如,“正在向右转弯”“当前公交车道处于限行时间,正在驶离公交车道”等等。
可以说,OTA6.5版本是对6.4版本的进一步突破和打磨,对用车场景的全周期进行细节挖掘,真正做到让用户敢用、好用、爱用。
最后
在智能驾驶的数十年发展中,私人乘用车领域从未达到过“车位到车位”的水平,要不就是起步出库、出停车场闸机需要人工接管;要不就是在城市复杂路况中Hold不住,开着开着从“城市领航”降级到“自适应巡航”;在遇到U型掉头、高速收费站等特殊场景时,同样需要人工接管。
理想的这套端到端+VLM的方案,真正将整个智能驾驶过程打通,实现了闭环。从技术角度来说,用户从A点到B点,要做的就是上车、设置导航、激活智驾系统、开门下车,中间的全过程都不再需要接管。
相比当前市面上要时刻担心智驾系统是否让人类接管的焦虑,理想可以说将智能驾系统的体验拉升到了新高度。经过了三次技术跃迁和产品升级的理想智能驾驶,也将从此前的“主流水平”,成为“第一梯队”。