2023年,特斯拉发布FSD v12版本,彻底引爆端到端自动驾驶方案。国内汽车厂商开始新一轮智驾领域军备竞赛,大有得“端到端智驾方案”者,得天下的势头。
2024年3月,元戎启行宣布端到端模型成功上车;4月,华为发布华为乾崑,并带来全新升级的乾崑ADS 3.0;5月,小鹏汽车宣布端到端大模型已经量产上车。此外,蔚来、商汤绝影等供应商都逐渐公开端到端智驾发展进度,涌入新的智驾赛道。
2024年7月,理想发布了基于端到端模型,VLM视觉语言模型以及世界模型的全新自动驾驶技术架构。
但这仅仅停留在了PPT阶段。
4个月后,理想汽车邀请亿欧汽车前往广州,试驾体验理想端到端+VLM智能智驾。
据理想官方介绍,此次体验的是理想汽车首创的“端到端+VLM”技术架构,行业首个“车位到车位”的智驾产品。与此同时,亿欧汽车还体验了理想全自动主动紧急转向AES,以及OTA6.5升级的后向主动紧急制动R-AEB和后向误加速抑制R-MAI。
理想智能驾驶经过三次技术跃迁和产品升级,最终带来了此次智驾方案。
理想汽车的“快”与“慢”
理想汽车的端到端+VLM智驾方案是受到诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发。
所谓的“快系统”,是理想智驾系统在95%的场景下依赖直觉和本能进行驾驶,这能够大幅度提升安全、舒适和效率,并且具备拟人化的驾驶方式。而“快系统”对应的就是端到端模型,理想汽车官方介绍,这是完全One Model结构、真正意义上的端到端。输入是传感器,输出是行驶轨迹,全部由一个模型来实现,中间没有任何规则。
其中的“慢系统”则指的是,本次智驾方案在5%场景下会进行有意识地分析思考,其能够深刻理解物理世界的复杂交通环境和中文语义,辅助端到端,解决安全、导航、法规和舒适等方面的自动驾驶业内难题。
而“慢系统”整体的算法架构是由一个统一的Transformer模型组成,将Prompt文本进行Tokenizer编码,然后将前视120度和30度相机的图像以及导航地图信息进行视觉信息编码,通过图文对齐模块进行模态对齐,统一交给VLM模型进行自回归推理。VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹,并传专递给系统1控制车辆。
长期以来,如何训练端到端方案,使其能够面对现实世界各种可能出现的情况,保证端到端系统的迭代效率,一直是业界人士讨论的重点。面对这个问题,理想汽车借助世界模型构建了一套智能驾驶的训练和验证系统。
理想汽车利用测试人员和内测用户帮忙收集的“错题集”,设置为考题;同时,利用生成模型将考题进行泛化,比如改变天气、光照、背景环境等等,形成“模拟题”。通过这种“错题”加上“模拟题”的考试方式,来筛选合格的端到端模拟,并直到下一次的迭代方向。
老司机也会走错路
在实际体验下,理想汽车的“端到端”+“VLM”智能驾驶确实有着不错的表现。
在亿欧汽车长达50公里的理想智能驾驶体验中,仅有一次人工接手。接手的场景还是因为大型卡车停在错误的位置,导致理想汽车误判。中途,理想汽车有一次走错了道路,但是很快自己意识到并按照交规掉头,重新回到了导航指定的线路中。这两次失误,都是真人司机在真正驾驶场景下也会犯的错误,所以也在可理解的范畴。
理想汽车智驾方案整体驾驶过程平稳,极少有紧急加速和紧急刹停的情况。面对过收费站难题,理想汽车也能通过语言模型识别收费站ETC,选择好通行车道,降速缓慢通过ETC。面对较为复杂的环岛,理想汽车能够果断精准地进出,不会给前后车辆造成困扰。
此外,更新智驾版本后的理想汽车还能够将前方感知的画面投射到页面内,配合文案讲解模型的思考过程和结果。
但目前的理想汽车智驾系统仍有进步的空间。比如在高架上,智能驾驶的车子习惯性地走右边慢车道,在超车的时候也会选择换右车道超车。但是相信随着更多的数据学习,智驾系统经过更新迭代能够很好地解决这个问题。