探求驾驶本质,人类驾驶是“本能反应”和“逻辑思维”的结合。人类的思考 方式包含倾向于本能化的“快系统”和倾向于逻辑化的“慢系统”,驾驶行为也 是一样,简单的驾驶行为可由快系统完成,复杂或者稀缺的长尾场景则需要调 用慢系统通过人类此前积累的世界常识来处理。对自动驾驶而言,快慢系统结 合为彻底解决无人驾驶提供思路。

算法、算力、数据全面升级推动自驾落地。算法端,前期传统模块化算法和端 到端算法有望并行运转,平稳过渡到端到端为主;远期大语言模型有望和端到 端结合,形成自动驾驶的“系统一”和“系统二”;最终强大的通用人工智能有 望彻底实现自动驾驶。数据端,端到端算法对数据的“量”和“质”的需求激 增,实车采集和合成数据共同为算法提供“养料”。算力端,云端算力需求进一 步提升,推动模型迅速迭代。

目前,国内领先玩家如华为、小鹏、蔚来、元戎启行、地平线、商汤绝影等玩 家纷纷推出自己的端到端算法以及规划,并且在数据、算力上快速推进,功能 体验不断优化,行业发展有望全面提速。

一、FSD V12 效果惊艳,Robotaxi 迈向现实

1.1、 特斯拉 FSD V12.3 登场,自动驾驶辅助功能推向全量用户

特斯拉 FSD V12.3 登场,智驾时代更进一步。早在 2023 年 5 月,马斯克即在 社交媒体上表示,FSDV12 将是一个视频输入+控制输出的端到端的自动驾驶算法;2023 年底,FSD V12 版本开始在北美的特斯拉车辆中试用;2024 年 3 月 12 日, FSD V12.3 推出,体验跨越式提升;随后,FSD 去掉“Beta”改为“Supervised”并 开始向所有北美用户开放,允许免费试用 30 天,另外马斯克还要求北美地区销售 必须带客户短途试驾 FSD 才能交车。2023 年 4 月,FSD 的订阅价格从 199 美元降 低至 99 美元,买断价格从 12000 美元降低至 8000 美元。价格下探叠加向全美用户 开放,表明公司马斯克已经对 FSD 功能的完善度相当自信,意味着将有百万数量级 的用户有机会体验到自动驾驶辅助功能,有望显著增加 FSD 的曝光度以及订阅率, 同时大规模试用也将为 FSD 收集可观的数据,助力功能完善。

打开网易新闻 查看更多图片

1.2、 端到端算法加持,驾驶体验显著提升

特斯拉 FSDV12.3 推出以来,驾驶体验丝滑优雅,获得市场广泛好评。具体而 言,我们看到几个方面的驾驶体验显著改善。(1)解决复杂场景的能力大幅提升:例如可顺滑处理无保护左转和环岛等场景,相比 V11 大幅进步;无缝处理施工路段 等复杂场景;对人类意图的理解加深,部分场景可以识别手势;可以根据其他车辆 行驶状况判断当前场景是否可以通行,接管次数大幅降低。(2)驾驶体验丝滑平顺 拟人化:转弯、红绿灯启停无顿挫感,加减速拟人化;遇到开双闪的车辆占道会毫 不犹豫变道绕行,流畅自然;遇到周围骑行者、行人绕行时从容淡定,绕行幅度拟 人化;遇到其他车辆倒车,会留足空间,驾驶具有“礼貌性”;拟人化程度高,经 常让乘客难以区分到底是人还是算法在执行驾驶行为。(3)新增部分功能:部分场 景可以掉头,抵达目的地后可以自主寻找停车处停车,不依赖导航。当然当前版本 也会出现一些问题如距离道路边缘近,容易出现剐蹭,对交通规则的遵守度弱,以 及其他车辆意图判断仍需提升,无法倒车等问题。未来,随着算法的迭代,小的问 题有望逐步修复。

打开网易新闻 查看更多图片

1.3、 特斯拉推动,Robotaxi 有望迈向现实

随着自动驾驶性能的进一步提升,Robotaxi 有望成为现实。特斯拉关于 Robotaxi 的规划早在 2016 年发布的《宏图计划第二部分》(Master Plan Part Deux) 中即出现,后续马斯克亦在多次财报电话会议中提及。具体而言,一旦特斯拉实现 了完全自动驾驶,将创立一个共享出行平台,通过特斯拉车辆来实现 Robotaxi 运营。特斯拉建立自有车队,同时特斯拉车主也可将自己的车辆加入到共享车队,后续特 斯拉从每个订单中抽成。Robotaxi 将与造车业务实现协同,其运行数据将成为整个 特斯拉数据闭环的一部分,最大化提升自动驾驶的盈利能力,此外闲置车辆可以赚 钱将提升车辆的使用效率和特斯拉车辆的吸引力。2023 年 4 月,马斯克在社交媒体 上宣布特斯拉将在 2024 年的 8 月 8 日推出 Robotaxi。目前,自动驾驶功能的完善度 将是 Robotaxi 能否实现的核心,Robotaxi 有望为自动驾驶打开新的成长空间。

1.4、 算力、数据全面加速,特斯拉加足马力快速推进

端到端开创特斯拉自动驾驶新时代。对端到端自动驾驶而言,马斯克在多个场 合表示,模型仅仅依靠神经网络构建,并未加入环形交叉路、红绿灯等场景和元素, 对场景的理解和驾驶行为完全依靠模型自身通过大量的人类驾驶视频训练而学习到。和大语言模型类似,规模法则(Scaling Law)在自动驾驶领域也效果凸显,对端到 端算法来说,算法之外,更迫切的是需要海量的数据和算力将模型的能力推升到更 高水平。2024 年初,马斯克在多个场合表示,算力制约了特斯拉 FSD 功能的迭代,而在 3 月开始,马斯克表示算力并不在成为限制,FSD 的迭代将大大加快。

打开网易新闻 查看更多图片

回顾 FSD 发展历史,算力累积伴随 FSD 迭代,并进一步强化特斯拉竞争力。

根据特斯财报公布的算力增长曲线,我们可以观察到,在 FSD V11 以及之前版本的 时代,算力基本在等效 5000 片 H100 的水平之下,在 FSD V12 也就是端到端算法 推出前后,算力开始阶跃式提升至约等效 15000 片 H100 水平,此后算力进一步快 速拉升至等效 3.5 万片 H100 左右,时间节点大约与 FSD V12.3 版本推出对应,此 时特斯拉开始向所有订阅用户推送 V12 以上版本,并去掉 Beta 改为 Supervised,同 时为所有用户开启 FSD 试用 1 个月。在 2024Q1 财报电话会议上,马斯克表示, 2023 年底将会有等效 8.5 万片 H100 的算力投入使用,与此前公布的在 2024 年将达 到 100Eflops 算力对应。可以观察到的是,伴随端到端的落地,特斯拉对算力的需 求出现了近乎数量级的提升,这也反过来帮助其算法实现更加快速的迭代。

打开网易新闻 查看更多图片

算力补足的特斯拉 FSD 迭代速度显著加快,每个新版本都带来性能的大幅提升。

特斯拉 FSD 从 V12 版本推出到 V12.3 共推出 7 个迭代的衍生版本,花费了近 4个月时间,而从 V12.3 到 V12.3.6 推出的 8 次版本迭代所花费的时间仅有 1 个半月 左右。功能方面,V9 到 V11 时代更多的是一些微小的性能提升和用户开放规则的 放宽。而 V12 时代以来,新版本的功能实现大跨步提升,V12.3 甚至可以做到识别 手势,而近期马斯克在社交媒体上表示,即将推出的版本中 FSD 将会把自动驾驶和 自主泊车结合,实现“真正的代客泊车”,同时将去掉手握方向盘检测,此外在面 临最新场景时也将有更好的表现,如驶入狭窄封闭道路中需要倒车来寻找新的路线等。

打开网易新闻 查看更多图片

践行规模法则,特斯拉快速推进探索自动驾驶“无人区”。马斯克曾经在财报 会中提到训练模型所需的数据:“100 万个视频 Case 训练,勉强够用;200 万个, 稍好一些;300 万个,就会感到 Wow;到了 1000 万个,就变得难以置信了。”而训 练数据仍需来自于优质的人类驾驶行为。对特斯拉而言,目前有数百万辆量产车辆 可以实现数据收集,同时亦有大量订阅 FSD 的用户可以反馈 FSD 使用过程中的问 题。特斯拉用户带来的 FSD 的累计行驶里程数加速增长,从 2023Q1 的 1.5 亿英里, 提升至 2023Q3 的 5 亿英里,2023Q4 达到接近 8 亿英里,2024 年 4 月突破 10 亿英 里。在 2024 年 4 月马斯克表示到 2024 年在训练算力、海量的数据闭环体系以及海 量视频存储上将特斯拉将累计投入超过 100 亿美元。特斯拉一步步探索自动驾驶的 “无人区”,将规模和能力推升到极致。

打开网易新闻 查看更多图片

二、端到端助力自驾算法“融会贯通”,大模型时代到来

2.1、 端到端算法将驾驶行为“融会贯通”

端到端自动驾驶算法实现对驾驶行为的“融会贯通”。在传统模块化的自动驾 驶算法中,人类工程师依靠自己的经验将驾驶问题拆解和提炼为一些简单的过程, 通常情况下自动驾驶算法分为感知、预测、规划控制几个部分,以流水线式的架构 进行拼接,模块之间会以人为定义的信息表征方式进行信息传递,进而实现驾驶任 务。端到端算法则采用一个整体化的神经网络,在模型的一端输入感知信息,另一 端直接输出轨迹或者控制信号,将整个驾驶行为“融会贯通”。

打开网易新闻 查看更多图片

2.2、 端到端算法优势显著但落地难度加大

2.2.1、 端到端的自动驾驶算法优势显著:

(1)信息无损传递,减少人为偏见,灵活度大幅提升且泛化性增强 模块化算法以人类定义的抽象结果作为中间产物,如感知模块将外部的汽车、 行人、道路等元素简化为检测框(Bounding box)或者占用栅格以及车道线等;而 预测和规划模块则根据上游感知提供的信息,将复杂的世界抽象为几类简单的场景, 分别输出轨迹点和驾驶路径和行为。这实际上会造成信息损失,当人为定义的抽象 的指标并不能很好的描述场景时,下游模块只能根据有限的信息做判断,造成错误 的结果,体验上来讲会造成模型对复杂场景的处理能力不足,泛化性差,决策僵硬。端到端算法则可以将各个模块几乎所有信息传递给下游模块,并且由下游模块来决 定使用哪些上一环节的信息。例如当经过侧面有障碍物遮挡的小巷子时,如果人类 司机观察到障碍物后面有汽车发出的灯光,可能会提前减速。模块化的算法由于感 知端只检测障碍物、车道线等内容,可能会丢掉光照变化的信息,规控算法则无法 提前规避侧向来车;而对端到端算法来说,全部传感器感知到的数据都会被收集, 只要有足够的数据,模型会自己学习到灯光和驾驶员行为的关联进而拟人化的处理 相应的问题。

打开网易新闻 查看更多图片

(2)面向整体驾驶目标进行全局优化 在模块化算法中,每个模块都以人类工程师定义的目标进行优化,各个部分分 而治之,可能出现局部最优但整体效果差的情况,如目标检测的指标是平均精度 (mAP),规控算法的检测指标要考虑碰撞率、任务完成率等。端到端自动驾驶则 对整个自动驾驶流程进行优化,神经网络的链式法则可以从输出端(控制)向输入 端(感知)贯通,输出结果可以将误差依次反向传播给所有模块,以最小化整体损 失函数为目标,更加准确地更新每个网络层中的参数,以使体验达到最优状态。(好比考试的时候,答案中 ABCD 的占比是一样的,但如果不通篇看题目,会丢掉 这一重要的全局信息)在特斯拉 FSDV12 版本的视频中,有些时候会出现规控算法 不会完全按照感知呈现的结果执行驾驶行为,或许亦体现了全局优化的优势(规控 会根据自己的经验忽略掉一些感知出现的问题如误检等)。

打开网易新闻 查看更多图片

(3)从“行为”学习“行为”,驾驶变得更加丝滑和拟人化。这一优势也可以被视为用基于神经网络的算法取代基于规则为主算法带来的优 势。吴新宙在 GTC 大会上提到,在传统自动驾驶开发过程中,工程师希望定义一 些动作,通过建立状态机转换不同的动作来实现驾驶,而为了实现更好的驾驶效果, 会引入越来越多的动作让机器的行为尽量像人。但现实情况中,人类的行为难以通 过一些离散的动作量化,规则无法定义什么是好的驾驶,甚至有些场景下并无最优 决策,好比单纯用文字很难精确的描述一幅画的内容,何小鹏提到无限接近人的自动驾驶系统大概等效于 10 亿条规则,靠人类根本无法达到,因此传统算法产生的 驾驶决策死板单调,拟人性差。端到端或者说基于学习的规划让模型去学习人类行 为,会大幅提升算法的适应性和灵活度,据元戎启行在 GTC 大会上介绍道,元戎 的算法由于使用了端到端技术,不仅实现了舒适、高效,还会考虑后车需求,实现 了“礼貌”,如主动让出右转车道,地面有水会减速慢行等。

(4)数据驱动,发挥规模法则,性能突破上限 采用端到端的自动驾驶算法,可以采用无监督的算法训练方式,省去标注环节, 采用海量数据对模型进行训练,突破性能上限。而模块化算法则只能依靠工程师来 手动处理长尾场景,随着数据量的增大,效率逐步下降。

打开网易新闻 查看更多图片

(5)精简计算任务,减少级联误差,降低延迟,计算简洁高效 模块化算法中,从传感器收集信息开始就不可避免的出现误差,每个模块产生 的误差如标定误差、定位精度误差、控制误差等会在模块间传递,最终会在下游累 积,导致控制模块收敛难度加大。同时,模块之间的数据传输和计算都需要花费时 间,导致整体算法延时较高,处理紧急场景能力弱。端到端算法则可避免上述情况 出现。此外马斯克亦表示,通过使用端到端自动驾驶算法,特斯拉采用 2000 行代 码代替了原本的 30 万行代码,整体算法框架变得简洁高效。

打开网易新闻 查看更多图片

2.2.2、 端到端的自动驾驶算法亦存在可解释性差、落地难度大等问题 首先由于模型被构建为一个整体,无法像传统自动驾驶任务一样将中间结果进 行分析,因此可解释性较差。其次由于算法完全依靠数据驱动,对数据的质量、数 据分布等要求高,海量数据的获取或生成难度较大。此外仿真验证也是端到端算法 开发的难点,端到端算法更需要闭环评估,而在当前的技术条件下,缺乏良好的工具实现这一过程。最后对自动驾驶公司来说,算法的变化也意味着团队的调整,如 何保持团队稳定性和量产经验的复用亦存在难点。2.3、 端到端算法形成三大落地形式 多模态基础模型和大语言模型齐头并进,端到端自动驾驶算法百家争鸣。目前 在自动驾驶端到端算法领域,大体形成几大方向:将不同功能的神经网络模块拼接 形成端到端的自动驾驶算法(显式);依靠多模态基础模型实现端到端自动驾驶算 法(隐式);以及依靠多模态大语言模型来实现自动驾驶。

打开网易新闻 查看更多图片

2.3.1、 将多个神经网络拼接形成端到端算法(显式端到端):显式的端到端自动驾驶即将原有的算法模块以神经网络进行替代并连接形成端 到端算法。该算法包含可见的算法模块,可以输出中间结果,当进行故障回溯时可 以一定程度上进行白盒化调整,训练时首先将每个模块分别训练,再将其拼接进行 联合微调和训练,在数据量有限的情况下更容易收敛,且对于算法团队来说可以最 大限度的继承此前模块化算法的开发能力,同时又具备端到端算法的优势,是目前 诸多量产玩家青睐的方案。获得 2023 年 CVPR 最佳论文奖的 UniAD 模型亦采用此 方法,可明显的观察到算法中仍包含感知、预测、占用预测、规划器等模块,并采 用向量将模块连接,形成灵活的端到端架构。

打开网易新闻 查看更多图片

2.3.2、 多模态基础模型+自动驾驶(隐式端到端):隐式的端到端算法构建整体化的基础模型,利用海量的传感器接收的外部环境 数据,忽略中间过程,直接监督最终控制信号进行训练。这类模型通常采用视觉或者多模态的信息作为输入,模型直接输出控制或者轨迹信号。诸多玩家探索的自动 驾驶世界模型在这里也有应用,即将视频、甚至文字信息送入模型,此后模型可以 预测未来发生的事情以及所应该采取的行动,或者可以对所执行操作进行文字解释。该方案理论上限更高,但训练难度高,收敛困难,对数据需求量大且可解释性差, 模型调整也较为困难,量产玩家如 Wayve 以及学术界做出诸多探索。

打开网易新闻 查看更多图片

Wayve 的端到端自动驾驶网络即采用单一的神经网络,直接输入感知数据,输 车辆的驾驶动作,中间没有抽象化的感知结果输出,因此车辆上也不包含通常自动 驾驶具备的“SR”(Situational Awareness,用来呈现自驾算法看到了什么)界面。

打开网易新闻 查看更多图片

学术界百花齐放,世界模型成为玩家探索方向。近年世界模型受到市场关注, 通过将外部环境的信息进行编码,由模型基于这些输入的语料来预测未来世界可能 的状态,再通过不同的解码器解码出不同类型的信息,亦成为开发端到端自动驾驶 算法的一大方式。以极佳科技和清华大学联合推出的 DriveDreamer 为例,模型主要 采用注意力机制和 Diffusion 模型构建。可对驾驶场景实现全面的理解,集成了多模 态的输入数据如文本、视频、高精度地图、3D 检测框、驾驶行为等,可以实现可 控的驾驶视频生成和预测未来的驾驶行为。同时 DriveDreamer 还可以与驾驶场景互 动,根据输入的驾驶动作预测不同的未来驾驶视频。

打开网易新闻 查看更多图片

2.3.3、 大语言模型+自动驾驶:大语言模型采用海量的互联网数据进行自监督学习,可以对人类的问题给出优 质反馈。大语言模型凭借其强大的认知能力,越来越多的被应用于驾驶场景。经过 前期的预训练,模型已经吸收了驾驶相关的知识,并且广泛理解世界的“常识”, 通过好的提示词即可激发出其相关的能力。目前大语言模型可以被用于感知、预测、 规划、整个驾驶环节、以及驾驶行为解释上。尤其是大语言模型可以对话的特性, 让驾驶员可以对其做出的操作进行询问,增强模型的可解释性和驾驶的安全感。

打开网易新闻 查看更多图片

目前工业界亦不乏大语言模型实践的先行者。端到端的坚定践行者 Wayve 公司, 在 2023 年推出了 LINGO-1,该模型在各类视觉和语言数据源上进行训练,可以对 感知、规划、推理等任务进行视觉问答,并可以对驾驶行为作出解释。升级版本的 LINGO-1 甚至可以对道路语义信息进行分割。

打开网易新闻 查看更多图片

在学术界大语言模型用作自动驾驶的方案更如雨后春笋。GPT-Driver、 LanguageMPC、Drive like a Human、DriveLM、DriveGPT4 层出不穷。以港大和华 为诺亚实验室等发表的文章中的 DriveGPT4 为例,它是一个使用 LLM 的可解释的 端到端自动驾驶系统,通过将视频、语音提示、控制信号 Token 化之后送入大语言 模型,语言模型生成对人类问题的相应回答以及控制信号,再经过编码等步骤还原 成为文字和控制信息,即可对车辆实现控制。

打开网易新闻 查看更多图片

当然,目前算法仍然存在一些问题如模型幻觉仍难以避免,当给定一个看不见 的场景,LLM 模型仍然会产生无意义或者错误的决策,此外 LLM 在训练的过程中 可能会包含有害的内容。此外大语言模型延迟较高,对计算资源要求较大,不易满 足端侧需求。最后大语言模型对 3D 场景理解度仍然不高,模型是否能够很好的适 用于驾驶场景仍然需要不断验证。

三、算法、算力、数据全面升级,自动驾驶更进一步

算法、数据、算力全面升级推动自动驾驶迈向更强大水准。正如我们学习驾驶 一样,好的老师、大量的练习以及基础的“脑力”均不可或缺,对自动驾驶而言, 与所有 AI 应用类似,算力、算法、和数据三要素都必不可少。算力层面,规模法 则驱动下,海量的算力成为开发优秀 AI 算法的基础。数据方面,数据的体量、质 量、以及收集方式、处理方式、以及模型的训练和验证体系都考验着开发者的技术 和工程能力。算法层面,如何构建一个性能优异且稳定可靠的算法来支撑功能落地, 亦尤为关键。

打开网易新闻 查看更多图片

3.1、 探求驾驶本质,人类驾驶是“本能反应”和“逻辑思维”的结合

3.1.1、 系统一和系统二,人类思考是快慢系统的结合体 人类思考包含快系统(系统一)和慢系统(系统二)。诺贝尔经济学奖得主, 心理学家 Daniel 在《思考,快与慢》中指出人类的思考有两种方式,“系统一”是 快速的、本能的、自动的、情绪化的、潜意识的、条件反射的;“系统二”是缓慢 的、刻意的、逻辑的、缜密细致的。大脑通常把很多身体运动相关的功能交给“系 统一”来处理,比如一些本能行为,皮肤的烫伤,迎面飞来的物体,需要我们尽可 能快的速度做出反应;而语言等抽象能力被大脑交给了“系统二”的新大脑皮层, 这里可以处理非常复杂的问题,并且有强可塑性。就如我们计算七九六十三,可以 直接给出结果,复杂的方程运算则需要一步步写出来。

打开网易新闻 查看更多图片

人类驾驶是复杂行为,系统一系统二齐上线。回顾人类学习驾驶的过程,既有 对系统二的“训练”如科目一交通法规的学习,也有对系统一的“训练”,如各种 科目二的一些简单操作的“练习”,即使拿到驾照,还需在道路上长时间驾驶才能 够成为经验丰富的驾驶员。在驾驶过程中也通常是系统一和系统二协同行动,当在 熟悉的道路上驾驶时,通常不需要花费太多精力在驾驶行为本身,依靠系统一基本 可以自然而然的快速完成驾驶行为,并且可以分出精力和乘客聊天;而当在不熟悉 的道路上行驶,或者需要赶时间,或者经验不足时,这时系统二会上线,此时我们 集中精力,动用已有的经验(驾驶&非驾驶),对各类场景进行判断,而当无法实时 做出精准的判断的时候可能会降低车速,以留下充足的思考和反应时间。

3.1.2、 世界常识助力解决长尾场景,快慢系统结合为彻底实现自驾提供思路

未来的长尾场景不可避免,数据训练可以学习过去但无法预测未来。预期功能 安全标准将驾驶场景分为四类:已知安全(Known Safe)、已知不安全(Known Unsafe)、未知安全(Unknown Safe)、未知不安全(Unknown Unsafe)。对自动驾驶 而言,当前的思路是基于收集的海量的数据来训练模型,将图 30 中蓝色区域内已 知非安全场景转化为绿色区域内已知安全的场景,尽可能扩大绿色以及蓝色区域的 范围。但实际情况中,白色区域里未知且不安全的事件永远存在,例如并不是所有 的长尾场景都是历史上发生过的,当道路上出现历史上从未发生过的场景,理论上 是没有可能提前被收集并交给模型训练,模型会有非常大的概率无法处理。

· 钛祺智库 ·

1、本篇报告共38页,因篇幅有限,仅发布部分内容,如欲获取完整版PDF文件,可以关注钛祺汽车官网—>智库,也可以添加钛祺小助理微信,回复“报告名称:“算法进阶——自动驾驶迎来端到端时代”

2、钛祺智库目前已收录900+篇汽车行业最新技术报告,供行业朋友查阅、参考。

3、钛祺智库持续更新、收录行业深度技术文章、研究报告,并不定期上传行业专家特约文章,为汽车行业朋友提供专业支持。

扫码添加“钛祺小助理”,获取报告