相比于研发前沿技术的学研机构,位于「上车落地」环节的车企,显然要面临极高的工程难度,同时还要实现前沿技术的规模化和平台化。

在近日的国际智能网联汽车技术年会(CICV 2024)上,蔚来AI平台负责人、资深研发总监白宇利,围绕自动驾驶大规模应用的挑战,发表了独到的观点,也对蔚来产品的AI应用进行了解读。

打开网易新闻 查看更多图片

首先,白宇利介绍了蔚来智驾自研交付的时间线——2021年1月,蔚来发布了基于NT2平台的首款车型ET7,标志着全栈自研的开启。在该车型发布一年后,蔚来自研的智驾算法量产上车,同年9月,NOP+高速领航交付。去年,NOP+拓展至城区,6个月后(2024年4月)对NT2的车主进行全量推送。

据介绍,NT2的感知平台拥有33个高精传感器,标配激光雷达,每秒钟产生数据量约为10GB;而其车载超算平台搭载了4块Orin-X芯片,算力达到1016 TOPS。

目前,蔚来已在该平台上开跑大语言模型。“即便在单Orin上,也能做到34B模型量化之后的板块。”白宇利说,“车企从来不缺数据和算力。”

讲到「大规模应用」,白宇利表示,其含义可分成两部分,一是使用规模,二是功能规模。

使用规模的维度包含用户量、覆盖区域、里程数、支持的平台,或者车型——从2022年开始自研智驾,到2024年,NT2平台用户数从8万增至30万人,验证道路里程为140万公里。

而在产品功能研发层面上,无论是数据规模、算力需求,还是研发子任务的复杂程度、验证评测等等,都产生了很大的变化和挑战。

打开网易新闻 查看更多图片

为了应对这些研发体系上的挑战,蔚来在计算、数据、成本三个层面采取了如下方法:

一、计算

如今的智驾研发,每天需要应对数百个实验,数千次的模型的构建,数十万次的挖掘任务。在此背景下,提供稳定且高并发的强大计算平台,是一个非常大的挑战。

据白宇利介绍,蔚来已为此建立了一套高性能计算平台,可支撑日间峰值吞吐达到200万次的任务请求,并且同时支持1.5万个节点的并发。

另外,随着模型越来越大,超大型任务极易成为研发瓶颈。而在面临严重内卷的智驾研发领域,大家都在尽可能地缩短闭环时间。为此,蔚来也在蔚来AI平台之下,研发了一套EFLOPS量级(每秒进行百亿亿次浮点运算)的分布式计算集群。

“不过,要想支持大规模并行的训练,并不是单纯有机器就可以了,还需要有上下游的组件支持。例如蔚来有自研的高速分布式缓存系统,容量可达10PB,并且可以横向拓展。”

打开网易新闻 查看更多图片

白宇利表示,如果想要优化整个智驾研发流程,就需要解决复杂的任务与多类型硬件之间的匹配,因此高效合理的调度系统也是非常重要的。

为此,蔚来也开发了高性能的监控工具,包括Profiling的工具协同优化,通过异构调度,任务拆分,传输优化和流水线并行,通过动态负载均衡AI策略,大幅提升资源利用效率。

二、数据

没有数据的支持,计算就无从谈起。

白宇利认为,在实验室里,数据非常稀缺。而量产车产生的高质量海量数据,一直是车企的护城河。

“蔚来的车队每秒钟产生的数据都是PB量级,我们认为数据供给是足够的。那如何让这些数据有效地参与到研发和测试链路中,就是要在整个AI平台上去解决的问题。”

他将数据分成了三类:训练数据、验证数据,反馈数据

先从训练数据上看,智驾每年对训练数据的需求都会呈现数十倍的增长。那么,如何建造自动化的产线,是工程落地层面的一大挑战。

“车企做验证,最终都离不开把功能放在实车上跑,如今的开城拓路也是如此。为了解决快速验证的瓶颈,蔚来有自己的一套解决方案,也就是‘群体智能’。”

白宇利介绍称,在蔚来的四颗Orin中,有一颗专门留给了影子模式,以求快速将真实的算法部署在车上,拿到测试结果。

“通过这样的方式,很容易在非常短的时间内,在海量的车上做部署。以十万辆级的半年任务为例,在做车辆调度和任务下发的时候,可以做到4小时之内在十万辆级上,以98%的成功率部署,并行验证的任务可以达到150万并发,并且每天测出来里程超过150万公里。”

打开网易新闻 查看更多图片

另外,在得到反馈数据后,还需要在车端通过算法和规则去做筛选,将最有价值的数据上传到云端进行World Model训练,驱动迭代闭环,这也是一大挑战。

“在经过筛选后,可能只有低于万分之一的数据会通过压缩方式传到云端进行自动筛选,使得反馈数据的闭环转起来。”

三、成本

在白宇利看来,长期主义需要建立在短期成本可行的基础之上。量产车上存在百倍的算力需求,以及近万倍的数据需求,这需要整个平台共同去解决。

目前,蔚来打通了边缘计算的能力,使得整个车云算力联合调度,在蔚来整体端云上的算力,足足有260亿E-OPS,相当于100个分布式的千卡训练集群。

“这基本和特斯拉的10万片H100的算力规模差不多。我们也在这里进行数据生命周期管理,并通过车端缓存和压缩技术,大幅减少车云上面流量通行。”

白宇利介绍称,在智驾研发过程中,周期波动性其实很大。例如在软件发版时,所有资源都会为其集中。而蔚来设计了一套混合云机制,用来兼顾服务的稳定性和弹性。

“该机制通过部署多个云的节点,在峰值时做弹性上云,通过分时定价和优化调度,有效讲波峰波谷控制在10%以内。”

端到端不代表“大跃进”

针对目前最为火热的端到端模式,白宇利也发表了自己的见解。他认为端到端并非灵丹妙药。

如果说在没做端到端的时候,能达到60-70分的效果,之后也很难通过改变架构做到100分,因为工程效率还没有达到那个水平。同时,通过加数据和算力,同样也很难达到一个基准的水平。”

打开网易新闻 查看更多图片

他指出,模型架构的转变,并非代表着 “大跃进”。 就此,白宇利列出了几个必要条件:

  1. 目前,真正做到数据飞轮高效落地的企业寥寥无几,最核心的还是要保证数据验证体系的自动化率做到足够高;
  2. 模型要就绪:这不仅仅是感知规控的全面模型化,还要讲感知、规控都做到完全模型化。在驾驶方案上也要做到有图/无图完整切换,以使得整个研发迭代都实现数据驱动模式,这些是基础。
  3. 无论是在生产还是验证过程中,闭环的效率都要确实提升;
  4. 千卡集群:6月4日,马斯克发了一个推特,说他买了10万片卡,但是没有地方放,就在德州的工厂上扩展了一个数据中心,放了5万片卡进去。10万片卡在国内实在有些奢侈,但如果想要做端到端大模型,至少万卡是必须的。
  5. 把训练的有效率和恢复时间做好,才有可能达到一个更高的加速比。

最后,白宇利表示,在数据量和算力都足够大的情况下,端到端模型联合优化,无疑可以整体提高智驾的算法功能和体验的上限。

“如果没有很好的工程效率和质量,那端到端带来的链路简化和闭环红利,最终都会被低效的工程效率掩盖掉。”