近日,“端到端引领自动驾驶新时代高峰论坛”在上海举行。该论坛由辰韬资本联合南京大学上海校友会自动驾驶分会等机构筹办,共有200余位产业专家、投资机构、研究机构及智能驾驶头部企业的代表出席。

各位嘉宾围绕端到端这一热门话题,发表了关于其发展预判、关键挑战等最新观点。RoboX对这些观点进行了梳理提炼,供大家参考。

打开网易新闻 查看更多图片

辰韬资本投资经理 刘煜冬:

端到端的定义标准

会上,辰韬资本、南京大学上海校友会自动驾驶分会、九章智驾三方联合重磅发布2024年度《端到端自动驾驶行业研究报告》

刘煜冬在介绍《报告》内容时表示,端到端的核心定义标准应为:感知信息无损传递、可以实现自动驾驶系统的全局优化。

他表示,近期的端到端架构已逐渐发展成熟,已经出现了可量产的技术方案(UniAD,FSD等)。头部自动驾驶公司已经积累了丰富的端到端研发经验,未来半年到一年内即可量产上车;同时,主机厂今年或明年就会有初步的端到端方案上车。

另外,已有多家数据公司,专门针对端到端推出了核心数据和闭环仿真的技术方案。

在提及端到端自动驾驶与机器人的关联时,刘煜冬称,这两个行业将经历三个阶段:1、自动驾驶向机器人行业借鉴技术;2、端到端技术反哺机器人;3、自动驾驶和机器人竞逐物理世界AGI。

“自动驾驶的优势在于结构化场景和数据获取路径,机器人的优势为安全性要求较低。如果为机器人找到通用但是相对结构化的场景,确定数据的获取路径,将更有利于其发展。”

相关阅读:一分钟认识「端到端自动驾驶」

打开网易新闻 查看更多图片

商汤绝影智驾产品总监 赵祥磊:

端到端可重新定义“无图

赵祥磊指出,大约两年前,业内利用占据网络识别随机物体,随后又发现汽车需要理解场景,而不是仅仅寻找可通行车道。

“当尝试去把所有的场景都进行合理解释的时候,会发现感知和规控的接口是无穷无尽的。而一段式的端到端能力上限会更高,所以我们一开始在开发端到端方案的时候,就是按照一段式的方式来推进的。”

后来,其团队在进行实车部署时发现,实车是一个闭环的情况——轨迹输出进行控车,控车之后发生相应动作,然后产生新的图像感知输入。

通过大约半年的实车测试,商汤绝影有几点发现:端到端不光能做到“无高精地图”,而是能做到“无任何地图”。

“端到端的方式真的能在没有任何地图信息的前提下,具备一定的大路口、小路口,直行、左转、右转的通行能力。另外,我们没有用激光雷达,也没有去依靠毫米波雷达,而是只依靠七个摄像头,也能实现在不同场景下的避让动作。”赵祥磊认为,这已经能够验证端到端的Pipeline是有效的。

但是,挑战仍然存在:随着车的规模增长,虽然能获取更多数据,但是Corner case出现概率下降。相应的解决方式还是要通过大模型进行数据生成,加速仿真测试效率、保证规控仿真、保证端到端仿真。

相关阅读:对话商汤绝影王晓刚:“两段式”端到端,难以解决智驾性能瓶颈

打开网易新闻 查看更多图片

光轮智能创始人CEO 谢晨:

主机厂掌握了更多主动权

在创办光轮智能前,谢晨曾在英伟达负责自动驾和Cruise负责数据仿真。他表示,在GPT 2发布的时间点,特斯拉就已明确自动驾驶的范式就是Transformer和数据。也就是搭建数据闭环,通过车端数据回环做端到端算法。

谢晨认为,尽管Waymo的L4技术做得非常好,但它更像是一种“标准答案”,在舒适度上有所欠缺;而特斯拉的端到端效果虽然不一定是最安全的,但堪称最自然的L2++,也更能驱动大家去用端到端。

从具体效果来看,目前FSD在数据密集的城市体验感更好,而且对不少复杂的Corner case都处理得很好,但是简单场景反而会出错。

“提升FSD在数据稀疏城市的能力,只有通过合成数据才能实现。合成数据是解决端到端数据短缺的最有效方法。特斯拉约30%使用合成数据;蔚来约30%使用合成数据;Cruise约50%使用合成数据;英伟达自动驾驶约80%使用合成数据。”他说道。

在谢晨看来,在端到端时代,传统主机厂迎来了更多机会,因为它们拥有海量数据和GPU,掌握了更多主动权。同时,已经有成熟量产项目、达成数据闭环的自动驾驶公司也有了降本增效的机会。

相关阅读:像个出色的“醉鬼”?特斯拉FSD V12.3.3最新评测

打开网易新闻 查看更多图片

零一汽车智能驾驶合伙人、

前图森感知负责人 王泮渠:

传统算法的四大挑战

王泮渠指出,传统算法系统正面临着四大挑战:

1.分模块导致架构复杂,各个模块上限不高。传输和优化难度大,局部与整体优化目标冲突。

2.研发成本巨大:开发/维护/人力成本随着模块增加而飙升。

3.泛化性较差:叠加规则应对交付压力,导致维护性和可扩展性变差。

4.大规模产品化落地困难:当前主流产品只能在有限的场景中应用,如某几个城市/示范区/高速做定点,而非规模化运营。算法与软硬件绑定过深,也很难兼容更多车型/平台/场景。端到端为解决这四大问题提供了很好的思路。

他介绍称,目前,零一汽车正基于多模态大语言模型的端到端架构,主要解决泛化性的问题——该方案的输入端为摄像头、车辆历史、导航和Prompt;输出端为规划轨迹和逻辑推理。

根据零一的规划,2025年初,该公司将实现端到端大模型上车,2025年中运营场景测试,同年年底开始无人化运营开始。接下来,预计2026年中开放场景运营,2027年中大规模商业化落地。

捷豹路虎中国研发中心

规控高级经理 刘奇:

不变的复杂性,与变化的需求

刘奇表示,从主机厂角度来看,主要挑战有以下6点:

1.场景开发和数据挖掘存在不足。

2.开发周期长。

3.希望自动驾驶用最小系统覆盖大部分场景。

4.泛化性问题,比如非结构性道路场景中,行车和泊车系统稳定性糟糕。

5.产品复杂度没有变化,但是用户需求发生了变化。比如泊车功能原本仅保证居中泊车,而现在用户会提出“远离柱子”等更拟人化的决定,也会对泊车路线和安全性有质疑。

6.用户希望系统可以保证安全性,且提供拟人化的规划和选择。

“现在我们认为,从规划和控制的角度如何让客户真正满意,才是最核心的问题。”

刘奇介绍称,在数据驱动规控的时代,需要将原先的模块进行重新融合。模块之间不再由function定义,而是由场景和需求定义。

“不同的场景叠加不同的原子模块,比如环境特征提取、驾驶员风格提取等。其中,环境特征提取用BEV或者OCC模型,比较传统;而驾驶员风格提取,比如行车或泊车时的平稳/激进驾驶风格,会用feature定义,作为模型输入。Feature进入以后,会进行聚类分析,通过模型自己定义激进或平和,加入driving policy training进行二次分类。”

打开网易新闻 查看更多图片

安谋科技汽车业务线

业务发展与方案总监 曾霖:

以芯片仿真追赶开发进度

“从CNN到BEV,每隔12个月,软件的编程范式都有巨大的变化。”曾霖称,在此背景下,芯片变化的速度也很快,通用性和效率很难达到最优:比如软件FP8的情况下,需要1000 TOPS的算力,400W的功率,如果放在车上,那么冷却系统需要设计得非常复杂。

对此,ARM个给出的解决方式包括:

1、近存计算;

2、通过NPU和GPGPU架构解决;

3、一个新的模型或者新的编程范式:现在做的大模型,在GPGPU上一定可以跑起来。

“现在我们在做芯片级的仿真,且尽量要做到和芯片的物理形式保持一致。如果主机厂和软件厂商已经设置了明确的应用场景,那也可以明确自己需要什么样的硬件。”曾霖表示,为了节省工作时间,硬件设计和软件开发可以并行。

他还介绍称,新的芯片从启动到SOP,通常需要12个月。2023年,主机厂的期望是从平台车型立项到SOP的时间为24个月。“目前已经有主机厂商和我们提出,希望将这一时间缩短到12个月,我们只能尽量配合。”

问题探讨:

Transformer

是未来大模型的基础架构吗?

参与嘉宾:

戴新宇 南京大学人工智能学院副院长

王泮渠 零一汽车智能驾驶合伙人,前图森感知负责人

张鹏 智平方科技产品副总裁

周崇杰 弘晖基金投资总监

戴新宇:Transformer从2017年提出后,在NLP以及多模态得到验证,所以成为主流神经网络结构。其现阶段效果很好,但是潜力还没发挥。

Transformer缺点在于训练能耗大,乘法运算多,可解释性一般。虽然有思维链,但又没有很好的推理能力。未来3-5年,Transformer还是有很大的发展空间的,但是除此之外也有值得学术界探索的模型。

王泮渠:Transformer的通用性和泛化性很强。其优势是不管是什么模态,图像声音或者文本都可以通过query深入,然后进行编码,输出也很多样。

其通用性保证了各种任务都可以进行无痛迁移和扩展,将多任务网络整合到一个模型下。

不过,虽然Transformer潜力很大,但是未来不会一统天下。现在它擅长大模型和决策,未来Diffusion、3DGS等模型对于仿真和真实世界渲染会更有帮助。其他模型的架构都有很大的探索空间。

张鹏:Transformer是当前比较有效且多种模态可以统一输出的基础,Diffusion或者3DGS也已经在细分领域应用了。

要评价这些架构,可以从两点去看:Space(足够低的成本做到可控的规模,上限是否更大)和Stability。架构优势还是要体现在落地和场景化的成本和上限上,Transformer可能只是一个过程。

周崇杰:Transformer和人脑比较,推理效率和算力利用都有缺陷。未来无论是基于Transformer的优化、混合模型,或者新的架构模型,都会有一些新的东西出来,架构还在不断演进变化。