自动驾驶是人工智能领域中一项兼具代表性和挑战性的任务,其旨在通过场景理解和推理来控制车辆实现安全性的运动规划。现有的模型通常基于计算机视觉方法来进行场景理解,但是这种方法具有严重的性能瓶颈,即缺乏泛化到复杂或长尾行驶场景中的能力

本文介绍一篇发表在计算机视觉顶级会议CVPR 2024上的一篇论文,本文提出了一种全新的自动驾驶视觉语言规划框架(VLP)。VLP在现有框架中引入了语言模型来弥补模型在语言理解与自动驾驶决策之间的差距。此外,作者还设计了以智能体为中心的ALP学习范式和以车辆为中心的SLP学习范式,来提高自动驾驶系统的上下文理解能力。与现有的其他方法相比,本文方法在极具挑战性的NuScenes数据集上实现了的端到端SOTA规划性能。此外,VLP在一些复杂的长尾场景中也表现优异,在面对新的城市环境时展现出了强大的泛化能力。

打开网易新闻 查看更多图片

论文题目: VLP: Vision Language Planning for Autonomous Driving 论文链接: https://arxiv.org/abs/2401.05577

一、引言

目前主流的自动驾驶研究通常包含三个主要子任务,即感知、预测和规划(perception, prediction,planning,也被称为P3任务)。传统方法通常采用模块化模式,即在缺乏整体视图的情况下分开处理这三个任务,每个子任务的开发和优化之间没有交集,因而会带来一些潜在的安全问题

后面出现的端到端自动驾驶系统(ADS)模式将P3任务进行了统一,即首先通过鸟瞰图 (BEV) 来提取全局视图特征,然后再执行下游任务,这种端到端的方式具有更安全的规划能力。但是这种方法仅局限于视觉输入信息,很难实现域外泛化,例如无法在新城市和长尾场景中保持良好的性能

下图展示了本文方法与SOTA方法VAD[1](VAD通过纯视觉信息来进行决策)的新城市泛化性能对比,即在波士顿数据集上进行训练,在新加坡数据集上进行测试,可以看到本文的VLP在L2误差和碰撞率方面显着优于VAD方法。

VLP尝试将大型语言模型(LLMs)的常识推理能力融入到现实世界的自动驾驶任务中,以提高模型的综合泛化能力。 具体来说,VLP引入了两种全新的学习范式,分别利用LLM从推理和决策两方面来提高ADS的性能:

(1)智能体为中心的学习范式(Agent-centric Learning Paradigm,ALP)

ALP利用语言模型中嵌入的常识和逻辑对BEV特征进行语义引导,并且以全局视角执行推理和决策,直接影响了ADS的安全性和和准确性。

(2)自动驾驶车辆为中心的学习范式(Self-driving-car-centric Learning Paradigm,SLP)

考虑到路径规划模块在ADS中的关键作用,作者设计了一种SLP范式来提高模型规划路径和获取信息的能力,在SLP中,通过利用预训练语言模型中编码的知识,使规划查询与预期目标和车辆驾驶状态保持一致,语言模型的理解能力有助于在规划阶段做出更明智的决策。

二、本文方法

下图展示了本文VLP模型的整体框架,其中BEV特征图被视为ADS下游解码任务的记忆池(memory pool),BEV可以将车辆周围的驾驶环境(包括车辆、行人、车道等)汇总并编码为统一的特征图。以智能体为中心的ALP范式专注于细化场景中的细节信息以增强BEV记忆特征的推理性能,而以车辆为中心的SLP范式则专注于指导车辆的规划过程。

打开网易新闻 查看更多图片
2.1 智能体为中心的ALP范式

在传统的纯视觉ADS中,BEV特征图作为多个下游任务的信息来源,因此确保BEV包含车辆周围各种关键的感知细节对于完成安全和精确的自动驾驶至关重要。然而目前ADS中的BEV来源于多视图摄像头采集信息的拼接,并不是真正的鸟瞰图像。这可能会导致生成的 BEV 与预期的 BEV 表示之间存在差异,为了减少这种差异,作者引入了以智能体为中心的ALP范式,将生成的 BEV 与真实的鸟瞰图进行对齐,通过LLM对BEV的直接监督,ALP可以较好的细化局部细节并与人类视角保持一致

ALP范式重点考虑了三种BEV agent:ego-vehicle(车辆自身)、foreground(前景目标)和lane elements(车道元素)。作者首先将每个agent的真实区域与生成的 BEV 特征对齐,并从中选取感兴趣的区域,随后对获得的局部 BEV 执行池化操作,以生成相应agent的单个特征表示,将这些特征拼接起来得到Agent-BEV张量,这一过程可以表示如下:

为了准确的优化BEV特征,作者使用LLM和对比学习范式两种监督信号对BEV期望进行学习,为了方便从LLM中导出相应Agent期望的感知信息,作者将Agent标签、边界框和未来轨迹等ground-truth信息嵌入到下图所示的Prompts中,然后将这些prompts送入到LLM的编码器中得到相应的Agent期望特征。

作者设置了几个MLP层 来使期望特征适应到 BEV 特征空间中,并按照类似的方式将这些期望特征拼接起来生成Agent期望张量,计算过程如下式所示,其中 分别表示单个Agent期望特征、描述模板和ADS中各个Agent的ground-truth信息。在训练过程中,作者冻结了LLM的参数仅对适应层进行更新,这样做可以节省显存同时保留LLM中的预训练知识。

打开网易新闻 查看更多图片

在得到Agent BEV特征 和Agent期望特征 后,就可以通过对比学习损失进行优化对齐。

2.2 车辆为中心的SLP范式

车辆自我动态建模是ADS系统的核心功能,之前的方法通常以参数可学习的形式来设置 ego-query (自我查询向量)与BEV特征中的其他Agent(前景Agent和车道Agent等)进行交互,来得到车辆当前状态的感知信息。经过查询处理的车辆特征 随后被进一步处理来预测车辆规划的下一个路径点,计算过程如下:

其中 和 分别表示ADS中的自我信息收集模块和路径规划头,作者认为,虽然这种机制可以取得良好的规划结果,但仅仅依赖数值优化会导致ADS决策的可解释性较差,导致模型适应到新环境中的难度增大。为了解决这些限制,作者提出了一种以车辆为中心的SLP范式,SLP可以使 ADS 具备从连续且鲁棒的特征空间中做出决策的能力。

SLP首先使用规划路径的ground-truth来模板化车辆状态的语言描述,其中包括了高级驾驶命令和车辆的未来轨迹等信息,随后这些语言提示被送入到LLM中来生成优化后的车辆特征 ,整体过程可以表示如下:

与上一节中介绍的ALP范式类似,作者同样使用对比学习损失对车辆特征进行特征对齐,来向整体框架中注入LLM中的推理知识。

三、实验效果

本文的实验主要在nuScenes数据集上进行,该数据集是自动驾驶领域中包含完整传感器套件(6 个摄像头、1 个 LIDAR、5 个 RADAR、GPS 和 IMU 传感器)数据的大规模公共数据集。nuScenes 包含了来自波士顿和新加坡的 1000 个驾驶场景,这两个城市以其交通密集和极具挑战性的驾驶条件而闻名,在本文的实验中,作者利用 6 个摄像头图像作为视觉输入。作者选取了自动驾驶领域中的两个SOTA模型(VAD[1]和UniAD[2])作为对比baseline

3.1 Open-loop规划实验

路径规划是所有ADS(自动驾驶系统)的基石,规划算法的设计关系到自动驾驶车辆的行进安全和行进效率。在下表中,作者将本文的VLP模型与其他baseline模型进行了对比。

从表的第 4-6 行中可以看出,在ADS中仅加入SLP范式就可以显著降低模型的L2误差和碰撞率,当SLP和ALP共同作用时,模型的性能增益会更加明显。与基线UniAD相比,VLP-UniAD 的平均 L2 误差和冲突率分别降低了 28.1% 和 48.4%,这表明本文提出的两种自动驾驶学习范式的有效性,从而能够带来更加安全的行动规划。

3.2 感知和预测实验

本文的感知和预测实验包含了多目标跟踪(Multi-object tracking,MoT)、在线测绘(Online mapping)和运动预测(Motion forecasting)等多种任务。这些任务是自动驾驶系统重要的信息来源,感知和预测的精度直接影响了自动驾驶系统的可靠性。

对于MoT实验,作者使用了采用AMOTA(平均多目标跟踪准确率)、AMOTP(平均多目标跟踪精确率)和Recall(召回率)等多种协议来评估模型的性能,下表展示了实验结果,可以看到,在加入SLP学习范式后,VLP的AMOTA、Recall值均超越了UniAD,MoT性能的增强可以帮助VLP更好的预测和响应道路上其他物体的运动,从而降低事故风险

打开网易新闻 查看更多图片

对于在线测绘实验,作者主要针对四种关键测绘元素进行:车道、可行驶区域、分隔线和人行横道。实验结果如下表所示,评估指标使用IoU,从表中可以看出,当加入SLP和ALP学习范式后,模型在四种测绘元素上的预测准确率均超越了UniAD,这表明在引入语言模型之后,VLP框架对各种道路元素的理解均获得了提升。

对于运动预测任务,作者使用了与UniAD方法中相同的评估指标,即minADE(最小平均位移误差)和minFDE(最小最终位移误差)等指标。下表展示了对比实验结果,SLP和ALP的引入可以有效提升模型对车辆自身的状态把控。得益于车辆自身特征监督的完善和细化,ADS对周围其他车辆的运动预测精度也获得了提升。

四、总结

本文引入了一种全新的视觉语言规划(VLP)方法来增强自动驾驶系统(ADS)的功能。VLP向现有的自动驾驶框架中引入了大型语言模型(LLM)来提升模型与现实环境的对齐能力。具体来说,作者提出了以车辆为中心的SLP学习范式和语言提示引导的智能体ALP学习范式,来实现对车辆周围环境的全面理解。通过对各种自动驾驶任务的一系列实验,作者证明了VLP方法在改善 ADS 系统的感知、预测和规划方面的有效性

文献参考

[1] Bo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang, and Xinggang Wang. Vad: Vectorized scene representation for efficient autonomous driving. arXiv preprintarXiv:2303.12077, 2023.

[2] Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, et al. Planning-oriented autonomous driving. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 17853–17862, 2023.

llustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈