硬核真相 —— 一次看完港科大RAM-LAB实验室今年ICRA的15篇论文都写了哪些无人驾驶的黑科技

一年一度的机器人与智能系统领域最著名、影响力最大的顶级学术会议IEEE International Conference on Robotics and Automation (ICRA) 将于今年六月举行。作为国际机器人与自动化领域的两大影响最大的学术会议之一， ICRA每年吸引来自世界各个顶尖机器人研究机构的专家和业界人士汇聚在这个盛会，探讨和展示机器人行业最前沿的技术。

香港科技大学机器人与多感知实验室(RAM-LAB) 在此次ICRA会议中有15篇论文被接受。研究方向涵盖机器人地图重建、高精定位、环境感知、轨迹预测、路径规划、自主导航等多个方面。这些文章体现出机器人与无人驾驶工业界需求与学术前沿发展的结合。

下面我们将一次看完本次ICRA接收的论文背后的“黑科技”。

1、Greedy-Based Feature Selection for Efficient LiDAR SLAM

首个用于多激光雷达的SLAM系统

本论文研究如何通过有效的特征选择以提高激光雷达实时定位与建图(SLAM)的运行效率。

不同于以往基于降采样或者选择感兴趣区域的方法，本文从优化函数的角度解决了这一问题。本文提出了一种简单而有效的特征选择方法（通常只选取20%的点），除了激光SLAM之外，它还可以被应用于一系列可以被构建成最小二乘的问题上，如捆集优化、重定位等。

该方法把特征选取建模成一个最大化汉森矩阵频谱特性的问题，利用贪心的方法进行高效的特征选择。另外，该方法还考虑了场景的特性，通过计算退化因子，在线修改特征的数量以提高后续参数优化的稳定性。

实验表明，该方法被应用到最先进的激光SLAM中，可以有效减少30%的计算延时和22%的定位误差。

代码已开源： https://ram-lab.com/file/site/m-loam 。

2、3D Surfel Map-Aided Visual Relocalization with Learned Descriptors

首个使用3D面元地图的集合信息进行视觉重定位的系统

在本文中，作者介绍了一种使用3D面元地图中的几何信息进行视觉重新定位的方法。

首先渲染3D面元地图以帮助构建视觉数据库，这个数据库同时提供了图像点和3D面元之间的关联。利用面元重投影约束来优化视觉数据库中的关键帧姿势和三维地图点。随后，相机重新定位算法利用视觉数据库，从粗到细地估计 6 自由度相机姿势。除此之外，作者利用深度学习的视觉描述符，进一步提高困难场景下的重定位性能。

作者在实际和仿真条件下进行测试，结果显示此方法具有有效性和较高的重定位效率；使最终的相机姿势始终与 3D 环境保持一致。

3、Differential Information Aided 3-D Registration for Accurate Navigation and Scene Reconstruction

基于时间差分信息的高性能点云配准算法

本文研究了基于时间差分信息的点云配准问题，提出了在时间差分基础上的点云匹配数学模型. 时间差分信息通常来自于点云变化量测量和外部差分信息如惯性测量单元（IMU）、光流（Optical Flow）、场景流（Scene Flow）等.

利用了kD树对提出的新点云配准模型进行迭代最近点（ICP）估计，可以有效的利用时间差分信息对点云对应性带来精确度上的提升. 通过无人机等三维重建实例证明了它相对于传统ICP方法的有效性。

4、PointMoSeg: Sparse Tensor-Based End-to-End Moving-Obstacle Segmentation in 3-D Lidar Point Clouds for Autonomous Driving

首个端到端的云运动物体检测网络

移动障碍物分割是自动驾驶感知的重要功能之一。例如，它可以为动态交通环境运动规划提供基本运动感知信息。当前大多数基于3D激光雷达的移动障碍物分割方法，首先使用路面分割来查找障碍物，然后采用自运动补偿来区分障碍物是静止或运动。

然而，当路面上有坡度时，大部分路面分割所采用的平坦路面的假设将不被满足。此外，由于GPS信号衰减，基于GPS的自运动补偿在城市环境中通常不可靠。

为了解决这些问题，本文提出了一种基于稀疏张量的端到端深度神经网络，本方法无需GPS和平面路面的假设。这个网络的输入是两个连续帧的（先前的和当前的）点云，而输出直接是作用于当前帧上移动障碍物的逐点mask。作者在公共的nuScenes数据集上训练和评估这个网络。

实验结果证实了此网络的有效性以及相比于基准方法的优越性。

5、DiTNet: Real End-to-End 3D Object Detection and Tracking in Spatio-temporal World

首个基于时空图的端到端多物体检测跟踪联合网络框架

不同于以往检测和跟踪分离的多物体跟踪框架，本文将检测和跟踪两个步骤端到端的放入时空图中进行处理并得出结果。

相比二维图像，三维点云并无法提供足够的纹理和表面信息，这对物体的匹配提出挑战。本方法并提出了一种有效的端到端提取不同物体间相对特征的网络，对检测结果直接赋值相应的物体ID，而无需通过后处理的物体匹配过程。实验表明，本文提出的方法在KITTI 多物体跟踪数据集上有较好结果。

6、PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo Matching

KITTI双目榜单上排名第一的自监督双目匹配算法

目前基于监督学习的双目匹配网络可以取得较好的准确度，但是其需要大量真值数据集用于训练，这使得这些方法往往很难应用于实际。为解决该问题，本文提出了一种基于自监督学习的双目匹配方法，其不需要使用真值数据集进行训练，可以显著提升算法的部署效率。

具体而言，作者首先利用传统算法生成具有较高置信度的半稠密视差图作为伪真值数据集，然后利用该数据集监督网络训练。作者还改进了双目匹配网络的结构，提升了其运行效率。在KITTI数据集上的实验结果证实了改进的双目匹配网络的有效性，同时提出的方法能够超过其他基于自监督学习的双目匹配算法。

7、Three-Filters-to-Normal: An Accurate and Ultrafast Surface Normal Estimator

超实时的高性能法向量计算方法

本文提出了一种新颖的法向量计算方法，其采用三个滤波器对输入的深度图进行处理进而生成相对应的法向量估计，这三个滤波器包含了两个图像水平和垂直方向的梯度滤波器以及一个均值或中值滤波器。此外，作者还创建了三个大规模的仿真数据集用来促进法向量估计这一领域的发展。

实验结果证明作者提出的方法可以在准确度和效率间取得较好的权衡，基于C++和CUDA的实现分别可以取得260Hz和21kHz的运行速度。

8、In Defense of Knowledge Distillation for Task Incremental Learning and its Application in 3D Object Detection

首个适用于自动驾驶感知算法的增量学习算法

让机器人能够不断地学习新的技能是实现机器人智能化的一个有效途径。为了实现增量学习，研究者通常通过知识蒸馏的方法，使机器人在学习新的技能的同时，缓解对以前知识的遗忘。然而，随着任务序列长度的增加，知识蒸馏对遗忘的缓解效率会下降，作者将之称为知识蒸馏的长序列效能下降（Long-sequence-Effectiveness-Degradation）问题。

在本文中，作者分析了LED问题的原因，将之归因于不同任务间数据分布的差异。为了解决这一问题，作者提出通过最大化所有旧任务数据分布后验概率的方法来缓解LED问题，并在自动驾驶场景三维物体检测任务上验证了这一方法的有效性。代码已开源。

9、Ground-aware Monocular 3D Object Detection for Autonomous Driving, International Conference on Robotics and Automation

KITTI数据集上单目3D检测第二名算法

单目三维检测是无人驾驶方面以及计算机视觉上非常重要的任务。本文指出，在无人驾驶系统视觉系统中，路面是重要的深度指示器，而目前大多数的单目检测网络都还没有深入地对这一点进行分析。

本文提出 Ground-aware convolution，尝试基于人利用地面特征来估计深度的流程设计对应的神经网络推理结构，增强网络利用相应的投影几何性质进行三维推理的能力。

作者在公开数据集KITTI上测试得到行业顶尖的结果(发布时为单目3D视觉检测第一名)。对视觉3D检测输出结构的成果直接运用到单目深度估计网络中，在KITTI对应的排行榜中依然能得到行业顶尖的结果。代码已开源。

10、YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection

KITTI数据集上双目3D检测最快的算法

双目3D检测长期依赖于全局或局部的双目匹配产生的点云，这也限制了检测算法运行的速度，目前顶尖的双目3D检测网络在最顶尖的网络中仍然需要接近400 ms。

本文提出YOLOStereo3D，仅使用轻量的双目融合特征以及类似于单目视觉检测的网络输出结构作为基准；本文进一步提出层级式的特征融合网络结构以增强获取的双目融合特征。

作者在公开数据集KITTI上测试得到行业顶尖的结果，运行速度与其他顶尖结果相比快数倍。作者对视觉3D检测输出结构的成果直接运用到单目3D结果上时同样能取得同类问题中行业顶尖的结果。代码已开源。

11、AVGCN: Trajectory Prediction using Graph Convolutional Networks Guided by Human Attention

首个基于人类视觉注意力模型的轨迹预测算法

行人轨迹预测尤其是拥挤场景下的行人轨迹预测是一项重要而又充满挑战的任务。作者建议，引入注意力机制来推断不同邻居的重要性对于在人群数量变化的场景中进行精确的轨迹预测至关重要。在这项工作中，作者提出了一种基于人的注意力的利用图卷积网络（GCN）进行轨迹预测的新方法AVGCN（A表示注意力，V表示视野约束）。

首先，作者使用在受试者执行鸟瞰视角下人群导航任务时收集的视线数据，训练一个估计邻近行人重要性的注意力网络。然后，作者将行人视野约束调制的注意力权重引入到一个轨迹预测网络中，该轨迹预测网络使用GCN来有效地汇总邻居的信息。AVGCN还通过利用变化轨迹预测来考虑行人轨迹的随机性。

本方法在多个轨迹预测基准上具有SOTA的性能，并且在所有考虑的基准上具有最低的平均预测误差。

12、Learning Interpretable End-to-End Vision-Based Motion Planning for Autonomous Driving with Optical Flow Distillation

首个基于视觉的可解释的端到端轨迹规划算法

目前基于图像的端到端轨迹规划算法往往缺乏可解释性，这严重限制了这些算法的实际应用。为解决该问题，本文提出了一种可解释的端到端轨迹规划算法。

具体而言，算法输入为过去时间的环视图像序列，作者首先预测鸟瞰视野中一系列未来时间的语义分割结果，再在这些预测结果上规划车辆轨迹。这些未来预测结果不仅可以提供丰富的可解释性信息，还可以使得轨迹规划过程能够处理检测置信度不高的障碍物，进而提升无人驾驶的安全性。

此外，作者还提出了一种基于光流的蒸馏方法，来进一步提升轨迹规划算法的性能。在nuScenes数据集和Carla仿真环境中进行的实验证实了提出的方法的有效性。

13、S2P2: Self-Supervised Goal-Directed Path Planning Using RGB-D Data for Robotic Wheelchairs

首个基于自监督学习的机器人轮椅路径规划算法

本文提出了一种用于机器人轮椅的路径规划算法，其基于自监督学习，可以节省大量用来采集真值数据集的人力和物力，提升算法的部署效率。

具体而言，作者首先利用传统路径规划算法生成大量包含噪声的伪真值数据集，然后作者利用可通行区域往往是平面这一约束，在生成的数据集上对网络进行训练优化。

此外，作者还提出了一个框架，可以将提出的方法融合进现有的基于地图的导航系统中。本文在机器人轮椅上进行的实验证实了提出的方法的有效性。

14、Real-time Optimal Navigation Planning Using Learned Motion Costs

首个复杂地形上的实时机器人自主导航系统

在复杂地形上实现机器人的自主导航需要系统理解机器人在不同地形上的通过能力。

本文提供了一种针对复杂地形实现自主路径规划与优化的集成解决方案。机器人通过机载传感器生成地形高程图，并通过深度神经网络批量评估机器人在不同位置以不同指令行走的风险及能量消耗。在此基础上，本文设计了采用GPU辅助的快速全局路径规划和优化器，在硬件资源有限的移动计算平台上可稳定在1.5s内返回复杂地形图（100m2）上的全局最优路径，相比传统方法用时降低三个数量级。

本项目首次实现了机器人在复杂地形上的实时自主导航，并成功在ANYmal四足机器人上完成了多项导航实验。

15、iCurb: Imitation Learning-based Detection of Road Curbs using Aerial Images for Autonomous Driving

首个基于模仿学习的线状物体检测系统

通过对遥感图像中路沿图结构的检测，可以有效地生成路沿的先验信息（例如高精地图）来辅助自动驾驶。以往的工作主要依靠于图像分割或者图生长的方法。前者主要依靠语义分割和较为复杂的图像后处理，由于图像分割在像素级工作，其得到的结果往往有很多间断，即拓扑结构不正确；后者虽然通过图像生长的方法有效缓解了拓扑结构的错误，但这类工作往往着眼于特征网络的优化而忽略生长策略。

本工作从模仿学习的角度对图生长方法进行了研究，直接通过循环回归生长出路沿的图结构。同时，作者设计了更为合理有效的label生成策略，以及基于Dagger算法的训练框架。在公开数据集上的测试结果相较于之前工作得到了明显的提升。此方法也可以被用于其他多种线状物体的检测（如车道线和路网）。

实验室简介

香港科技大学机器人学院的机器人与多感知实验室( RAM-LAB) ，由刘明教授创办，专注于智能系统在复杂多变的环境中的感知与导航等方向的研究与实践。2017年，RAM-LAB团队研发了香港第一台无人车，曾被超过30家海内外媒体进行报道。团队在国际机器人领域顶级期刊和会议上累计发表论文200余篇，总引用次数超过5000次，h-index为40。

本次ICRA会议，刘明教授将应邀作为主题演讲人 (Keynote Speaker) 出席会议，欢迎各方莅临指导。

硬核真相 —— 一次看完港科大RAM-LAB实验室今年ICRA的15篇论文都写了哪些无人驾驶的黑科技

牛弹琴：中国人还在过节世界有2个好消息和2个坏消息

俄罗斯政府暂时禁止食糖出口

“堵车到崩溃，眼睁睁看着飞机飞走了……”今天中午，杭州也将进入高峰

首个抢七！米切尔狂轰50分创纪录比肩詹皇包揽末节18分仍空砍

日本1-0绝杀乌兹别克！时隔8年再夺亚洲杯冠军，加冕双冠王创历史

鲍尔默：把快船推倒了重建！上亿薪水的球队输球了，不怪威少

男子出借身份帮人买房获1万6好处费结果背上百万贷款

嫦娥六号成功发射开启世界首次月球背面采样返回之旅

小男孩在景区玩耍被路过的鹈鹕“偷袭”一口夹住脑袋

服务区一新能源车电量耗尽大人小孩弯着腰推车走

时代变了，NBA西部半决赛四强阵中几乎无年龄30+球星

绍伊古：俄方正在南千岛群岛建立观察哨所

为何后来没有人歌颂曼德拉？如今的南非30年前它是一个发达国家

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

独家调查：河南大学失火涉事公司及校方称当晚礼堂没有施工人员

周鸿祎跟马化腾吐槽微信好友上限问题：很快解决

豁哦！统统炒掉，一天8人离队，13年换7人，湖人这是要变天啊

广东中山暴雨洪水齐腰深，大量汽车被淹没至车顶！

火药味！贝尔偷听辽宁队战术与赵继伟爆发冲突

中国游客入境大马将免除住宿证明等

硬核真相 —— 一次看完港科大RAM-LAB实验室今年ICRA的15篇论文都写了哪些无人驾驶的黑科技

牛弹琴：中国人还在过节 世界有2个好消息和2个坏消息

俄罗斯政府暂时禁止食糖出口

“堵车到崩溃，眼睁睁看着飞机飞走了……”今天中午，杭州也将进入高峰

首个抢七！米切尔狂轰50分创纪录比肩詹皇 包揽末节18分仍空砍

日本1-0绝杀乌兹别克！时隔8年再夺亚洲杯冠军，加冕双冠王创历史

鲍尔默：把快船推倒了重建！上亿薪水的球队输球了，不怪威少

男子出借身份帮人买房获1万6好处费 结果背上百万贷款

嫦娥六号成功发射 开启世界首次月球背面采样返回之旅

小男孩在景区玩耍 被路过的鹈鹕“偷袭”一口夹住脑袋

服务区一新能源车电量耗尽 大人小孩弯着腰推车走

时代变了，NBA西部半决赛四强阵中几乎无年龄30+球星

绍伊古：俄方正在南千岛群岛建立观察哨所

为何后来没有人歌颂曼德拉？如今的南非30年前它是一个发达国家

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

独家调查：河南大学失火 涉事公司及校方称当晚礼堂没有施工人员

周鸿祎跟马化腾吐槽微信好友上限问题：很快解决

豁哦！统统炒掉，一天8人离队，13年换7人，湖人这是要变天啊

广东中山暴雨洪水齐腰深，大量汽车被淹没至车顶！

火药味！贝尔偷听辽宁队战术 与赵继伟爆发冲突

中国游客入境大马将免除住宿证明等

牛弹琴：中国人还在过节世界有2个好消息和2个坏消息

首个抢七！米切尔狂轰50分创纪录比肩詹皇包揽末节18分仍空砍

男子出借身份帮人买房获1万6好处费结果背上百万贷款

嫦娥六号成功发射开启世界首次月球背面采样返回之旅

小男孩在景区玩耍被路过的鹈鹕“偷袭”一口夹住脑袋

服务区一新能源车电量耗尽大人小孩弯着腰推车走

独家调查：河南大学失火涉事公司及校方称当晚礼堂没有施工人员

火药味！贝尔偷听辽宁队战术与赵继伟爆发冲突