打开

【泡泡一分钟】基于视觉惯性里程计的无监督深度补全方法

subtitle
科技料 2021-02-26 10:01

摘要

本文介绍了一种可以由相机运动和稀疏深度推断出稠密深度的方法,使用视觉惯性里程计系统估算深度。与使用来自激光雷达或结构化光传感器的点云的其他方案不同,我们只有几百到几千个点,不足以获得场景拓扑。我们的方法首先构造场景的分段平面脚手架,然后使用它与图像以及稀疏点一起推断密集深度。我们使用类似于“自我监督”的预测性交叉模态准则,跨时间测量光度一致性,前后姿势一致性以及与稀疏点云的几何兼容性。我们还展示了第一个视觉惯性+深度数据集,我们希望它能够对相关研究有所帮助,结合视觉和惯性传感器的互补优势。为了将我们的方法与先前的工作进行比较,我们采用了无监督的KITTI深度补全基准,在该基准中,我们获得了最先进的性能。

打开网易新闻 查看更多图片

图1 在提出的VIO数据集上使用视觉惯性里程计(VIO)进行深度补全(最好以5X的彩色观看)。左下:来自VIO的稀疏重建(蓝色)和摄像机轨迹(黄色)。高亮显示的区域被压缩并在右上方放大。左上方显示的是同一区域的图像作为输入,并通过我们的方法与稀疏深度图像融合。右下角的同一视图仅显示稀疏点,不足以确定场景的几何形状和拓扑。

图2 系统图(最好以5X彩色观看)。我们首先根据VIO估计的稀疏深度来构建基架。然后将基架与图像一起作为输入送入调整网络以产生输出。注意:位姿网络(蓝色)仅在一种操作模式下需要,并且仅在训练中使用。在其他操作模式下,将使用VIO位姿。基架模块(红色)不需要参数,这使我们采用轻量级的两阶段方法。

图3 学习调整过程(最好以5X彩色观看)。我们的网络学习调整输入基架。绿色矩形区域标出了在训练过程中用于比较的区域。网络先学习拷贝输入,接着学习融合RGB图像的信息以调整来自基架的近似深度(请参阅第1行行人和第2行路牌)。

图4 对KITTI基准进行定性评估。从上到下:输入图像和稀疏深度,[1]的结果,我们的结果。结果取自KITTI在线测试服务器。误差图中的暖色表示较高的误差。绿色矩形突出显示区域以进行详细比较。我们总体上表现更好,特别是在薄的结构和较远的区域。[1]显示出了与扫描线相似的伪影,并且在较远的区域显示了“圆圈”(用红色突出显示)。

图5 在TUM-VI上的定性结果(最好以2X彩色观看)。我们将方法应用于TUM-VI,并使用密度级别为0.015%的稀疏深度输入获得了结果。与KITTI和VOID不同,TUM-VI图像是单色的,并带有高度失真的鱼眼镜头相机模型,该模型在训练中得到了补偿。彩条显示深度范围。

图6 我们的模型在KITTI上的误差特征。横坐标表示用Velodyne测量的稀疏数据点的距离,其中所有数据点的百分比以红色显示;蓝色曲线显示了给定距离处估计深度的平均绝对误差,其中第5个和第95个百分位数围住了浅蓝色区域。

图7 VOID基准上的定性评估。上:输入的RGB图像。下:稠密深度图像反向投影为3D,从另一个视角上色与观测。

图8 VOID数据集上的RGB+D图像示例(最好以5X色彩观看)。彩条显示了深度范围。

表1 误差指标

表2 KITTI深度补全基准

表3 KITTI深度补全消融实验

表4 VOID深度补全基准和消融实验

表5 在VOID不同的稀疏深度稠密度上的深度补全

Abstract

We describe a method to infer dense depth from camera motion and sparse depth as estimated using a visual-inertial odometry system. Unlike other scenarios using point clouds from lidar or structured light sensors, we have few hundreds to few thousand points, insufficient to inform the topology of the scene. Our method first constructs a piecewise planar scaffolding of the scene, and then uses it to infer dense depth using the image along with the sparse points. We use a predictive cross-modal criterion, akinto “self-supervision,” measuring photometric consistency across time, forward-backward pose consistency, and geometric compatibility with the sparse point cloud. We also present the first visual-inertial + depth dataset, which we hope will foster additional exploration into combining the complementary strengths of visual and inertial sensors. To compare our method to prior work, we adopt the unsupervised KITTI depth completion benchmark, where we achieve state-of-the-art performance.

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
帮TA点赞
大家都在看打开应用 查看全部
网易热搜每30分钟更新
打开应用 查看全部
打开