新智元报道
编辑:LRST
【新智元导读】华中科技大学研发的UniSeg3D算法,能一次性完成三维场景中的六项分割任务,提升了场景理解的全面性和效率。通过任务间的信息共享,优化了性能,为虚拟现实和机器人导航等领域带来新的解决方案。
三维场景理解在虚拟现实和具身智能等技术中具有广泛应用,吸引了研究者们的极大关注。
3D点云分割任务是三维场景理解中的重要组成部分,涵盖了实例分割、语义分割和全景分割,以及交互式分割、参考分割和开放词汇分割等子任务。
尽管针对相关任务的研究已经取得引人注目的进展,但现有研究往往聚焦于单一任务领域,从而导致三维场景理解局限于单一任务视角,忽视了不同任务之间的内在关联性。
这种局限性为实现全面的三维场景理解带来了显著的挑战。
为了解决上述问题,华中科技大学的研究人员提出了一种统一的三维场景理解算法UniSeg3D,通过一次推理完成六项3D点云分割任务,并通过构建任务间的显式关联来促进信息共享,从而增强性能表现。
论文地址:https://arxiv.org/abs/2407.03263
项目地址:https://dk-liang.github.io/UniSeg3D/
代码地址:https://github.com/dk-liang/UniSeg3D
实验结果表明,UniSeg3D在多个3D点云分割数据集上均取得了SOTA结果。
图1:3D点云分割领域的单一任务方法与统一多任务方法
其主要包含如下的优势:
1. 多任务统一:当前的3D点云分割方法通常为单一任务设计,不同于现有的研究工作,UniSeg3D通过一次推理能够支持六种3D点云分割任务;
2. 性能优异:通过建立任务间的显式关联,UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能;
3. 可扩展性:采用query统一表征多种点云分割任务的信息与特征,结构简洁有效。且通过输入新增任务的query表征,可将UniSeg3D拓展至更多任务,展现了框架的可扩展性和灵活性。
动机
三维场景理解已成为机器人技术、自主导航和混合现实等各类现实应用的基础。近年来,构建高效、精确的三维场景理解算法成为热门研究课题,但现有方法通常专注于单一子任务,并为特定任务场景进行定制化模型设计。
然而,由于单一任务算法只能实现单一任务预测,在应用于多任务场景时,需要运行多种单一任务方法以实现多任务预测,带来了较高的算力需求。且单一任务方法缺乏其他子任务算法的场景理解知识,阻碍了全面的三维场景理解。为了解决这一问题,一些研究者探索构建统一三维场景理解算法,并取得了一定的成果。
但当前方法不具备对用户提示信息的理解能力,不支持交互式分割、参考分割、开放词汇分割任务,限制其人机交互潜力;且用户提示信息包含三维场景先验信息,可有效提高三维场景理解算法的可靠性,缺乏对用户提示信息的理解能力将限制算法的有效性。
针对上述问题,文章提出了一种统一三维场景理解算法UniSeg3D,用于提高多任务应用场景中的场景理解效率。
方法
UniSeg3D主要由三个模块组成:点云Backbone、Prompt编码器和掩膜解码器。其中,点云Backbone提取输入三维场景的点云特征;
Prompt编码器包含文本提示编码器与视觉提示编码器,文本提示编码器提取文本特征,而视觉交互分割中的Prompt特征通过采样点云特征获取,将提取后的特征信息送入掩膜解码器中获取不同任务的分割结果。
模型整体结构如下图所示:
图2:UniSeg3D整体框架图
算法采用Query统一表征三维场景信息、视觉提示信息和文本提示信息。
编码自不同信息的Query携带差异性的场景知识,将其不加区分地送入掩膜解码器会削弱掩膜解码器对差异性场景信息的感知能力,因此UniSeg3D根据信息来源不同为Query叠加不同的Embedding,从而促进掩膜解码器对三维场景信息、视觉提示信息和文本提示信息的信息提取性能。
掩膜生成过程对六个任务采用统一的掩膜解码器以及输出Head,未对特定任务进行定制化的模块设计,整体流程简洁有效。
在之前的研究工作中,忽略了各个任务间的关联,导致每个任务只关注其任务特定的知识,缺乏对其他任务信息的感知能力,限制了全面而深入的三维场景理解。
为克服以上缺陷,本研究采用对比学习和知识蒸馏建立了不同任务间的显式联系,促进深层次的三维场景理解。
图3:任务间知识蒸馏方向以及显式关联关系
对比学习:对于参考分割任务,当多个形状相同的物体相邻排列时,容易出现歧义问题,如上图(a)所示。因此引入基于ranking的对比学习方式,即利用交互式分割的特征与参考分割任务的特征进行对比学习从而建立显式关联,如上图(b)所示。
知识蒸馏:鉴于视觉交互式分割所展现出的优异性能,如上图(c)所示,利用交互式分割任务的预测mask和分类logits分别对全景分割任务的预测mask和参考分割任务输出的类别logits进行监督约束,从而实现性能优化。
实验结果
表1:多任务统一的挑战性
研究人员首先讨论在单一模型中统一多任务所面临的挑战。全景分割、语义分割、实例分割、开放词汇分割、参考分割、交互式分割分别由Pan.、Sem.、Inst.、OV、Ref.、Inter.表示。
如表1所示,依次将交互式分割、参考分割和开放词汇分割简单地加入到框架中构建统一模型基线时,会观察到算法在全景分割、实例分割任务上呈现性能下降。这表明平衡多任务性能具有显著挑战性。
尽管如此,研究人员认为在单一模型中实现多任务具有重要研究价值,因为这能够减少计算资源消耗,有利于现实应用。
因此,UniSeg3D提出通过建立任务间显示关联来实现多任务联合优化,缓解多任务统一带来的性能下降,后续实验表明这是一个有价值的探索方向。
研究人员在ScanNet20、ScanRefer和ScanNet200数据集上进行评估测试,在全景分割、语义分割、实例分割、开放词汇分割、交互式分割和参考分割任务中,UniSeg3D均取得SOTA表现,这表明UniSeg3D在统一3D点云分割任务上的有效性:
下图展示了UniSeg3D在六种3D点云分割任务上的可视化结果。
总结
UniSeg3D作为首个在三维场景理解中集成六大分割任务的模型,为三维场景理解提供了一个灵活而高效的解决方案。以前的特定任务的方法难以提取跨任务信息,阻碍了全面的三维场景理解。
相比之下,UniSeg3D充分利用了支持多任务的结构特点,通过建立任务间的关联来提高模型性能,从而在各种基准任务中取得优异表现。UniSeg3D为高效、精确的三维场景理解提供新的解决方案和可能思路。
参考资料:
https://dk-liang.github.io/UniSeg3D/