Bair考虑一个问题:机器可以从几个标记像素中学习来预测新图像中的每个像素吗? 这项任务极具挑战性(见图 1),因为单个身体部位可能包含视觉上不同的区域(例如,头部由眼睛、鼻子和嘴巴组成);不同的身体部位可能看起来相似且无法区分(例如,上臂与下臂)。如果Bair不提供任何精确的位置而只提供图像中身体部位的出现,则可能会更加困难。这个问题被称为弱监督分割,其目标是仅使用部分/弱监督将每个像素分类为语义类别。有许多形式的弱注释虽然便宜但并不完美,例如图像级标签、边界框、点和涂鸦。

这些形式的弱监督伴随着不同的假设,最先进的方法以不同的方式处理它们。弱监督大致可以分为两类:粗监督和稀疏监督。粗标注,包括图像标签和边界框,缺乏精确的像素定位,依靠类激活图(CAM)来定位粗语义线索并生成伪像素标签。稀疏注释(例如点和涂鸦)仅标记一小部分像素,并且条件随机场 (CRF) 通常用于将标签传播到未标记的像素。然而,为每种形式的弱监督开发单独的方法是令人沮丧的。这个问题促使Bair开发一种单一的方法来处理普遍的弱监督分割问题。事实上,弱监督分割问题可以看作是半监督像素分类问题。关键是如何将注释从粗略和稀疏标记的像素传播和细化到未标记的像素?

度量学习和对比损失公式

为了解决半监督学习问题,Bair采用特征表示学习的观点。Bair的目标是学习最佳的逐像素特征映射,以对相同(不同)类别的(单独)像素进行分组。对于图像中的每个像素,Bair使用分割 CNN 生成相应的嵌入(或特征表示)。因此,Bair可以将语义标签从标记像素传播到这个潜在特征空间中的相邻未标记像素。

Bair采用度量学习框架和对比损失公式来学习最佳像素特征映射。更具体地说,Bair将图像分解成几个片段并计算每个片段的代表性特征(通过平均每个片段内的像素嵌入)。对于每个像素,Bair收集与正集相同类别的片段,反之亦然。如下图所示,然后Bair训练网络以增加(减少)像素与其正(负)段集之间的距离。

弱监督的分组关系

在这里,Bair看到度量学习框架中立即出现了一个问题。 Bair如何处理度量学习框架中未标记的像素和段?在监督设置下,未标记的像素和段在对比损失公式中被忽略。在点注释的情况下,由于大多数像素未标记,监督信号将太稀疏而无法学习良好的特征映射。

相反,Bair的关键见解是将它们整合到判别特征学习中以加强监督。Bair探索了从图像中的视觉线索和语义信息得出的四种分组关系。根据这些分组关系,Bair可以为图像中的每个像素定义对应的正负集。如下图所示,分组关系基于(a)低级图像相似度,(b)语义标注,(c)语义共现和(d)特征亲和度。