视频识别是计算机视觉中的一项核心任务,其应用范围从视频内容分析到动作识别。然而,用于视频识别的训练模型通常需要手动注释未修剪的视频,这可能非常耗时。为了减少收集带有注释的视频的工作量,从带有弱标签的视频中学习视觉知识,即在没有人工干预的情况下自动生成注释,引起了越来越多的研究兴趣,这要归功于大量易于访问的视频数据。例如,通常通过使用关键字查询视频识别模型旨在分类的类别来获取未修剪的视频。然后将一个关键字(Google称为弱标签)分配给获得的每个未修剪视频。

尽管带有弱标签的大规模视频更容易收集,但使用未经验证的弱标签进行训练是开发鲁棒模型的另一个挑战。最近的研究表明,除了标签噪声(例如,未修剪视频上的不正确动作标签)之外,由于缺乏准确的时间动作定位,还存在时间噪声 - 即,未修剪的视频可能包含其他非目标内容或可能只在一小部分视频中显示目标动作。

减少大规模弱监督预训练的噪声影响至关重要,但在实践中尤其具有挑战性。最近的工作表明,查询短视频(例如,长度约为 1 分钟)以获得更准确的目标动作时间定位或应用教师模型进行过滤可以产生更好的结果。然而,这种数据预处理方法会阻止模型充分利用可用的视频数据,尤其是内容更丰富的较长视频。

在“通过探索子概念从弱标签网络视频中学习”中,Google提出了一种解决这些问题的方法,即使用简单的学习框架对未修剪的视频进行有效的预训练。这种方法不是简单地过滤潜在的时间噪声,而是通过创建一组新的有意义的“中间地带”伪标签来扩展原始弱标签空间,将这些“嘈杂”数据转换为有用的监督,Google称之为子伪的新概念标签(SPL)。该模型在这个更“细粒度”的空间上进行了预训练,然后在目标数据集上进行了微调。Google的实验表明,学习到的表示比以前的方法要好得多。此外,SPL 已被证明可以有效地提高行为识别模型的质量谷歌云视频人工智能,它使内容制作者能够轻松地搜索其大量视频资产库,以快速获取感兴趣的内容。

打开网易新闻 查看更多图片

采样的训练剪辑可能代表与整个未修剪视频(烘烤饼干)的查询标签不同的视觉动作(搅拌鸡蛋)。SPL 通过外推两个相关的动作类创建一组新的“中间”伪类(即子概念),将潜在的标签噪声转换为有用的监督信号。为有效的模型预训练提供了丰富的监督。

子伪标签 (SPL)

SPL 是一种简单的技术,可推进培训框架,这对于自我训练和改进半监督学习是有效的。在主框架中,主模型在高质量的标记数据上进行训练,然后将伪标签分配给未标记的数据。子模型在高质量标记数据和具有主预测标签的未标记数据上进行训练。虽然以前的方法已经提出了许多提高伪标签质量的方法,但 SPL 采用了一种新颖的方法,将来自弱标签(即用于获取数据的查询文本)和主预测标签的知识结合起来,从而产生更好的伪标签- 整体标签。该方法专注于时间噪声具有挑战性的视频识别,但它可以轻松扩展到其他领域,如图像分类。

打开网易新闻 查看更多图片

通过 SPL 从弱标记视频中学习的整体预训练框架。给定教师预测的标签和用于查询相应未修剪视频的弱标签,使用 SPL 重新标记每个修剪的视频剪辑。

SPL 方法的动机是观察到在未修剪的视频中,“嘈杂”视频剪辑与目标动作(即弱标签类)具有语义关系,但也可能包括其他动作的基本视觉组件,例如主模型——预测类。Google的方法使用来自弱标签的外推 SPL 和蒸馏标签来捕获丰富的监督信号,鼓励在预训练期间学习更好表示,以用于下游微调任务。

确定每个视频剪辑的 SPL 类很简单。Google首先使用从目标数据集训练的主模型对每个视频片段进行推理,以获得主预测类。每个剪辑也由未修剪的源视频的类(即查询文本)标记。一个二维混淆矩阵用于总结教师模型推断和原始弱注释之间的对齐。基于这个混淆矩阵,Google在主模型预测和弱标签之间进行标签外推,以获得原始 SPL 标签空间。

左:混淆矩阵,它是原始 SPL 标签空间的基础。中间:生成的 SPL 标签空间(本例中为 16 个类)。右图: SPL-B,另一个 SPL 版本,它通过将每行的同意和不同意条目整理为独立的 SPL 类来减少标签空间,在这个例子中只产生 8 个类。

SPL的有效性 Google评估了 SPL 的有效性,与应用于在Kinetics-200 (K200)上微调的3D ResNet50

模型 的不同预训练方法进行比较

一种预训练方法只是使用ImageNet初始化模型. 其他预训练方法使用从 147k 视频的内部数据集中采样 670k 视频片段,这些视频片段按照类似于 Kinetics-200 描述的标准过程收集。弱标签训练和主预测训练分别使用视频上的弱标签或主预测标签。协议过滤仅使用弱标签和主预测标签匹配的训练数据。Google发现 SPL 优于这些方法中的每一种。尽管用于说明 SPL 方法的数据集是为这项工作构建的,但原则上Google描述的方法适用于任何具有弱标签的数据集。

此方法证明,从给定数量的未修剪视频中采样更多视频剪辑有助于提高模型性能。通过提供足够数量的视频剪辑,SPL 通过提供丰富的监督始终优于弱标签预训练。

随着从 147K 视频中采样的片段越来越多,标签噪声逐渐增加。SPL 在利用弱标记剪辑实现更好的预训练方面变得越来越有效。

Google通过在训练模型上应用Grad-CAM来 可视化从 SPL 学习到的视觉概念和注意力可视化。观察一些可以通过 SPL 学习的有意义的“中间地带”概念是很有趣的。

打开网易新闻 查看更多图片

SPL 可以学习一些有意义的“中间地带”概念,例如混合鸡蛋和面粉(左)和使用绳降设备(右)Google证明 SPL 可以为预训练提供丰富的监督。SPL 不会增加培训的复杂性,并且可以被视为一种现成的技术,可以与基于此培训框架集成。Google相信这是一个很有前途的方向,可以通过连接弱标签和从主模型中提取的知识来发现有意义的视觉概念。SPL 还展示了对图像识别领域的有希望的泛化,Google期待未来的扩展适用于标签中有噪声的任务。Google已成功将 SPL 应用于 Google Cloud Video AI,它提高了动作识别模型的准确性,帮助用户更好地理解、搜索和货币化他们的视频内容库。