动作识别已成为计算机识别领域主要关注的子领域,因为许多应用程序都可以从改进的模型中受益,例如视频检索、视频字幕、视频问答等。

基于Transformer的方法在此领域有了更先进的技术成果。与ConvNets相比,Transformer 模型需要数据来学习。大型 Transformer 模型通常在图像数据集上进行训练,然后在目标动作识别数据集上进行微调。

打开网易新闻 查看更多图片

transform模型

虽然当前的预训练和微调动作识别很简单,并且表现出很强的实证结果,但它对于构建通用动作识别模型可能还远远不够。与ImageNet等涵盖大量对象识别类别的数据集相比, Kinetics和Something-Something-v2 (SSv2) 等动作识别数据集只涉及有限的主题。

数据集之间对象和视频背景的差异进一步加剧了学习通用动作识别分类模型的难度。尽管视频数据集的大小可能会增加,但先前的工作表明,为了实现强大的性能,必须进行大量的数据扩充和正则化。后一种发现可能表明模型在目标数据集上很快过拟合,因此阻碍了其泛化到其他动作识别任务的能力。

在“ Co-training Transformer with Videos and Images Improvements Action Recognition ”中,Google提出了一种训练策略,命名为CoVeR,它利用图像和视频数据共同学习单个通用动作识别模型。

首先,不同的视频数据集涵盖了多种活动,并且在单个模型中将它们一起训练可以让模型在广泛的活动中表现出色。

其次,视频是学习运动信息的完美来源。利用图像示例的多样化分布可能有利于在视频模型中构建稳健的空间表示。具体来说,CoVeR 首先在图像数据集上对模型进行预训练并微调

架构和训练策略

Google将 CoVeR 方法应用于最近提出的时空视频转换器,称为TimeSFormer,它包含 24 层转换器块。每个块包含一个时间注意力、一个空间注意力和一个多层感知器(MLP) 层。为了从多个视频和图像数据集中学习,Google采用了多任务学习方式,并为动作识别模型配备了多个分类头。在大规模JFT上预训练所有非时间参数数据集。在微调期间,从多个视频和图像数据集中抽取一批视频和图像。采样率与数据集的大小成正比。批次中的每个样本都有 TimeSFormer 处理,然后分发到相应的分类器以获取预测。

与标准训练策略相比,CoVeR 有两个优势

首先,由于模型是直接在多个数据集上训练的,因此学习到的视频表示更通用,可以直接在这些数据集上进行评估,而无需额外的微调。

其次,基于 Transformer 的模型可能很容易过度拟合到较小的视频分布,从而降低了学习表示的泛化能力。在多个数据集上进行训练,并通过降低过度拟合的风险来缓解这一挑战。

CoVeR 采用在多个数据集上训练的多任务学习策略,每个数据集都有自己的分类器

----2----

预测结果

Google利用 CoVeR 方法在Kinetics-400 (K400)、Kinetics-600 (K600)、Kinetics-700 (K700)、SomethingSomething-V2 (SSv2) 和Moments-in-Time (MiT) 数据集上进行训练。与其他方法相比 — TimeSFormer、Video SwinTransformer、TokenLearner、ViViT、MoViNet、VATT、VidTr和OmniSource— CoVeR 在多个数据集上都有了显著的提升。与以前为单个数据集训练专用模型的方法不同,由 CoVeR 训练的模型可以直接应用于多个数据集,无需进一步微调。

打开网易新闻 查看更多图片

模型对比

----3----

迁移学习

Google使用迁移学习来进一步验证视频动作识别性能,并与多个数据集上的协同训练进行比较,结果总结如下。

具体来说,在源数据集上进行训练,然后在目标数据集上进行微调和评估。

首先将 K400 视为目标数据集。在 SSv2 和 MiT 上共同训练的 CoVeR 将 K400→K400(模型在 K400 上训练然后在 K400 上微调)上的 top-1 准确率提高了 1.3%,SSv2→K400 提高了 1.7%,MiT→K400 提高了0.4%。同样,通过转移到 SSv2,CoVeR 分别比 SSv2→SSv2、K400→SSv2 和 MiT→SSv2 提高了 2%、1.8% 和 1.1%。K400 和 SSv2 上 1.2% 和 2% 的性能提升,在多个数据集上共同训练的 CoVeR 可以比标准训练范式学习更好的视觉表示,这对下游任务很有用。

CoVeR 学习的表示与标准训练方式的比较A→B 表示模型在数据集 A 上进行训练,然后在数据集 B 上进行微调

结论

在这项工作中,Google提出了 CoVeR,它是一种训练模型,它在单个模型中联合学习动作识别和对象识别任务,以构建通用动作识别框架。此分析表明,将许多视频数据集集成到一个多任务学习范式中可能是有益的。Google的实证研究结果表明,CoVeR 可以学习一个通用的视频理解模型,该模型在许多动作识别数据集中实现了令人印象深刻的性能,而无需对每个下游应用程序进行额外的微调。