2021年4月15日 20:00—22:00,与阿里巴巴达摩院-机器智能技术实验室玄亘、达摩院-城市大脑实验室沈星、达摩院-城市大脑实验室剑冲,一起解读CVPR 2021。

活动流程

01 / 分享主题:Self-supervised Video Representation Learning by Context and Motion Decoupling

分享嘉宾:达摩院-机器智能技术实验室 玄亘

时间:20:00-20:30

分享摘要:

视频行为理解中的一个核心难点是「场景偏差」问题。比如,一段在篮球场跳舞的视频,会被识别为打篮球,而非跳舞。我们提出一种自监督视频表征学习方案,通过直接在代理任务中显式解耦场景与运动信息,处理「场景偏差」难题。值得注意的是,本方案中,解耦的场景与运动信息均从「视频压缩编码」中提取得到。其中场景由关键帧 (keyframes) 表示,运动由运动向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于该解耦方案预训练的视频网络模型,迁移至行为理解和视频检索两项下游任务,性能均显著超过SOTA。

02 /分享主题:DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation

分享嘉宾:达摩院-城市大脑实验室 沈星

时间:20:30-21:00

分享摘要:

在Region-Based的实例分割方法中,通常采用低分辨率的Mask来表示物体,例如:Mask-RCNN采用28x28的二值化Mask。

低分辨率的Mask往往很难捕获物体的细节信息。然而,直接学习高分辨率的Mask,不仅会加大任务难度而且会导致预测速度变慢。我们提出了DCT-Mask的方法,在频域上对高分辨率的Mask进行压缩,并选择性地预测高信息量的分量。DCT-Mask不仅保持了物体的细节信息,而且允许网络预测一个低维的向量,降低了任务难度,从而提升指标。DCT-Mask在COCO/LVIS/CityScapes等数据集上都有指标提升,并可以应用到其他Region-Based方法中,例如Cascade-RCNN。此外,实验表明DCT-Mask对更精细的标注/更复杂的Backbone,有更高的指标提升。

03 / 分享主题:Instant-Teaching: An End-to-End Semi-Supervised Object Detection Framework

分享嘉宾:达摩院-城市大脑实验室 剑冲

时间:21:00-21:30

分享摘要:

基于监督学习的对象检测框架需要大量费力的手动注释,这在实际应用中可能不切实际。半监督对象检测(SSOD)可以有效利用未标记的数据来提高模型性能,这对于对象检测模型的应用具有重要意义。

在本文中,我们将重新审视SSOD并提出Instant-Teaching,这是一个完全端到端且有效的SSOD框架,该框架使用具有扩展功能的即时伪标记在每次训练迭代期间进行教学的弱强数据扩充。为了缓解确认偏差问题并提高伪注释的质量,我们进一步提出了一种基于即时教学的共同纠正方案,称为即时教学。在MS-COCO和PASCAL VOC数据集上的大量实验可以证实我们框架的优势。

04 / 问答环节

时间:21:30-22:00

嘉宾介绍

打开网易新闻 查看更多图片

▲玄亘

达摩院-机器智能技术实验室

▲沈星

达摩院-城市大脑实验室

打开网易新闻 查看更多图片

▲剑冲

达摩院-城市大脑实验室