打开网易新闻 查看更多图片

作者 | 陈大鑫、琰琰、青暮

就在刚刚,CVPR 2021最佳论文、最佳学生论文等奖项出炉了!

其实在前不久,,按照往年惯例,最佳学生论文也在这些论文中诞生。

在候选名单中,有华人参与的论文有18篇,其中华人一作论文更是高达16篇,占据半数,陶大程、沈春华、何恺明等知名学者也上榜。此外,国内机构学者为一作的论文也有6篇之多。

就在去年,,论文名为《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》。

打开网易新闻 查看更多图片

你说要是今年华人一篇都没有,我只能大吃一惊,然后默默接受。

这不,今年公布的最佳学生论文提名、最佳学生论文、最佳论文提名、最佳论文中,就有4篇论文中包含华人学者。

等等,别激动。这四个奖项一共包含了7篇论文,其中最佳论文只有一篇。

不仅是论文作者,近年来在AI顶会的组委会中,华人身影也越来越多。就在今年的CVPR中,就有谭铁牛教授担任大会主席,上海科技大学教授虞晶怡、肯塔基大学计算机系终身教授杨睿刚担任程序主席。另外,在今年的KDD、ICCV、ACMMM等会议中,也有华人担任大会主席。

在最佳论文奖之后,大会接下来还公布了PAMITC奖。这里面包括三个重要奖项,即往年设立的Longuet-Higgins 奖、青年研究者奖,以及在CVPR 2020设立、今年开始颁发的Thomas S. Huang 纪念奖。

我们先来简单看看今年的大会日程统计数据:

打开网易新闻 查看更多图片

CVPR 今年共有7039篇有效投稿,最终有1366篇被接收为poster,295篇被接收为oral,录用率为23.6%。

CVPR近年在接收率上已是“二连降”:CVPR 2018 收录论文 979 篇、接收率为 29%左右;CVPR 2019 收录论文 1300 篇,接收率为25%左右;CVPR 2020 收录论文 1470篇、接收率为 22%左右。

今年的接受率只比去年高出了那么一点点,但也止住了“连降”趋势,值得小小庆幸一下。

接下来公布大奖!

最佳学生论文提名

1、《Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling》

论文作者:Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu

论文摘要:

根据视频和语言学习的规范方法,神经网络需要从视觉模型离线提取的密集视频特征(dense video features)和语言模型中的文本特征(text features)中进行学习。通常这些特征提取器是独立训练的,以适用于不同于目标域的任务,但这些固定特征对于下游任务来说是次优的。此外,由于密集视频特征的高计算负载,使得特征提取器很难或不能插入到现有方法中以便进行微调。

为了弥补这一缺陷,我们提出了一个通用的CLIPBERT框架,它通过使用稀疏采样,能够负担得起视频和语言任务的端到端学习,而且在每个训练步骤中只需要使用一个或几个稀疏采样的视频短片。我们在6个数据集上测试了文本-视频检索和视频问答任务,实验表明,CLIPBERT优于(或与)现有的利用全长视频( full-length videos)的方法,这表明使用少量稀疏采样片段的端到端学习会比使用从全长视频中密集提取的离线特征更加准确,这也就验证了众所周知的“少即是多”原则。实验数据集中的视频涵盖了不同的域和长度——从3秒GIF动图到180秒的YouTube视频,这显示了该方法的泛化能力。此外,我们还通过消融研究分析了这一结果的影响因素

论文地址:https://arxiv.org/abs/2102.06183

2、《Binary TTC: A Temporal Geofence for Autonomous Navigation》

论文作者:Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen

论文摘要:

Time-to-contact (TTC),即物体与观察者的水平碰撞时间,它是一个强大的路径规划工具:拥有比场景中物体的深度、速度和加速度更丰富的信息。TTC的最大优点是只需要一个单目的、未校准的摄像机。不过,回归每个像素的TTC并不容易,现有的大多数方法对场景的假设都过于简化。

本文通过一系列简单的二元分类(binary classifications)来估计TTC,从而解决了这个难题。我们以较低的延迟预测观察者是否会在一定时间内与障碍物相撞,这通常比精确每个像素的TTC更为关键。针对这种情况,我们的方法在6.4毫秒内提供了一个临时地理围栏(geofence)——它比现有方法快25倍多。

在计算预算允许的条件下,该方法也可以用任意精细量化(包括连续值)来估计单个像素的TTC。据我们所知,它是第一个在足够高的帧速率下为实际使用提供TTC信息(二进制或粗略量化)的方法。

论文地址:https://arxiv.org/abs/2101.04777

3、《Real-Time High-Resolution Background Matting》

论文作者:Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian L. Curless, Steven M. Seitz, Ira Kemelmacher-Shlizerman;

论文摘要:

本文介绍了一种实时、高分辨率的背景更换技术,该技术可以在GPU上以30fps速度运行4K分辨率和以60fps的速度运行高清分辨率。我们的技术基于背景消光(background matting),通过一个额外的背景帧来恢复alpha蒙版和前景层。该技术最大的挑战是计算一个高质量的alpha蒙版,即在实时处理高分辨率图像的同时保留头发的细节。

为了实现这一目标,我们采用了两种神经网络;一个是基础网络计算,二是低分辨率的结果,这个结果由第二个网络在高分辨率的选择性补丁上进行细化。我们介绍了两个大规模的视频和图像抠图数据集:VideoMatte240K和PhotoMatte13K/85。实验证明,该方法与其他现金的背景抠图模型相比,产生了更高质量结果相比,同时显著提高了运行速率和分辨率。

论文地址:https://arxiv.org/abs/2012.07810。

最佳学生论文

《 Task Programming: Learning Data Efficient Behavior Representations》

论文作者:Jennifer J. Sun, Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona

论文摘要:

为了更准确的标注数据集,具备该领域的专业知识是必要的,但这可能意味专家们将承担大量繁重和耗时的工作。这个问题在自动行为分析(automated behavior analysis)中尤为突显。例如,从视频跟踪数据中检测智能体运动或动作。

为了减少注释的工作量,我们基于多任务自监督学习,提出了一种用于行为分析的有效轨迹嵌入方法—TREBA。利用该方法专家们可以通过“任务编程”过程来有效地设计任务,即使用程序编码将领域专家的知识结构化。通过交换数据注释时间来构造少量编程任务,可以减少领域专家的工作量。我们使用行为神经科学领域的数据集评估了该方法,通过小鼠和果蝇两个领域内三个数据集的测试,实验结果表明:通过使用TREBA的嵌入,注释负担减少了10倍。该研究结果表明,任务规划和自监督是减少领域专家注释工作量的有效方法。

论文地址:https://arxiv.org/abs/2011.13917。

最佳论文提名

打开网易新闻 查看更多图片

1、《Exploring Simple Siamese Representation Learning》

论文作者:xinlei chen , 何恺明(FAIR)

论文摘要:

对最近的大量无监督视觉表征学习模型来说,孪生网络已成为一种常见的结构。这些模型最大限度地提高了一个图像的两个增强之间的相似性,但是这要满足一定的条件,以避免模型崩溃。

在本文中,我们得出了令人惊讶的实证结果,也即简单的孪生网络可以学习有意义的表示,即使不使用以下任何一种:

(i) 负样本堆,(ii)大batch,(iii)momentum 编码器。

本文的实验表明,对于损失和结构确实存在崩塌误解,但是 stop-gradient 操作在防止崩塌中起着至关重要的作用。本文对 stop-gradient 的含义提出了一个假设,并通过概念验证实验进一步验证了这一假设。本文提出的“SimSiam”方法在ImageNet和下游任务上取得了有竞争力的结果。本文希望这个简单的 baseline 将激励人们重新思考孪生体系架构在无监督表征学习中的作用。

论文地址:https://arxiv.org/abs/2011.10566

开源代码:https://github.com/facebookresearch/simsiam

2、《Learning High Fideity Depths of Dressed Humans by Wathing Socail Media Dance Videos》

论文作者:Yasamin Jafarian,Hyun Soo Park

学习穿戴人体几何的一个关键挑战在 ground truth 实数据(如三维扫描模型)的有限可用性,这导致三维人体重建在应用于真实图像时性的能下降本文们通过利用一个新的数据资源来应对这一挑战:大量社交媒跳舞蹈视——,涵盖了不同的外观、服装风格、表演和身份。每一个视频都描述了一个人的身体和衣服的动态运动,但缺乏3 ground truth实几何图形.

为了很好地利用这些视频,本文提出了一种新的方法来使用局部变换,即将预测的局部几何体从一幅图像在不同的时刻扭曲到另一幅图像。这使得自监督学习对预测实施时间一致性。此外,我们还通过最大化局部纹理、褶皱和阴影的几何一致性,共同学习深度以及对局部纹理、褶皱和阴影高度敏感的曲面法线。

另外本文的方法是端到端可训练的,能产生高保真深度估计来预测接近于输入的真实图像的精确几何。本文证明了我们提出的方法在真实图像和渲染图像上都优于 SOTA 人体深度估计和人体形状恢复方法。

论文地址:https://arxiv.org/pdf/2103.03319.pdf

最佳论文

《GIRAFFE:Representing Scenes as Compositional Generative Neural Feature Fields》

论文作者:Michael Niemeyer,Andreas Geiger

论文摘要:

深度生成模型允许在高分辨率下合成照片级真实感图像。但是对于许多应用来说,这还不够:内容创造还需要做到可控才行。虽然最近有几项研究探讨了如何解开数据中潜在的变化因素,但大多数研究都是在二维空间中进行的,而忽略了我们的世界是三维的。此外,只有少数研究工作考虑到了场景的组合性质。

本文的关键假设是——将合成的三维场景表示合并到生成模型中会导致更可控的图像合成。将场景表示为合成生成的神经特征场,使我们能够从背景中分离出一个或多个目标以及单个目标的形状和外观,同时在无需任何额外的监督下从非结构化和未使用的图像集合中进行学习。

将这种场景表示与神经渲染 pipeline 相结合,就可以得到一个快速而逼真的图像合成模型。本文的实验证明,我们所提出的模型能够分离单个目标物体,并允许在场景中平移和旋转它们以及改变相机姿势。

论文地址:

https://arxiv.org/pdf/2011.12100.pdf

PAMITC奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的计算机视觉基础贡献奖,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

第一篇论文获奖论文是“Real-Time Human Pose Recognition in Parts from Single Depth Images”,发表于CVPR 2011,目前引用数4108,来自微软。

这篇论文提出了一种新方法,可以在不使用时间信息的情况下,从单张深度图像中快速准确地预测身体关节的 3D 位置。

研究人员采用目标识别方法,设计一个中间的身体部位表示步骤,将困难的姿势估计问题映射到更简单的每像素分类问题。庞大且高度多样化的训练数据集允许分类器估计对姿势、体型、服装等保持不变的身体部位。最后,研究人员通过重新投影分类结果并找到局部模式来生成几个身体关节的置信度评分 3D 建议。该系统在消费级硬件上以每秒 200 帧的速度运行。

这项工作在当时的相关研究中实现了最先进的准确率,并展示了对精确整个骨架最近邻匹配的改进泛化。

论文链接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf

第二篇获奖论文是“Baby Talk: Understanding and Generating Simple Image Descriptions“,发表于CVPR 2011,目前引用数1159,来自石溪大学。

这篇论文假设视觉描述语言为计算机视觉研究人员提供了关于世界的信息,以及关于人们如何描述世界的信息。

基于大量语言数据,研究人员提出了一个从图像自动生成自然语言描述的系统,该系统利用从解析大量文本数据和计算机视觉识别算法中收集的统计数据。该系统在为图像生成相关句子方面非常有效,是早期图像到文本生成的重要工作。

论文链接:http://acberg.com/papers/baby_talk.pdf

青年研究者奖的目的在于表彰年轻的科学家,鼓励继续做出开创性的工作。另外,此奖项的评选标准是研究者必须获得博士学位的年限少于7年。

今年获奖的两位学者分别是来自FAIR和MIT的科学家。

Georgia Gkioxari是 FAIR 研究科学家。她在加州大学伯克利分校获得博士学位,导师是 Jitendra Malik 。她是PyTorch3D的开发者之一,主要研究领域是计算机视觉,并且是Mask R-CNN的作者之一(与何恺明合作),目前引用数为16000。

个人主页:https://gkioxari.github.io/

Phillip Isola是麻省理工学院 EECS 的助理教授,主要研究计算机视觉、机器学习和人工智能。

他曾在 OpenAI 做了一年的访问研究科学家,在此之前,他是加州大学伯克利分校 EECS 系的 Alyosha Efros 的博士后学者。他在 MIT 的大脑与认知科学专业完成了博士学位,导师是Ted Adelson 。他目前论文引用数为28056,其中引用最高的论文为“Image-to-image translation with conditional adversarial networks”(与朱俊彦合作),这篇论文研究了条件形式的图像到图像转换,可以说是CycleGAN的前阶段工作。

个人主页:http://web.mit.edu/phillipi/

去年,为了缅怀了一代 CV 宗师、84 岁华人计算机视觉泰斗 Thomas S. Huang(黄煦涛),CVPR大会成立了 Thomas S. Huang 纪念奖,该奖项的获奖者将由 PAMITC 奖励委员会选出,类似于罗森菲尔德奖获奖者并将得到相同的奖金。

黄煦涛先生在华人计算机界被誉为「计算机视觉之父」,他在图像处理、模式识别等计算机视觉领域作出了开创性贡献,为中国培养了许多杰出人才,是华人计算机视觉领域的一座灯塔。此外,他也是首位担任CVPR程序主席(1992)的华人。

今年也就是第一届Thomas S. Huang 纪念奖的获奖者,是MIT电子电气工程与计算机科学教授Antonio Torralba。

Antonio Torralba的研究领域包括场景理解和上下文驱动的目标识别、多感官知觉整合、数据集构建以及神经网络表征的可视化和解释。他目前的论文引用数为78736,h指数为111。

个人主页:https://groups.csail.mit.edu/vision/torralbalab/