生态监测有助于研究人员了解全球生态系统的动态,量化生物多样性,衡量气候变化和人类活动的影响,包括保护和补救工作的效果。为了有效地进行监测,生态学家需要高质量的数据,往往要花费大量的精力在野外放置监测传感器,如静态摄像机。虽然建设和运行这种传感器网络的成本效益越来越高,但对全球生物多样性数据的人工数据分析仍然是准确、全球、实时生态监测的瓶颈。虽然有一些方法可以通过机器学习来实现这种分析的自动化,但来自静态摄像头的数据,被广泛用于监测我们周围的世界,目的从山口路况到生态系统的表象,仍然对传统的计算机视觉系统提出了强烈的挑战--由于功率和存储的限制,采样频率很低,往往不快于每秒一帧,有时还因为使用了运动触发器而不规则。

为了在这种环境下有良好的表现,计算机视觉模型必须对感兴趣的物体具有鲁棒性,这些物体往往偏离中心、失焦、光线不足或处于各种尺度。此外,除非移动摄像机,否则静态摄像机将始终拍摄同一场景的图像,这导致任何一台摄像机的数据高度重复。如果没有足够的数据变异性,机器学习模型可能会学习关注背景中的相关性,导致对新型部署的通用性差。机器学习和生态社区一直在通过LILA BC和Wildlife Insights等场所合作,策划来自许多研究小组的专家标记的训练数据,每个研究小组可能在任何地方操作一个到数百个相机陷阱,以增加数据变异性。这种数据收集和注释的过程是缓慢的,并且由于需要在不同的地理区域和分类群中拥有多样化的代表性数据而变得混乱。

打开网易新闻 查看更多图片

这张图里有什么?静态相机拍摄的图像中的物体在检测和分类方面可能非常具有挑战性。在这里,一个雾气弥漫的早晨让人很难看清一群沿着山峰行走的野马。

Google提出了一种补充方法,通过改进算法上对新型摄像机部署的泛化,提高了全局可扩展性。这种新的对象检测架构利用了网络中每个摄像头部署的跨时间上下文线索,提高了新型摄像头部署中的对象识别能力,而无需依赖大量摄像头的额外训练数据。与人在面对具有挑战性的图像时可能使用的方法相呼应,Context R-CNN利用来自同一摄像头的长达一个月的图像进行上下文分析,以确定可能存在的物体并识别它们。使用这种方法,该模型在多个领域(包括野生动物的相机陷阱)都以显著的幅度优于单帧的Faster R-CNN基线。我们已经开源了这项工作的代码和模型,作为TF对象检测API的一部分,以便在新的静态相机数据集上轻松训练和测试Context R-CNN模型。

在这里,我们可以看到来自同一场景的额外例子如何帮助专家确定该物体是动物而不是背景。上下文,如对象的形状和大小,它对牛群的依附,以及在一天中某些时间的习惯性放牧,都有助于确定该物种是一只野马。整个月都会出现有用的例子。

语境R-CNN模型

Context R-CNN旨在利用静态摄像机拍摄的图像内的高度相关性,以提高对具有挑战性的数据的性能,并提高对新的摄像机部署的通用性,而无需额外的人为数据标记。它是对Faster R-CNN的改编,Faster R-CNN是一种流行的两阶段对象检测架构。为了提取摄像机的上下文,我们首先使用冷冻特征提取器从大时间范围内(长达一个月或更长时间)的图像中建立上下文记忆库。接下来,使用Context R-CNN检测每张图像中的对象,它从记忆库中聚合相关的上下文,以帮助在具有挑战性的条件下检测对象(例如我们之前的例子中的大雾遮挡了野马)。这种聚合是使用注意力来执行的,它对静态监控摄像机中经常看到的稀疏和不规则的采样率具有鲁棒性。

打开网易新闻 查看更多图片

高层架构图,展示了Context R-CNN如何在Faster R-CNN模型架构中融入长期背景。

Faster R-CNN的第一阶段提出潜在的对象,第二阶段将每个提议归类为背景或目标类之一。在Context R-CNN中,我们将Faster R-CNN第一阶段的提议对象,对于每一个对象,我们使用基于相似性的注意力来确定我们记忆库(M)中的每一个特征与当前对象的相关程度,通过对M进行相关性加权和,并将其添加回原始对象特征,来构建每个对象的上下文特征。然后,现在添加了上下文信息的每个对象,最后使用Faster R-CNN的第二阶段进行分类。

Context R-CNN能够利用上下文(时间跨度长达 1 个月)对我们上面看到的具有挑战性的野马例子进行正确分类。绿色的值是每个框定对象对应的注意力权重。

与Faster R-CNN基线(左)相比,Context R-CNN(右)能够捕捉到具有挑战性的对象,如一头被树遮挡的大象、两只光线不足的黑斑羚和一只离开画面的疣猴。

我们已经在Snapshot Serengeti (SS)和Caltech Camera Traps (CCT)上测试了Context R-CNN,这两个生态数据集的动物物种在相机陷阱中,但来自高度不同的地理区域(坦桑尼亚与美国西南部)。下表可以看出每个数据集比Faster R-CNN基线的改进。值得注意的是,我们看到SS的平均平均精度(mAP)相对增加了47.5%,CCT的平均平均精度相对增加了34.3%。我们还将Context R-CNN与S3D(基于3D卷积的基线)进行比较,看到性能从44.7%的mAP提高到55.9%的mAP(相对提高了25.1%)。最后,我们发现随着上下文时间范围的增加,性能也在增加,从一分钟的上下文到一个月。

与单帧Faster R-CNN基线的比较,显示了平均平均精度(mAP)和平均召回(AR)检测指标。

打开网易新闻 查看更多图片

Google正致力于在Wildlife Insights平台内实施Context R-CNN,以促进通过相机捕捉进行大规模的全球生态监测。还在CVPR细粒度视觉识别研讨会上主办了诸如一年一度的iWildCam物种识别竞赛等比赛,以帮助计算机视觉界关注这些挑战。在静态摄像机中自动识别物种所看到的挑战,是生态监测领域之外的众多静态摄像机应用以及其他用于监测生物多样性的静态传感器(如音频和声纳设备)所共有的。Google的方法是通用的,预计Context R-CNN采取的每传感器上下文方法将对任何静态传感器有益。