随着自动化的发展,民用无人机(UAV)在多个领域得到了广泛应用。然而,无人机的低成本、便携性等特点也带来了对公共安全和社会治安的严重挑战。目前基于视觉的无人机跟踪方法在面对飞行速度快、背景杂波干扰大、遮挡效应显著、天气复杂等多重不利因素时,难以实现有效跟踪。其主要存在两个关键问题:1)对无人机特征的表征能力不足,难以应对复杂多变的外部环境。2)跟踪算法缺乏全局视野,容易陷入局部最优解而导致错误累积。因此,本文从特征融合和决策融合两个角度出发,提出了决策层与特征层相融合的长时跟踪方法(SiamFusion)来解决无人机跟踪难题。

打开网易新闻 查看更多图片

论文题目: Modality Meets Long-Term Tracker: A Siamese Dual Fusion Framework for Tracking UAV 论文链接: https://ieeexplore.ieee.org/abstract/document/10222679
一、 引言

追踪无人机以获取其位置和轨迹是反无人机任务中的重要环节。然而,当面临复杂环境、视野丢失以及遮挡等情况时,大多数现有的无人机追踪方法都会面临失效,这是因为它们无法充分表示全局上下文信息。目前目标追踪方法大致可分为两类:一类关注目标的内部特性,另一类关注外部环境。前者常注重目标本身的空间全局性,提出多模态追踪范式,对目标特征建模能力优秀,但缺乏跟踪过程中的时空全局性,导致在目标位置随机性高,如快速移动、遮挡、视野外等情况下表现不佳。为缓解这些问题,我们提出了一种将决策融合和特征融合相结合的跟踪器SiamFusion,该追踪器采用了特征融合和决策融合两方面的优势,综合利用内部特征和外部特征,应用多模态信息,提高对目标的感知能力。

二、 具体方法 2.1 总体框架

SiamFusion方法包含局部跟踪器与全局关联模块两个部分。局部跟踪器将接受可见光和红外两个模态的图像作为网络的输入。然后将执行多模态特征融合,并将融合后的特征与模板特征相关联,以获取局部跟踪结果。随后,全局关联模块根据历史信息对现有的多模态跟踪结果进行优化。最后,局部-全局转换器将根据两种模态的跟踪结果决定是否重新检测。

2.2 特征融合

在众多的多模融合策略中,基于特征的维度的融合往往最具有效果,在此作者借助注意力机制原理提出了一种基于多阶段注意力机制的RGBT无人机目标跟踪方法,使其渐进式地自适应为每个模态赋予不同的权重以实现基于特征软选择的自适应融合。

针对主干特征提取网络得到的特征图,本算法提出的多模态融合模块将分为双分支与三阶段来进行特征融合,通过Transform交叉查询的方式提高模型对多模态之间的信息的利用,引导一个模态向另一个模态查询隐含特征。

在特征融合的第一个阶段,使用自注意力机制以增强每个模态自身的上下文特征,使用自注意力机制以增强模型对目标区域的感知能力。

打开网易新闻 查看更多图片

多模态融合模块

在特征融合的第二个阶段,使用互注意力机制将两个模态的特征进行融合交互,使两个模态的特征分别作为查询向量交叉使用注意力机制,公式如下:

上式中, 表示上一个阶段红外分支的输出, 表示上一阶段可见光模态的输出, 与 分别表示本阶段两个分支的输出, 表示经过融合之后的此阶段的输出;

在特征融合的第三个阶段,再次使用与第一阶段相同的操作,使用自注意力机制以增强融合后的特征,使用自注意力机制以增强模型对目标区域的感知能力。

2.3 全局关联模块

在常见的无人机跟踪场景中,红外图像和可见光图像可能不完全对齐,但目标在两种模态下的相对位置确实是稳定的。受此启发,两种模态的局部跟踪结果可以作为确定跟踪失败的重要标准。针对每种模态的跟踪结果,我们提出了一种多模态局部-全局转换器,以决定是否需要进行重新检测。

首先,局部-全局转换器会根据跟踪分类的置信度来决定是否执行转换操作。当分类置信度低于预设的阈值时,转换器会判断跟踪结果存在偏差。接着,本文将计算两种模态下每个目标跟踪结果的相对距离。

如果两种模态的结果存在显著差异(例如,在红外模式下,目标位于图像的左上角,而在可见光模式下,目标位于右下角),我们直觉地认为某种模态的目标丢失了。最后,为了将当前跟踪结果与历史跟踪结果整合,我们的网络中将引入一个作为插件的鉴别器。例如,LSTM网络或简单的MLP等,鉴于无人机的形态特征变换并不显著,本章仅使用MLP来保存历史的跟踪结果。

当全局关联模块判断当前跟踪结果不可信时,将激活全局重新检测器。它利用通用目标检测网络来检测当前帧的无人机对象。检测结果然后用于更新目标位置,从而消除跟踪过程中的误差累积。在我们提出的网络中,我们采用 Faster-RCNN作为SiamFusion的全局重新检测器。

三、 实验结果 3.1 实验对比

为了验证本章所述算法的有效性,我们将提出的算法与13种能够及时响应无人机威胁的主流目标跟踪算法进行性能对比。下表给出了决策层与特征层相融合的长时跟踪算法在Anti-UAV数据集上的跟踪准确率对比。我们的方法在红外序列上实现了最佳的状态准确度得分为66.8%,在可见光序列上为60.65%。

下图展示了在AntiUAV数据集上进行OPE评价指标的成功率图和精确度图。我们的方法在红外验证集上表现最佳,成功率为73.4%。在夜间追踪中,我们的方法也取得了具有竞争力的结果。在追踪过程中遇到复杂背景时,我们的方法同样表现最佳,成功率为73.9%。此外,通过比较多模态融合前后的性能,我们发现融合机制确实有助于减少追踪过程中的误差,从而提高成功率。

打开网易新闻 查看更多图片

为了更直观的展示我们的跟踪器在应对不同挑战方面的优势,我们根据Anti-UAV数据集中的几类无人机挑战,分析了我们跟踪器的优势。我们将这些挑战分为五类,即快速移动(FM)、视野外(OV)、微小目标(TT)、夜间跟踪(NT)、复杂背景(CB)、遮挡(OC)。下图分别展示了在上述六种困难环境下的可视化结果。

3.2 基于挑战属性的对比实验

下图展示了我们在Anti-UAV数据集上进行的OPE实验结果。在夜间跟踪中,我们的方法取得了可比较的结果。当在跟踪过程中遇到复杂的背景时,我们的方法取得了最佳表现,成功率为65.9%。此外,通过比较多模态融合之后的性能与融合之前的性能,我们发现融合机制确实有助于减少跟踪过程中的误差,从而提高了成功率(图中的withoutfusion即为未通过融合的方法)。

3.3 消融实验

局部-全局转换器存在三个条件可以从局部跟踪转换为全局。为验证局部-全局转换器的必要性,本文分别列出了每个条件进行评估。如下表中的第三列与第四列所示,使用局部-全局转换器能够为原始网络带来6%的改善。这充分表明两种模态之间的决策融合起着关键作用,有效地避免了单模态跟踪失败的现象。下表中的第一列与第二列展示了仅依赖置信度判别时的结果,可以发现RGBT决策融合后的结果高于仅依赖单模态的跟踪结果。这表明两个模态的相对位置判别的有效性,优势模态对劣势模态起到了辅助作用。

四、总结

在这一工作中,我们利用多模态信息来解决反无人机跟踪问题,提出了一种基于多模态融合的长期跟踪方法SiamFusion。通过特征融合和决策融合,SiamFusion不仅有效地避免了跟踪过程中的误差累积,增强了对无人机的感知能力。最后,我们希望我们的工作能够对RGBT多模融合工作提供启发并在未来的研究中进一步探索多模态信息融合在其他领域的应用。

Illustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看更多图片

点击右上角,把文章分享到朋友圈