打开网易新闻 查看更多图片

目 录

1

Quality Evaluation for Image Retargeting With Instance Semantics

2

PFAN++: Bi-Directional Image-Text Retrieval With Position Focused Attention Network

3

Temporal Constraint Background-Aware Correlation Filter With Saliency

4

Exploring the Representativity of Art Paintings

5

Bayesian Low Rank Tensor Ring for Image Recovery

6

Speech Personality Recognition Based on Annotation Classification Using Log-Likelihood Distance and Extraction of Essential Audio Features

7

GMNet: Graded-Feature Multilabel-Learning Network for RGB-Thermal Urban Scene Semantic Segmentation

8

Universal Cross-Domain 3D Model Retrieval

01

Quality Evaluation for Image Retargeting With Instance Semantics

作者:李雷达1,李祎璇2,吴金建1,马林3,方玉明4

单位:1西安电子科技大学,2香港城市大学,3美团,4江西财经大学

邮箱:

ldli@xidian.edu.cn;

ts18060134p31@cumt.edu.cn; jinjian.wu@mail.xidian.edu.cn; forest.linma@gmail.com;

fa0001ng@e.ntu.edu.sg

论文:

https://ieeexplore.ieee.org/document/9167470

图像重定向作为一种内容自适应的后处理技术,可以根据图像内容的重要程度选择性去除图像内容,从而满足不同尺寸屏幕的显示需求。然而该过程中不可避免地会产生失真,影响重定向图像的感知质量。不同于噪声、模糊、块效应等传统失真,重定向图像失真往往表现为图像内容扭曲和信息丢失,容易破坏图像的高层次语义,而语义在人对图像内容的理解和质量感知过程中至关重要。此外,与原始图像相比,重定向图像的尺寸发生了改变,这挑战了全参考图像质量评价方法的通用流程。目前针对重定向图像质量评价的研究较为有限,现有评价模型的表现也不理想。

图1 基于实例语义的重定向图像质量评价模型

针对以上问题,本文提出了一种基于图像实例语义的重定向图像质量评价方法INSEM,旨在通过衡量图像高层次语义损伤来衡量失真,从而预测重定向图像质量。如图1所示,模型由三部分组成:实例降质特征提取模块,语义自适应池化模块以及质量预测模块。在实例降质提取模块中,首先利用稠密匹配建立从重定向图像到原始图像的像素配准关系,再采用实例分割方法获取原始图像中的实例,并根据像素匹配关系重建重定向图像中的相应实例。随后对重定向图像和原始图像中的每对实例提取实例级语义失真,包括形状扭曲、尺寸相似度、信息损失和位移。随后语义自适应池化模块根据实例语义标签将所有实例的失真特征进行融合,获得重定向图像的实例失真特征。最终,质量预测模块将四个实例失真特征和作为补充的全局特征进行融合以得到重定向图像的质量预测。

打开网易新闻 查看更多图片

图 2 语义自适应模块

其中,语义自适应池化模块(图2)同时考虑了实例的显著性偏向和生物特性,根据图像的内容适应性地融合实例失真特征,更符合人眼感知特性。具体地说,实例具有不同的显著性,人眼倾向于更加关注显著区实例生物实例的失真比非生物实例失真更为敏感.因此图像中的多个实例对总体质量感知的贡献度是不均等的,语义自适应池化模块在特征融合过程中突出了这一特性,从而更符合人眼的质量感知特性。

表1 CUHK数据库上的预测性能对比

表2 MIT TetargetME数据库上的预测性能对比

表3 NRID数据库上的性能预测对比

打开网易新闻 查看更多图片

表1至表3展示了本方法在三个重定向图像质量评价基准数据库中的性能优势,可以看出INSEM对重定向图像的质量预测准确性均达到了SOTA水平。值得说明的是,本方法采用的训练策略为跨库测试方法,即当测试集为MIT RetargetMe或NRID时,训练集为CUHK数据库,训练数据与测试数据具有不一致的分布特性。在这种条件下本模型仍表现良好,证明了其具有良好的鲁棒性和泛化性能。

02

PFAN++: Bi-Directional Image-Text Retrieval With Position Focused Attention Network

作者:王亚雄1‡,杨皓2‡,白秀秀1*,钱学明1*,马林3,卢菁2,李彪2,范欣2

单位:1西安交通大学,2腾讯PCG(北京), 3美团点评

邮箱:

wangyx15@stu.xjtu.edu.cn

论文:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9200698

代码:

https://github.com/HaoYang0123/Position-Focused-Attention-Network

‡同等贡献,*通讯作者

现有的图文匹配方法大多只关注于图片中物体的视觉特征,而忽视了物体的相对位置的重要性。我们观察发现,图片中物体的相对位置可以指示物体对于图片语义表达的重要程度,如图1-(a)所示,对于图片语义最重要的物体位于图片的中心,基于这个观察,我们为物体设计了位置特征。另一方面 ,对于图片语义最重要的部分并不总是处于物体的中心,例如图1-(b)所示, 基于这个观察,我们提出了位置注意力机制。

图 1 物体所处的位置可以指示物体对于图片语义表达的重要程度

本文所提出的方法的整体流程如图2所示,网络架构包含两个分支,分别编码文本和图像。在图片分支,我们首先利用目标检测网络识别图片中的物体区域,并提取其视觉特征。为了表征物体的相对位置,我们首先对图片进行分块,每个块视作描述物体的基本位置单词,并利用嵌入技术得到其稠密表示,如图2所示的,接着应用我们的位置注意力机制,通过物体位置特征与视觉特征的交互,自适应地为物体区域生成更加鲁棒的位置特征。之后拼接物体特征和视觉特征得到物体的完备表示,并通过一层全连接得到物体的特征表示。句子分支利用GRU得到单词的嵌入特征。最后,我们利用一种图文注意力机制计算图片-文本相似度,除了局部特征,我们也引入了全局特征计算全局相似度。整合局部与全局相似度作为最终的相似度分数,并利用三元组损失训练整个网络。如表1-2所示,在两个公开数据集Flickr30K和MS-COCO上,本文提出的模型PFAN++均取得了杰出的效果。

图 2 方法流程图

表 1 Flickr 30K上的性能对比

表 2 MS-COCO上的性能对比

打开网易新闻 查看更多图片

03

Temporal Constraint Background-Aware Correlation Filter With Saliency

作者:廖加文1,2,3*,齐春2,曹剑中1

单位:1中国科学院西安光学精密机械研究所,2西安交通大学,3中国科学院大学

邮箱:

liaojiawen@126.com;

qichun@mail.xjtu.edu.cn;

cjz@opt.ac.cn;

论文:

https://ieeexplore.ieee.org/document/9195794

代码:

https://pan.baidu.com/s/1xI7peSOf2MW6nj9p0T0VTg (key:2020)

*通讯作者

当前的相关滤波类算法受到两个因素的制约:1)表示目标的矩形块中包含部分背景信息,这部分背景信息也被当作目标的一部分,在训练滤波器模型的时候,它们与真正的目标以相同的权重参与训练,导致模型受到污染,当目标发生剧烈形变时容易发生跟踪漂移;2)滤波器模型的更新通常采用一个经验值在每帧对模型进行线性插值操作,插值操作能够持续引入当前帧新信息,采用一个经验值在每帧对模型进行线性插值操作在一定程度上平衡了两者的关系,但是,该操作在每一帧均引入固定量的当前帧信息,没有考虑到历史信息与当前信息的连续性,当目标外观变化剧烈时,例如发生遮挡、目标形变甚至是目标出视场,这种每帧固定引入定量新信息的方式将会导致模型污染,从而导致跟踪漂移甚至跟踪失败。

为了解决以上问题,本文提出结合显著图的时域约束背景留意相关滤波算法,从特征表示和滤波器模型两方面增强跟踪器的鲁棒性。显著图通过叠加在原始特征之上的方式,显著强化跟踪目标,压缩背景信息,见图1,从而能够增强跟踪器对干扰物的鲁棒性,该特性对于扩大搜索区域的跟踪算法尤其重要,例如SRDCF算法,BACF算法,因为扩大搜索区域会提高干扰物出现在搜索区域的概率,从而提高算法错误跟踪到干扰物上的风险,见图2。新的滤波器模型在近年来提出的BACF算法基础上,引入模型变化时域约束,使得新模型能够利用投影矩阵,将小尺寸滤波器映射到大的搜索区域,在大的搜索区域上截取真正的负样本,以训练优化的滤波器模型,而且避免了线性插值模型更新策略的弊端。新模型对应的损失函数中所有项均为二范数,属于凸函数,故该函数能够保证收敛到全局最优解。利用交替方向乘子法(ADMM)推导出该优化问题的有效解析解,并且推广到多层特征;考虑到跟踪应用的实时性问题,模型求解过程通过Sherman-Morrison公式加速,在单个CPU上实现接近实时的运行速率,达到22.6帧每秒。

图 1 OTB2015数据集中四个挑战序列的显著图处理效果展示

图 2 本文算法与基线算法BACF在面对遮挡时模型状态展示。第一列图像展示了目标在不同的遮挡场景,第二列为本章算法的滤波器模型状态,第三列图像为基线算法的滤波器模型状态,模型为频域各层叠加后的实数值部分

本文提出的深度跟踪算法DeepTBSCF和仅仅使用HOG特征的TBSCF在OTB-2015、VOT-2016、VOT-2018、UAVA123、TempleColor-128五个数据集上进行了验证,在OTB-2015、UAV123和TempleColor-128三个公开数据集上相比BACF算法精度平均提升了7.24%,重叠率平均提升了9.48%。相关结果可参考原论文。由于篇幅有限,我们仅在图3展示算法应对一些挑战性场景的定性验证效果。

图 3 不同算法在不同挑战场景中的性能对比

04

Exploring the Representativity of Art Paintings

作者:邓盈盈1,2,唐帆1,2,董未名1,2,马重阳3,黄飞跃4,Oliver Deussen5,徐常胜1,2

单位:1中国科学院大学,2中科院自动化所模式识别实验室,3快手科技,4腾讯优图,5康斯坦茨大学

邮箱:

dengyingying2017@ia.ac.cn

tangfan2013@ia.ac.cn

weiming.dong@ia.ac.cn

chongyangma@kuaishou.com

garyhuang@tencent.com

oliver.deussen@uni-konstanz.de

changsheng.xu@ia.ac.cn

论文:

https://ieeexplore.ieee.org/document/9167477

代码:

https://github.com/diyiiyiii/Exploring-the-Representativity-of-Art-Paintings

论文介绍网页:

https://mp.weixin.qq.com/s/a0lthDWH61Abc-LqywmxNA

随着数字技术的发展,越来越多的数字化艺术图像让公众可以更方便欣赏艺术作品。使用谷歌Chrome,人们可以得到关于一个特定的艺术家很多图片。不幸的是,浏览器推荐的画作大量地重复,并夹杂着虚假的例子。为了解决网上数字画作的杂乱和混淆问题,在本研究中,我们重点做一些艺术作品评价任务。我们的目标是发现一个易于理解的评价指标来帮助公众在没有专业知识的情况下欣赏绘画,提出了“代表性”的概念,并用它来评价一副画作能够代表艺术家全部作品的程度。为了解决这个问题,我们将任务分成两个阶段来完成。首先获取图片的特征表示,其次,在特征空间计算代表性。图1展示我们方法大纲。

图 1 方法框架

步骤1:很多研究工作通常使用在ImageNet预训练过的卷积神经网络提取图像特征,如VGG,ResNet。但是,预先训练好的网络,需要充足用于物体分类任务的有标记图片,并且更关注内容信息,将其直接用于艺术图片分类就会引入额外的偏差。此外,真实照片的属性包括内容,颜色,亮度,艺术绘画更注重艺术家独特的创作技巧,比如质地,笔触,画布。因此,我们提出了如图2所示的网络框架,整合了预训练的CNN和风格信息的优点,提取艺术图片的特征。

图 2 特征提取网络框架

步骤2:通过步骤1提出的特征提取网络,每一张画作都在学得的特征空间上表示为一个点。另外,在计算画作的代表性之前,我们选择WikiArt上面的著名作品(官方定义为对画家的创作生涯和艺术历史有重大意义的作品),作为先验知识。然后,画作的代表性可以通过衡量其与著名画作的距离以及角度的相似度来确定。如果一幅作品和相同画家的著名画作(代表性为1)接近,说明这幅作品也能很好代表画家的生平。如果一副作品和其他画家的著名画作(代表性为-1)接近,说明这幅作品的特征不够独特。具体计算过程如图3所示。

图 3 基于图的代表性学习示意图

以梵高的作品为例,我们选取其部分作品,按照其计算的代表性排序,得到如图4所示的结果。可以看出,排在前面的画作更加具备梵高的创作特点,反之,排在后面的画作能够代表梵高创作特点的程度较弱。

图 4 按代表性排序的梵高作品

05

Bayesian Low Rank Tensor Ring for Image Recovery

作者:龙珍,朱策,刘佳妮,刘翼鹏

单位:电子科技大学

邮箱:

zhenlong@std.uestc.edu.cn;

eczhu@uestc.edu.cn;

jianniliu@std.uestc.edu.cn;

yipengliu@uestc.edu.cn

论文:

https://ieeexplore.ieee.org/document/9369109

代码:

https://github.com/longzhen520/TR-VBI

张量是矩阵的多维扩展,为多维数据提供了自然的表示形式。探索张量的内部结构可以帮助我们在处理高维数据时获得更多的潜在信息。例如,彩色视频是四阶张量,通过张量表示,彩色视频的时间和空间信息可以同时被探索。低秩张量补全可以不需要训练,而有效地恢复信号在获取、传输、转换等过程丢失的数据。这使得张量补全广泛出现在许多应用场景中,比如知识图谱预测、交通流量预测、气候数据分析、推荐系统、图像复原、视频复原等。但是,目前的张量环补全算法在处理低秩优化问题上需要提前给定秩,当秩设置得太大并且观测集很少时,该方法容易产生过拟合现象。

在本文中,我们提出了一种通过自动学习数据的低秩结构来进行图像复原的贝叶斯低秩张量环补全方法。具体来说,观测的张量被施加了低秩张量环分解信息(张量环分解如图1所示),并且张量环核心因子的水平和正向切片被施加了稀疏诱导先验信息。如图2所示,每一次迭代结束,修剪张量环核心因子的水平和正向切片上的零成分,实现自动确定张量环秩。与大多数现有方法相比,所提出的方法不用调节超参数。仿真数据,彩色图像和YaleFace数据集在内的实验表明,该方法不仅能自动确定张量环秩,并且在恢复精度方面优于最新方法。

图 1 张量环分解

图 2 降秩过程

实验部分: 1. 验证TR-VBI在不同环境下(不同噪声环境、不同大小,不同丢失率)预测张量环秩的性能,其中RSE 表示相对标准误差,REE表示秩估计的误差。

图 3 在不同信噪比情况下的预测结果

图 4 在不同张量大小情况下的预测结果

图 5 在不同丢失率下的预测结果

2. 验证张量环在不同情况下(不同信噪比、不同丢失率、不同大小、不同的真实张量环秩)对给定张量环秩的敏感性,其中TR-VBI、TR-ALS的初始秩设置相同,同时将TR-VBI推断出的秩作为 TR-ALS with inferred rank 方法的输入。

图 6 低秩张量环分解对给定的张量环秩的敏感性结果 在不同丢失率下的预测结果

3. 为了更直观的看出我们方法的优越性,我们提供了彩色图像复原的结果,如图7、图8所示。

图 7 在不同的丢失率下,不同方法恢复图像的对比结果

图 8 在文字遮挡和刮擦情况下,不同方法恢复图像的对比结果

06

Speech Personality Recognition Based on Annotation Classification Using Log-Likelihood Distance and Extraction of Essential Audio Features

作者:刘振焘,Abdul Rehman,吴敏,曹卫华,郝曼

单位:中国地质大学(武汉)自动化学院

邮箱:

liuzhentao@cug.edu.cn

论文:

https://ieeexplore.ieee.org/document/9200766

语音人格识别依赖于训练模型,这些模型需要大量的特征,并且在大多数情况下,这些模型是专门为某些数据库设计的。这使得在不同的数据集上进行测试时,过拟合的分类器模型并不可靠,因为其准确率随说话人的变化而变化。此外,人格注释往往是主观的,这造成了评分者在标记过程中的感知差异。随机样本的人格特征评分可能呈现为正态分布,即大多数样本集中在中性点附近,而不是极值。当样本大部分位于中间位置时,很难提取出具有区别性的语音特征。这些问题导致语音人格识别应用的有效性较低。为了减少评分者感知的未知差异所导致的无法解释的方差,我们提出了一种采用BIRCH算法进行聚类的结构,使用对数似然距离来创建注释的无监督聚类,并将这些聚类作为新的分类边界形式。

图 1 本文方法的总体框图

图 2 音频特征提取方法流程图

人格识别模型的最大挑战之一是如何从不同的人群样本中收集数据。大多数数据都是在一个有限的领域内收集的,这只有助于提取领域内特定的特性,而这些特性在其他域中通常是无用的。此外,大多数的模型是使用非结构化神经网络实现的,这些网络依赖于数百个输入特征来进行人格二元预测。在这些研究中使用的不一致的数据集和非描述性的神经网络实现,增加了资源需求和模型对训练数据集的依赖性。与之相反,为了避免预测模型不必要的复杂性,我们只使用基本特征(即能量衰减、音高和停顿率),以便相同的特征可以在不同的领域产生相似的结果。基于此,我们提出了一种特征提取方法,在提取上述三种重要的音频特征的同时,滤除噪声、沉默、不确定片段(例如音高不明确的片段)等不良掺杂。该音频特征提取方法旨在提取降低特征集的领域特异性所必需的显著信息。

图 3 在SSPNet数据集上通过BIRCH方法或S.A.M.(平均分割)方法分类的两类(低或高)5种人格特征的能量衰减(顶部)、音高(中间)和停顿率(底部)均值的盒形图(CI=95%)

表 1 用于SSPNet数据集上三个分类器的准确率(使用25%或50%的样本用于验证的准确率,Drop是指训练样本加倍后准确率的相对变化)

本文方法利用每个片段注释的对数似然距离,将BIRCH聚类算法用于音频的二进制分类。产生的类标签随后被用作为分类器训练的输出,而基本音频特征(即能量衰减、音高和停顿率)被用作为输入。在使用SSPNet数据集的验证实验中,我们的方法获得了与目前所发表的最先进的方法相似的准确率,但我们的方法只使用了5个特征,而不是24个或更多的特征。

表 2 与已在SSPNet数据集上测试的最新方法的准确率比较

07

GMNet: Graded-Feature Multilabel-Learning Network for RGB-Thermal Urban Scene Semantic Segmentation

作者:周武杰1, 刘劲夫1, 雷景生1, 虞露2, Jenq-Neng Hwang3

单位:1浙江科技学院, 2浙江大学, 3University of Washington

邮箱:

wujiezhou@163.com,

tjuliujinfu@outlook.com

论文:

http://ieeexplore.ieee.org/document/9531449

代码:

https://wujiezhou.github.io/

http://github.com/Jinfu0913/GMNet

近来,为了追求高精度的语义分割结果,许多工作采用双流的模型结构,通过挖掘跨模态的互补信息来弥补单一的彩色图(RGB)在光照不佳的环境下表现欠佳的缺憾。常见的跨模态模型采用彩色-深度(RGB-D)或者彩色-热力(RGB-T)作为模型的输入,由于热力相机可以捕捉到任何温度在绝对零度以上的物体,且相较于深度相机捕捉的信息更加稳定,我们采用热力图(Thermal)作为彩色图的补充来搭建我们的网络模型。现有的RGB-T语义分割方法采用简单的融合方式(例如相加,叠加),这对于跨模态互补信息的探索是不充分的,这往往导致不太理想的结果。另外这些方法忽略了不同层特征的特点,并且多数采用简单的监督方式,导致特征学习得不够充分。

为了解决以上的问题,本文提出了一种划分等级特征的多标签学习网络GMNet,用来解决城市道路场景的语义分割问题,网络的结构如图1所示。具体而言,(1)我们首先人为地将主流框架ResNet50所提取的特征划分为三个等级:低级特征、中级特征和高级特征。这个思想来源于低级特征携带着丰富的细节信息,这对于待分割物体的边界确定十分重要,而高级特征则携带丰富的语义信息,这对于待分割物体的全局定位十分重要,中级特征作为二者的过渡,既保留了一定的细节又提取到了上下文信息,在语义分割任务中也起到积极地作用。(2)其次,我们根据低级特征和高级特征的特点,因地制宜地设计了两种融合模块(据我们所知,目前大多数跨模态的方法采用统一的融合策略,忽略了它们各自的特性),其中低层融合模块为了增强有用的细节,抑制干扰因素,我们结合了空间注意力和通道注意力机制。对于高级特征,我们采用紧密级联的多尺度空洞卷积来增强语义信息。(3)最后,我们对原始MFNet数据集的标签进行处理,得到前背景标签和边界标签,并且应用于我们的网络监督当中,具体地说,对于低级特征我们采用边界标签进行监督,对于高级特征我们采用原始的标签进行监督,对于中级特征,采用前背景标签监督。

图 1 分级特征的多标签学习框架 GMNet

我们在两个RGB-T数据集和一个RGB-D数据集上验证了我们方法的有效性,相关结果如表1、表2、表3和图2所示。可见,我们的方法不仅在与其他RGB-T语义分割SOTA方法的比较中取得了很大优势,并且在RGB-D数据集中表现优秀,说明我们的模型具有良好的泛化能力。

表 1 GMNet语义分割方法在RGB-T道路场景数据集(MFNet)上的性能

表 2 GMNet语义分割方法在地下挑战项目数据集(PST900)上的性能

表 3 GMNet语义分割方法RGB-D数据集(SUN RGB-D)数据集上的性能

图 2 不同的RGB-T语义分割方法得到的分割结果可视化对比图

08

Universal Cross-Domain 3D Model Retrieval

作者:宋丹1,李天宝1,李文辉1,聂为之1*,刘武2,刘安安1*

单位:1天津大学,2京东AI研究院

邮箱:

dan.song@tju.edu.cn;

litianbao@tju.edu.cn;

liwenhui@tju.edu.cn;

weizhinie@tju.edu.cn;

liuwu@live.com;

anan0422@gmail.com

论文:

https://ieeexplore.ieee.org/document/9165939

3D模型在CAD、VR/AR、自动驾驶等各个领域都发挥着至关重要的作用,近年来随着3D扫描仪、3D重建等技术的发展,3D模型的数量呈爆炸式增长。因此,如何管理大量新兴的3D模型成为一个重要的问题。然而,我们通常缺乏新近出现的3D模型的标签,甚至对新数据集和已有标签数据集之间的标签集关系没有先验知识,这使得对3D模型的管理变得非常困难。域适应等迁移学习算法可以将知识从标注丰富的二维图像或已有标注的三维模型数据集中迁移到目标未标注的三维模型中。但是现有的跨域三维模型检索方法主要集中于封闭集问题,即源域和目标域的标签集相同。在目标域标签集未知的情况下,很难进行很好的知识迁移,使用目标域中不存在的源域类别数据进行域对齐将会降低模型的效果,从而很难学习到域不变并且具有判别性的特征表示。

图 1 通用跨域三维模型检索框架示意图

为了解决上述问题,本文提出了一种通用的跨域三维模型检索框架,该框架旨在利用带标签的二维图像或三维模型作为源域来辅助管理没有标签集先验知识的未带标签的目标域三维模型数据。如图1所示,该框架包含了视觉特征学习、跨域特征自适应和检索的过程。首先,为了缩小三维模型与二维图像之间的模态差距,我们对三维模型采用多视图表示。对于域自适应,我们采用样本级加权机制,该权重机制利用样本的域相似性和预测信息熵来为每一个样本计算一个得分,用来自动检测来自源域和目标域的公共标签集的样本。然后,执行域级和类级对齐以实现域自适应。具体来说,在域级别的对齐中,样本级的权重机制赋予公共标签集的样本较大的权重,赋予源域和目标域私有标签集的样本较小的权重,来压制私有域样本在迁移学习过程中的作用;在类别级别的对齐中,样本级权重机制对私有域的数据进行过滤,利用公共域的数据计算源域和目标域的类别中心,执行样本级别的特征对齐。最后,利用学习得到的特征表示进行3D模型检索。如表1所示,在MI3DOR数据集中的实验结果证明了本文所提出算法的有效性。

表 1 在MI3DOR数据集上的实验结果展示

‍本文转自CCF多媒体专委会2021年论文导读第十九期(总第三十五期)

‍‍‍

编辑 | 桑基韬、聂礼强

专委会责任副主任 | 徐常胜‍