在信息数据的爆炸式增长的新时代下,数据类型越来越呈现多样化的特点,单一模态的检索已无法满足用户需求,跨模态检索应运而生。然而,不同模态的数据表达时间存在较大差异,如何减少跨模态检索中的差异性,成为了相关研究的重点。近期,特斯联AI团队提出HOPE技术,能够显著减少跨模态检索中的差异性。目前,该成果已被国际顶级期刊TPAMI收录。
特斯联
据悉,跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据。跨模态检索拥有至少两种模态的数据的互相检索,通过找出不同模态数据之间的潜在关联,实现相对准确的交叉匹配。特斯联AI团队提出了一项名为HOPE的创新技术,旨在显著减少跨模态检索中的差异性,提升跨模态信息检索的精准度与效率。
计算机视觉和人工智能领域公认的顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(简称IEEE TPAMI)收录了特斯联AI团队提出的HOPE论文,论文题为:Hope: A Hierarchical Perspective for Semi-supervised 2D-3D Cross-Modal Retrieval。
“Hierarchical Alignment with Ambigu o us P seudo-lab e ling”(HOPE)的核心是从层次化的视角在共享空间中对齐两种模态。具体而言,HOPE不仅从个体视角促使每个样本靠近其各自的模态不变型锚点,还从群体视角测量两种模态的原型和分布,以减少差异。
为了在有限的错误累积下处理标签稀缺问题,HOPE采用两个扰动网络分支来生成模糊候选者,指导了基于边界的目标的跨分支监督。
此外,特斯联AI团队的研究还使用课程式学习和类别均衡来检索每个锚点的可靠未标注样本,这些样本被加入到标注数据集中以消除模糊性,已在各种基准数据集上的广泛实验中验证了所提出的HOPE的优越性。