超越CVPR2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

机器之心发布

机器之心编辑部

为了实现高精度的区域级多模态理解，本文提出了一种动态分辨率方案来模拟人类视觉认知系统。

本文作者来自于中国科学院大学LAMP实验室，其中第一作者赵毓钟是中国科学院大学的2023级博士生，共同一作刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。

简介

DynRefer 通过模拟人类视觉认知过程，显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制，DynRefer 能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成（region-level captioning）任务，并在上述任务都取得 SOTA 性能。其中在 RefCOCOg 数据集的 region-level captioning 任务上取得了 115.7 CIDEr，显著高于 RegionGPT，GlaMM，Osprey，Alpha-CLIP 等 CVPR 2024 的方法。

论文标题：DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
论文链接：https://arxiv.org/abs/2405.16071
论文代码：https://github.com/callsys/DynRefer

动机

区域级多模态任务致力于将指定的图像区域转换为符合人类偏好的语言描述。人类完成区域级多模态任务时具有一种分辨率自适应能力，即关注区域是高分辨率的，非关注区域是低分辨率的。然而，目前的区域级多模态大语言模型往往采用固定分辨率编码的方案，即对整张图像进行编码，然后通过 RoI Align 将区域特征提取出来。这种做法缺乏人类视觉认知系统中的分辨率自适应能力，对关注区域的编码效率和能力较低。为了实现高精度的区域级多模态理解，我们提出了一种动态分辨率方案来模拟人类视觉认知系统，如下图所示。

图 1：传统的区域级多模态方法（左）与 DynRefer 方法（右）的比较。

方法

图 3：DynRefer 网络结构

实验

Region-level Captioning

在区域字幕生成任务，DynRefer 以更小的模型（4.2B v.s. 7B），在 RefCOCOg 和 VG 两个数据集上、在 METEOR 和 CIDEr 两个指标上都显著超过了 CVPR 2024 中的众多方法，如 RegionGPT，GlaMM，Alpha-CLIP 和 Osprey 等，展现出 DynRefer 巨大的性能优势。

Dense Captioning

在密集字幕生成任务，在 VG1.2 数据集，DynRefer 相较之前的 SOTA 方法 GRiT 提升了 7.1% mAP。

Open Vocabulary Attribute Detection

在区域属性检测任务，DynRefer 也取得了 SOTA 的性能。

Open Vocabulary Region Recognition

在区域识别任务，DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy，比 ICLR 24 的 ASM 高 15.7% mAP。

消融实验

Line 1-6：随机动态多视图要优于固定视图。
Line 6-10：通过最大化信息选择视图优于随机选择视图。
Line 10-13：多任务训练可以学习得到更好的区域表征。

可视化

下面几张图展示了 DynRefer 的推理结果，DynRefer 可以用一个模型同时输出区域字幕、标签、属性和类别。

超越CVPR2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

一哄而上，打不赢美国高科技

国自然会评季：聊聊 2024 上会标准

一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

秦始皇

CVPR｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

CVPR自动驾驶最in挑战赛赛道，全球冠军被算力选手夺走了

画个框、输入文字，面包即刻出现：AI开始在3D场景「无中生有」了

最新爆火3D生成模型，清北硬核00后成团再出击丨开源

纯太阳能电车何时能实现，马斯克怎么看？

男子去路边摊吃饭，老板用手机模型引流，网友：这哪是模型啊这分明是销冠

牛弹琴：玻利维亚发生闪电政变美国一直对其虎视眈眈

朝鲜举行10万人反美活动年轻人大喊口号外国人围观

乌总统签署法令正式将英语定为乌国际交流语言

Open AI 不让我们用了？吓唬谁呢

白主动挑衅，AI时代流行妙手！值得学习。@棋士柯洁

辜梓豪最隐蔽杀局：灵犀一点吊打一群AI，蛰伏百手上演蚯蚓降龙！

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

OpenAI一夜之间杀死了我的AI创业项目？

超越CVPR2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

一哄而上，打不赢美国高科技

国自然会评季：聊聊 2024 上会标准

一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

秦始皇

CVPR｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

CVPR自动驾驶最in挑战赛赛道，全球冠军被算力选手夺走了

画个框、输入文字，面包即刻出现：AI开始在3D场景「无中生有」了

最新爆火3D生成模型，清北硬核00后成团再出击丨开源

纯太阳能电车何时能实现，马斯克怎么看？

男子去路边摊吃饭，老板用手机模型引流，网友：这哪是模型啊 这分明是销冠

牛弹琴：玻利维亚发生闪电政变 美国一直对其虎视眈眈

朝鲜举行10万人反美活动 年轻人大喊口号外国人围观

乌总统签署法令 正式将英语定为乌国际交流语言

Open AI 不让我们用了？吓唬谁呢

白主动挑衅，AI时代流行妙手！值得学习。@棋士柯洁

辜梓豪最隐蔽杀局：灵犀一点吊打一群AI，蛰伏百手上演蚯蚓降龙！

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

OpenAI一夜之间杀死了我的AI创业项目？

男子去路边摊吃饭，老板用手机模型引流，网友：这哪是模型啊这分明是销冠

牛弹琴：玻利维亚发生闪电政变美国一直对其虎视眈眈

朝鲜举行10万人反美活动年轻人大喊口号外国人围观

乌总统签署法令正式将英语定为乌国际交流语言

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看