在开车的同时扫描交通灯、停车位和餐馆,在一堆硬币中寻找特定数量的零钱,在杂货店购买一系列物品……
在计算机视觉领域,这些广泛地存在于人类日常生活中的行为,被称为混合视觉觅食。
它是一种结合了视觉搜索和决策制定的任务,参与者需要在多个不同的目标类型中,寻找所需的资源。
必须指出的是,这些目标的价值和普遍性可能会有所不同,并且,目标实例的确切数量通常也是未知的。
接下来,一个关键问题浮出水面,即在搜索过程中如何优先选择目标?
如果能够掌握内在规律,将为优化复杂环境中的搜索效率和决策带来极大助力。
对于上述问题,眼球运动可以提供一个独特的视角,洞察决策中涉及的感知、认知和评估过程。
基于此,新加坡南洋理工大学 Mengmi Zhang 助理教授和团队,提出一种名为视觉觅食器(VF,Visual Forager)的计算模型。
这是一个基于 Transformer 的架构,通过强化学习训练,能够高效地执行混合视觉觅食,以适应目标普遍性和价值的不同组合。
不同于以往依赖人类数据进行监督训练的视觉搜索模型,VF 没有在人类数据上进行训练,却能够近似模拟人类的觅食行为和偏见。
近日,相关论文以《凝视奖励:眼动作为混合视觉觅食中人类和人工智能决策的透镜》(Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging)为题在预印本平台arXiv上发布 [1]。
南洋理工大学 Bo Wang 是第一作者,Mengmi Zhang 担任通讯作者。
显然,VF 这一关于眼球运动的计算模型,能给众多领域带来相应的变革潜力。
例如:
在人机交互领域,可以通过预测用户的注意力,并根据个人需求定制界面,以增强自适应系统。
在医学诊断和培训领域,可以复制专家的凝视模式,指导新手从业者并改进自动化诊断工具。
在机器人领域,能够使自主系统采用类似人类的策略来导航复杂的环境。
Mengmi Zhang 表示:“该模型模拟类人决策的能力,使其有别于传统的计算机视觉系统。”
也就是说,VF 不仅涉及识别对象,还涉及理解这些对象如何影响后续的行动和决策。
通过整合上下文信息和任务优先级,VF 模仿了人类的偏见和策略,为如何分配注意力和做出决策提供了良好的见解。
可以看出,这种范式转变,弥合了感知与认知之间的差距,为思考和行为更像人类的人工智能系统铺平了道路,彻底改变了需要视觉识别以外的领域。
在该研究的基础上,下一步研究人员计划将混合视觉觅食的研究,扩展至受控实验环境中的简单刺激之外。
参考资料:
1.Wang B, Tan D, Kuo Y L, et al. Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging.arXiv:2411.09176, 2024.https://doi.org/10.48550/arXiv.2411.09176
支持:Ren
运营/排版:何晨龙