CVPR 2024 | FairCLIP：第一篇多模态视觉语言大模型公平性研究

公平性在深度学习中是一个关键问题，尤其是在医疗领域，这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究，但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集，医疗VL模型的公平性仍未被探索。

为了弥补这一研究空白，我们介绍了第一个公平的视觉-语言医疗数据集（FairVLMed），它提供了详细的人口统计属性、真实标签和临床笔记，以便深入检查VL基础模型中的公平性。

使用FairVLMed，我们对两个广泛使用的VL模型（CLIP和BLIP2）进行了全面的公平性分析，这些模型在自然图片和医疗图片领域都有预训练，涵盖了四个不同的受保护属性信息。

我们的结果突出显示了所有VL模型中的显著偏见，亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和语言这些受保护属性中的首选组别。为了减轻这些偏见，我们提出了FairCLIP，一种基于optimal-transport的方法，通过减少整体样本分布与每个人口统计组之间的Sinkhorn距离，实现了性能和公平性之间的有利折衷。

作为首个研究公平性的VL数据集，FairVLMed对研究模型公平性实现既具有伦理意识又在临床上有效的机器学习模型的潜力。

在这里分享一篇哈佛大学和纽约大学研究团队的CVPR 2024论文：「FairCLIP：Harnessing Fairness in Vision-and-Language Learning」。

在本次工作中, 我们提出了开创性的关于多模态视觉语言大模型的公平性的研究，针对这项研究我们收集了第一个带有公平性族裔指标的视觉语言医疗大型数据集，并且提出了针对视觉语言预训练的方法FairCLIP来尝试提升不同组别的公平性（让不同组别的准确率接近）。

论文题目： FairCLIP：Harnessing Fairness in Vision-Language Learning 文章地址： https://arxiv.org/pdf/2403.19949.pdf 代码地址： https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP 数据集网站： https://ophai.hms.harvard.edu/datasets/harvard-fairvlmed10k/ 数据集下载链接：https://drive.google.com/drive/u/1/folders/1bkeifigwOAfnsLvup9mJOSNeA3WsvA2l

一、背景

近年来，公平性在深度学习领域受到了越来越多的关注。这一点尤其重要，特别是在医疗领域，这些深度学习模型影响着诊断和治疗决策。这些模型中与种族、性别或社会经济地位等因素相关的偏见可能导致医疗服务差距和不利的患者结果。

因此，确保这些模型无偏见不仅是道德和法律要求，也是确保患者安全和医疗公平的必要条件。这使得在医疗计算机视觉领域中的公平性成为一个关键且迫切的问题，对于提供公平的医疗服务至关重要。

先前的研究已经发现了基于深度学习的医学图像模型中的偏见，主要集中在胸部X光诊断上。与这些仅限视觉的模型不同，近期视觉-语言（VL）基础模型的兴起设定了跨越广泛任务领域的新基准。然而，尽管这些VL模型表现出色，它们的公平性仍然不明确。

鉴于仅限视觉的模型存在偏见，以及临床医学报告的人工编写特性，VL模型可能会进一步加剧公平性问题。因此，随着深度学习领域向多模态基础模型的转移，审视视觉和文本的相互作用如何影响算法结果的公平性变得越来越关键。然而，进行此类调查的当前环境受限于缺乏包含全面人口统计信息的VL数据集，现有的公共VL数据集主要关注胸部X光。

先前的研究已经突出显示，使用这些数据集研究公平性面临挑战，因为它们的真实标签是从放射学报告中自动提取的，可能由于标签噪声导致不准确的公平性结论。此外，由于这些数据集主要不是为了公平性设计的，它们只提供少数人口统计特征，限制了进行跨多个维度的全面公平性研究的潜力。更进一步，放射学报告主要关注对成像数据的直接观察，很少包含额外的特定于患者的信息，不代表大多数临床文本，因此限制了它们在医学VL模型公平性研究中的实用性。

为了弥补这一研究差距，我们介绍了第一个用来研究公平性的视觉-语言医疗数据集（简称FairVLMed），它提供了详细的人口统计属性、真实标签和临床医学报告，以促进对VL基础模型内公平性的深入检查。

FairVLMed包含了10,000名患者的记录，每个记录都与一张SLO视网膜图像和一份用于诊断青光眼的临床医学报告配对，同时包括如年龄、性别、种族、族裔、首选语言和婚姻状况等详细的受保护属性。

与放射学报告不同，我们数据集中的临床医学报告提供了更为详细的信息，不仅包括图像描述，还包括药物、非影像测试结果和家族史等丰富的非影像临床信息。因此，这些临床医学报告更具代表性，更适合用于研究医学VL模型的公平性。

青光眼影响着全球数百万人，它体现了公平诊断模型的需求。及时检测对于避免不可逆转的视力损失至关重要。然而，许多患者由于这种疾病的无症状性质和眼科护理的障碍而未被诊断。此外，未诊断的问题在少数族裔中尤为突出。例如，以往的研究表明，相比于白人群体，黑人社区的个体未诊断和未治疗的青光眼的可能性高4.4倍，这凸显了解决医疗差异的重要性。

深度学习系统对于改善医疗保健具有重大潜力。然而，在这些深度学习系统临床实施之前，解决潜在的公平性问题是必要的，以确保公平的医疗服务提供。

在这项工作中，我们使用两种广泛使用的VL方法（即CLIP和BLIP2）在FairVLMed上进行了广泛的公平性分析。我们的实验结果揭示了基于种族、性别、族裔和语言的各种群体之间存在显著准确性差异。

为了解决这些公平性问题，我们引入了一种基于最佳运输的方法，命名为FairCLIP。FairCLIP旨在通过优化Sinkhorn距离来增强公平性，从而使整体样本特征分布与每个人口统计组的特征分布对齐。

我们的主要贡献可以总结如下：

我们介绍了第一个公平的视觉-语言医疗数据集（FairVLMed），它具有详细的人口统计属性、真实标签和临床医学报告，用于研究VL基础模型的公平性。
使用FairVLMed，我们对两个广泛使用的VL模型（即CLIP和BLIP2）进行了全面的公平性分析，这些模型在自然和医疗领域都进行了预训练，涉及四个不同的受保护属性。
我们的结果突出显示了所有VL模型中的显著偏见，亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和语言这些受保护属性中的首选亚组。
我们提出了一种名为FairCLIP的基于最佳运输的方法，它在性能和公平性方面都显著优于CLIP。

二、如何获得大量的配对的视觉语言医疗数据

本研究中的数据来自2015至2022年间青光眼服务的受试者来自哈佛医学院的马萨诸塞眼耳医院。本研究将包含了三类数据：（1）扫描激光眼底摄影（SLO）眼底图像；（2）人口身份群体信息；以及（3）由眼科医生撰写的去标识化临床笔记，以提供青光眼诊断的总结。

SLO眼底图像是评估青光眼等疾病引起的视网膜损伤的有价值标志。每张SLO眼底图像都与六个人口身份属性相关联，包括年龄、性别、种族、族裔、首选语言和婚姻状况。附带的临床笔记长度不一，这些笔记可能详细描述评估、治疗计划和诊断策略，并被认为与SLO眼底图像中的视觉语义相对应。

图1展示了两个SLO眼底图像及临床笔记的示例。受试者被分为非青光眼（通过视野（VF）测试测量的视觉功能正常：VF平均偏差≥-1 dB且VF青光眼半视野测试和模式标准偏差（PSD）结果正常）和青光眼类别（通过VF测试测量的视觉功能异常：VF平均偏差<-3 dB且VF青光眼半视野测试和PSD结果异常）。

2.1 受保护信息Deidentify

原始临床笔记可能包含受保护的敏感信息，如青光眼诊断日期、患者姓名、电话号码、电子邮件地址、物理位置、机构等。我们通过以下三个步骤去标识这些敏感信息。

首先，我们使用Microsoft的Presidio工具对所有临床笔记进行匿名处理，将敏感信息替换为相应的占位符（例如，PERSON NAME， PHONE NUMBER， LOCATION），以便保持原始句子结构和连贯性。

然后，我们使用规则匹配并去标识Presidio未完全识别的受保护信息（例如，物理地址）。

最后，去标识化的临床医学报告由四位医学专家进一步验证。特别是，每份临床笔记都由一位专家检查，必要时将敏感信息手动替换为相应的占位符。

2.2 数据特征

FairVLMed数据集包括来自10,000名受试者的10,000个样本。它被划分为7,000个训练样本、1,000个验证样本和2,000个测试样本。

数据集的平均年龄为60.9 ± 16.2岁。数据集包括来自三个主要群体的样本：亚洲人，819个样本；黑人，1,491个样本；白人，7,690个样本。在性别方面，女性占受试者的56.3%，其余为男性。种族分布以90.6%的非西班牙裔、4.0%的西班牙裔和5.4%的未指定为特点。

在首选语言方面，92.5%的受试者偏好英语，1.7%偏好西班牙语，0.8%偏好其他语言，5.0%未知。从婚姻状况角度看，57.4%已婚或有伴侣，26.4%单身，6.6%经历过离婚，1.0%法律分居，6.1%丧偶，2.5%未指定。去标识化后，临床笔记的词数从11到332词不等，平均词数为147词。

三、用来提升视觉语言基础模型公平性的方法FairCLIP

如上图所示，我们提出的FairCLIP框架旨在预训练阶段提高公平性。这是通过最小化不同种族群体（或其他基于属性的群体）之间视觉和语言特征相关性的概率分布之间的差异来实现的。

其中是一个距离函数。为了优化上面的目标，一种直接的方式是定义为KL散度来最小化两个分布之间的Kullback–Leibler （KL）散度。然而，KL散度不对称且不满足三角不等式，因此不是真正的距离度量。

相反，我们遵循之前文献，最小化两个分布之间的Sinkhorn距离。Sinkhorn距离是一种概率度量和Wasserstein距离的变种。两个分布之间的Sinkhorn距离定义为：

Sinkhorn损失将被添加到CLIP在预训练阶段使用的损失中，以优化CLIP的公平性。

四、实验

我们采用两种类型的评估策略——– linear probing and zero-shot transfer。对于linear probing，我们遵循官方的MAE实现，在CLIP和BLIP2的视觉特征上分别训练一个线性分类器。类似于MAE，在线性分类器前我们使用了一个BatchNorm层，并采用了LARS优化器，基础学习率为0.1，权重衰减为0，批量大小为512。对于zero-shot transfer ，我们采用了和CLIP原文一致的做法。

表2展示了线性探测的结果，检查了各种性能（AUC）和公平性（DPD、DEOdds、ES-AUC）指标，以及在每个四个受保护属性内的个别子群体中报告了群组AUC得分。我们主要关注随后分析中的ES-AUC指标，因为它捕捉到了整体性能以及公平性的概念——这两者对于安全关键的医疗应用都很重要。表2展示了各种受保护属性中VL性能的差异，以及不同VL预训练领域（自然图像 vs. 医疗图像）和VL预训练方法（CLIP vs. BLIP2）对模型性能和公平性的影响。

表3比较了CLIP与FairCLIP在两种不同架构（ViTB/16和ViT-L/14）以及四种不同受保护属性上的zero-shot transfer的准确性。CLIP和FairCLIP都是通过不带监督信息（即标签）的图像和临床笔记对进行微调的。然后，得到的模型在分类任务中进行评估。CLIP在种族、性别、族裔和语言等属性的群组AUC中表现出显著差异，表明在青光眼检测中存在偏见。总体而言，FairCLIP在公平性指标（DPD、DEOdds）以及各种人口子群的ES-AUC和AUC分数方面，都显著优于CLIP。

表5显示了更多的端到端微调结果，进一步验证了FairCLIP的有效性。这些实证发现表明，优化整体样本分布与特定子群分布之间的距离，有效地提高了公平性，表明了一个在解决和减轻固有偏见方面有前景的方向。

为了解耦图像和文本特征的好处，我们对BLIP2预训练模型进行线性探测，使用仅限视觉或（视觉+语言）特征。表4展示了以ES-AUC为衡量标准的性能-公平性权衡。我们注意到，除了语言外，多模态特征在所有受保护属性上都一致地改善了性能-公平性权衡。这凸显了VL模型有效利用了临床文本特征，尤其是在种族属性上观察到最显著的收益。

为了调查不同视觉编码器对BLIP2模型公平性的影响，我们使用了两种不同的预训练编码器——1）在自然领域训练的CLIP，而2）在医疗领域训练的PMC-CLIP。图3b中的结果显示，PMC-CLIP在所有四个受保护属性上都优于CLIP，尤其是在种族子群上的收益最为显著。我们注意到，专门针对医疗的LLM摘要器和视觉编码器一致地改善了VL模型的性能-公平性权衡，尤其是在种族属性上的改善最为显著。

Beutel等人[8]引入了一种公平性方法，该方法使用对抗性损失来防止模型不准确地预测敏感属性。这种方法旨在确保模型在不依赖其敏感属性的情况下预测图像的标签，从而减少分类中的偏见。图3c展示了CLIP、带对抗性损失的CLIP（CLIP w/ Adv）和FairCLIP之间的性能比较。带对抗性训练的CLIP（CLIP w/ Adv）的性能并不一致地超过所有属性中标准CLIP的性能。相反，FairCLIP一致地优于CLIP。这种性能上的变化可以归因于对抗性训练在保持每个属性等同预测准确性方面的固有挑战。另一方面，FairCLIP使用Sinkhorn损失，有效地鼓励所有样本的分布相对于每个组的分布的均匀性。

下面展示了更多的结果在文章补充材料之中：

五、总结

鉴于医疗领域对公平性的关键需求，我们引入了第一个研究公平性的视觉-语言医疗数据集（FairVLMed），用于研究医疗VL基础模型的公平性。我们对FairVLMed的全面公平性分析揭示了所有VL模型中存在的显著偏见。为了解决这些偏见，我们提出了FairCLIP，一种基于最佳运输的方法，有效地平衡了性能和公平性。

llustration From IconScout

By

Pixel True

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

CVPR 2024 | FairCLIP：第一篇多模态视觉语言大模型公平性研究

外交发言频繁使用“甩锅”，真的合适吗？

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

陕西一男子花62元买彩票中1.48亿元

你可以骗我，但请注意次数！

确定不打了！基本无缘辽粤大战G3！辽宁队“老大”正式放话！

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

人民日报点名叫停，上千万用户上当受骗！中国移动开始慌了！

铁砂掌高手展腾对战实战高手孙雷展腾被对手追着打

林毅夫的新预测：他关心的是形象，不是民生

太可怕！悬崖边上“堵人”了？大量游客被挂半山腰：脚下是万丈深渊，动弹不得…救援费用曝光，网友炸锅→

中超-国安2-1蓉城取4连胜升第2 李可蹬踏未吃牌蓉城遭遇3轮不胜

中超-申花4-0浙江阿马杜马莱莱路易斯2球

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

家长第一次去给孩子铺床才发现孩子睡厕所边2个月

F1迈阿密大奖赛：诺里斯生涯首夺分站赛冠军，周冠宇第14名完赛

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

金店遇冷！有店主说从业20年这个五一假期生意最淡

南海海域将进行军事演习:为期一周

民政部：全面开展最低生活保障边缘家庭认定工作

CVPR 2024 | FairCLIP：第一篇多模态视觉语言大模型公平性研究

外交发言频繁使用“甩锅”，真的合适吗？

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

陕西一男子花62元买彩票中1.48亿元

你可以骗我，但请注意次数！

确定不打了！基本无缘辽粤大战G3！辽宁队“老大”正式放话！

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

牛弹琴:拜登不小心说出美国的小心思 日本印度都急眼了

人民日报点名叫停，上千万用户上当受骗！中国移动开始慌了！

铁砂掌高手展腾对战实战高手孙雷 展腾被对手追着打

林毅夫的新预测：他关心的是形象，不是民生

太可怕！悬崖边上“堵人”了？大量游客被挂半山腰：脚下是万丈深渊，动弹不得…救援费用曝光，网友炸锅→

中超-国安2-1蓉城取4连胜升第2 李可蹬踏未吃牌蓉城遭遇3轮不胜

中超-申花4-0浙江 阿马杜马莱莱路易斯2球

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

家长第一次去给孩子铺床 才发现孩子睡厕所边2个月

F1迈阿密大奖赛：诺里斯生涯首夺分站赛冠军，周冠宇第14名完赛

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

金店遇冷！有店主说从业20年这个五一假期生意最淡

南海海域将进行军事演习:为期一周

民政部：全面开展最低生活保障边缘家庭认定工作

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

铁砂掌高手展腾对战实战高手孙雷展腾被对手追着打

中超-申花4-0浙江阿马杜马莱莱路易斯2球

家长第一次去给孩子铺床才发现孩子睡厕所边2个月