ICLR 2024 | 通用的数据清洗框架：利用多模态大模型检测数据集中的恶意样本

在构建人工智能系统的过程中，数据的质量至关重要，但现实世界中的数据往往充满了噪声，甚至被恶意投毒，这给人工智能的发展带来了巨大的挑战。如何有效地清洗这些“脏样本”，以确保模型训练的准确性和可靠性，成为了一个亟待解决的问题。

近期，香港中文大学（深圳）与腾讯AI Lab的研究团队在ICLR 2024提出了提出了一种通用的数据清洗框架（VDC），利用多模态大模型（MLLM）来识别数据集中的视觉-语言不一致性，从而检测出数据集中存在的脏样本。VDC框架不仅在检测有毒样本和噪声标签方面表现出色，还能跨领域、跨类型地清洗数据集，展现出了很好的泛化能力。随着大模型技术的持续发展，VDC框架有望在未来的数据清洗和质量提升工作中发挥更大的作用，为打造更可靠的AI系统奠定坚实的数据基础。

论文题目： VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models 论文链接： https://arxiv.org/pdf/2309.16211.pdf 论文代码： https://github.com/zihao-ai/vdc 论文网站： https://versatile-data-cleanser.github.io

一、背景介绍

以数据为中心的人工智能（DCAI）这一新兴领域强调了数据在构建AI系统的过程中扮演着至关重要的角色。然而，现实世界中的数据处理面临着诸多挑战，尤其是在数据质量和可靠性方面。数据集中可能存在被恶意篡改的样本，例如通过后门攻击植入的有毒样本、众包标注中产生的噪声标签，甚至这两类的混合体（不同类型的脏样本示例如下图所示）。这些“脏样本”的存在使得模型变得脆弱且不可靠，严重影响了模型的性能和安全性。

在此背景下，检测并清除数据集中的脏样本成为了提升数据集质量和可靠性的关键步骤。尽管已有研究提出了针对噪声标签或有毒样本的检测方法，但这些方法在泛化能力上往往存在局限，特别是在处理来自不同领域的脏样本时。例如检测噪声标签的方法往往不能检测到有毒样本，反之亦然。

发表于ICLR2024的《VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models》这篇工作提出了一种创新的解决方案。作者发现，不同类型的脏样本之间存在一个共同点，即图像内容与其关联标签之间的视觉-语言语义不一致性。基于这一发现，研究者们提出了一种通用的数据清洗框架——Versatile Data Cleanser（VDC），旨在通过利用多模态大模型在跨模态对齐和理解方面的能力来捕捉语义不一致性，从而准确的检测出数据集中存在的脏样本。

二、方法介绍 2.1 视觉语言不一致性

本文的核心理念是识别和利用图像内容与其关联标签之间的视觉-语言不一致性（visual-linguistic inconsistency）。这种不一致性通常表现为图像的视觉特征与文字描述的标签之间存在语义上的不匹配。例如，一张标记为“airplane”的图片实际上显示的是一辆“car”，即使图片中被添加了投毒噪声（如下图所示）。鉴于多模态大模型的迅速发展，其具有强大的跨模态理解和推理能力，因此作者提出利用多模态大模型（MLLM）来捕获这种不一致性，提出了基于MLLM的通用数据清洗器Versatile Data Cleanser (VDC)。

2.2 Versatile Data Cleanser (VDC) 框架

VDC框架由以下三个主要模块组成（如下图所示）：

视觉问题生成 (Visual Question Generation, VQG) 模块：该模块基于图像和关联标签生成一系列有洞察力的问题。这些问题旨在从图像中提取深层次的语义信息，包括一般性问题和标签特定问题。
视觉回答 (Visual Question Answering, VQA) 模块：该模块利用MLLM来回答VQG模块生成的问题，从而获取图像内容的语义信息。通过这种方式，VDC能够理解图像的实际内容，并将其与标签进行比较。
视觉答案评估 (Visual Answer Evaluation, VAE) 模块：该模块评估MLLM提供的答案与预期答案之间的匹配程度，从而判断图像内容与标签之间的一致性。如果答案的匹配程度低于某个阈值，则该样本可能被认为是脏样本。

2.3 视觉问题生成 (Visual Question Generation, VQG) 模块

VQG模块是VDC框架的第一步，它负责生成与给定标签相关的问题。这些问题设计用来揭示图像内容和标签之间的潜在不一致性，为后续的问题回答和答案评估模块提供基础。包括一般性问题和标签特定问题两类问题。

一般性问题 (General Questions)

VQG模块首先生成一些一般性问题，这些问题旨在从全局角度获取图像的整体语义理解。例如，对于一张图像，一般性问题可能包括“请简要描述这张图片”或“这张图片的主要元素是什么”。这些问题不依赖于特定的标签信息，而是旨在从图像中提取普遍的视觉特征。对于一般性问题，VQG模块可以利用预定义的问题模板来生成。这些模板是固定的，可以适用于各种不同的图像和标签。

标签特定问题 (Label-specific Questions)

除了一般性问题之外，VQG模块还会根据图像的关联标签生成一系列标签特定问题。这些问题更加细致和具体，旨在深入挖掘图像中与标签直接相关的特征和属性。例如，如果图像的标签是“飞机”，那么一个标签特定问题可能是“图像中的物体是否设计用来在空中飞行？”这类问题需要结合图像的视觉内容和标签的语义信息来生成。对于标签特定问题，VQG模块利用LLM来自动生成问题。通过精心设计的提示（prompt），模型能够根据标签的语义内容生成相关的问题。这种方法的优势在于它能够自动适应大量的标签，而不需要人工为每个标签单独设计问题。

2.4 视觉问答 (Visual Question Answering, VQA) 模块

视觉问答（VQA）模块是VDC框架中负责获取图像语义信息的关键部分，它通过多模态大模型（MLLM）来回答由视觉问题生成（VQG）模块提出的关于图像的各种视觉问题。VQA模块首先接收来自VQG的图像和问题，然后利用MLLM的能力，结合图像的视觉特征和问题的文本信息，生成详细且准确的回答，以便后续的视觉答案评估（VAE）模块能够有效地评估图像和标签之间的一致性，从而识别出潜在的数据集中的脏样本。VQA模块的性能对于整个VDC框架至关重要，因为它直接影响到数据清洗的准确性和AI模型的可靠性。

2.5 视觉答案评估 (Visual Answer Evaluation, VAE) 模块

视觉答案评估（VAE）模块是VDC框架中负责评估由视觉问题回答（VQA）模块生成的答案与预期答案之间一致性的组件。该模块的目标是通过评估答案的准确性来检测图像和其关联标签之间的视觉-语言不一致性，从而判断样本是否为脏样本。VAE模块接收VQA模块提供的答案以及VQG模块生成的问题的预期答案。

对于每个问题-答案对，VAE模块评估MLLM生成的答案是否与预期答案一致。对于标签特定的问题，这通常涉及到字符串匹配或模式识别，以确定答案是否符合预期。对于一般性问题，答案可能不是简单的“是”或“否”，而是需要更复杂的语义理解。在这种情况下，VAE模块可能使用专门的评估技术或额外的MLLM来确定答案的相关性和准确性。VAE模块根据所有问题-答案对的得分计算一个总体匹配得分。如果这个得分低于预设的阈值，则认为样本可能包含错误或不一致性，从而将其标记为脏样本。

三、实验验证 3.1 实验设置

实验在多个公认的基准数据集上进行，包括CIFAR-10、ImageNet-100和ImageNet-Dog等。这些数据集广泛用于图像识别和分类任务，且具有不同的复杂性和多样性，从而确保了实验结果的广泛适用性。

3.2 脏样本生成

为了模拟现实世界中的数据污染情况，作者采用了多种方法生成脏样本，包括后门攻击生成投毒样本（如BadNets、Blended、SIG、TrojanNN、SSBA和WaNet）和噪声标签模型生成噪声样本（对称和非对称噪声）。这些脏样本被引入到数据集中，以测试VDC框架的检测能力。实验采用的投毒样本示例如下所示。

3.3 实验结果

实验结果显示，VDC框架在各种类型的脏样本检测上均表现出色。无论是面对可见的触发器攻击还是隐蔽的后门攻击，VDC都能保持高TPR，同时维持低FPR，显示出良好的泛化能力和鲁棒性。此外，VDC在处理不同类别和数量的脏样本时，其性能几乎没有波动，这表明了其对不同数据集噪声的适应性（更多结果请查看原文）。

四、总结与展望

本文提出一种基于多模态大模型的通用数据清洗器，旨在通过检测和清除数据集中的视觉-语言不一致性来提升数据质量和AI模型的可靠性。该框架通过视觉问题生成、视觉问答和视觉答案评估三个模块，有效地识别并处理了包括有毒样本和噪声标签在内的脏样本。在多个基准数据集上的实验验证了VDC的高效性和泛化能力，展示了其在DCAI领域的重要应用潜力。随着大模型技术的不断发展，VDC框架有望在未来的数据清洗和质量提升工作中发挥更大的作用，为构建更加智能和可靠的AI系统提供坚实的数据基础。

Illustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

ICLR 2024 | 通用的数据清洗框架：利用多模态大模型检测数据集中的恶意样本

带日本老公回中国，朋友们都热情招待，喜娜蹦日语沟通不了了

媒体：俄罗斯通缉泽连斯基乌方多多少少会有所忌惮

乌军F-16西部升空巡逻，俄军SU-25失去保护被击落

抢七大战米切尔39+9骑士逆转4-3魔术！班凯罗38+16

日本宣布造出世界首个6G设备：演示显示比普通5G手机快500倍

郭宁宁任福州市委书记

运营公司就“雁荡山游客攀岩拥堵挂半山腰”致歉：暂停售票

男子花62元中双色球1.48亿元，没戴头套领奖，这回大家该相信了吧

驾驶员离开驾驶座让汽车“无人驾驶”？理想客服：该危险操作要坚决杜绝

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

俄军用中国制"高尔夫球车"运士兵不料遭密集火力覆盖

基建狂魔，到处豆腐渣工程，辛亏没车辆，不然又汽车压垮啦！

中央批准：钱三雄任安徽省委常委

家长第一次去给孩子铺床才发现孩子睡厕所边2个月

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

农村两家人打群架岸上打到塘里，警察在现场都控制不住！

决赛3比1力克印尼国羽男队时隔6年重新捧起汤姆斯杯

五一超800万人次出入境较去年同期增长35.1%

离岸人民币兑美元跌超200点

雷军逛北京车展后表示很绝望，称“车企做产品全靠蒙”

ICLR 2024 | 通用的数据清洗框架：利用多模态大模型检测数据集中的恶意样本

带日本老公回中国，朋友们都热情招待，喜娜蹦日语沟通不了了

媒体：俄罗斯通缉泽连斯基 乌方多多少少会有所忌惮

乌军F-16西部升空巡逻，俄军SU-25失去保护被击落

抢七大战米切尔39+9骑士逆转4-3魔术！班凯罗38+16

日本宣布造出世界首个6G设备：演示显示比普通5G手机快500倍

郭宁宁任福州市委书记

运营公司就“雁荡山游客攀岩拥堵挂半山腰”致歉：暂停售票

男子花62元中双色球1.48亿元，没戴头套领奖，这回大家该相信了吧

驾驶员离开驾驶座让汽车“无人驾驶”？理想客服：该危险操作要坚决杜绝

广交会闭幕 24.6万名境外采购商线下参会刷新纪录

俄军用中国制"高尔夫球车"运士兵 不料遭密集火力覆盖

基建狂魔，到处豆腐渣工程，辛亏没车辆，不然又汽车压垮啦！

中央批准：钱三雄任安徽省委常委

家长第一次去给孩子铺床 才发现孩子睡厕所边2个月

连沙漠里都“堵人了”！游客攻占多个旅游城市，本地人：最大贡献就是把景点让出来

农村两家人打群架岸上打到塘里，警察在现场都控制不住！

决赛3比1力克印尼 国羽男队时隔6年重新捧起汤姆斯杯

五一超800万人次出入境 较去年同期增长35.1%

离岸人民币兑美元跌超200点

雷军逛北京车展后表示很绝望，称“车企做产品全靠蒙”

媒体：俄罗斯通缉泽连斯基乌方多多少少会有所忌惮

俄军用中国制"高尔夫球车"运士兵不料遭密集火力覆盖

家长第一次去给孩子铺床才发现孩子睡厕所边2个月

决赛3比1力克印尼国羽男队时隔6年重新捧起汤姆斯杯

五一超800万人次出入境较去年同期增长35.1%