本文提出了一种新型联邦半监督学习训练范式,Twin-sight。首先分析了现有联邦半监督学习由于单一模型下的多目标函数优化,导致模型更新时的梯度冲突,降低了联邦学习系统对无标签知识的有效利用。基于孪生视角的Twin-sight双模型训练范式,将多目标函数问题解耦,从根本上杜绝了梯度冲突的发生。大量的实验证明,Twin-sight有效提升了联邦半监督学习的性能

打开网易新闻 查看更多图片

论文题目: Robust Training of Federated Models with Extremely Label Deficiency 论文链接: https://arxiv.org/abs/2402.14430v1 代码链接: https://github.com/visitworld123/Twin-sight

一、引言

在联邦学习的分布式环境中,由于客户端硬件资源的限制以及数据标注的高昂成本,客户端往往无法对其拥有的全部数据进行标注,这导致联邦系统难以充分发挥其性能优势,同时也造成了对收集到数据的一种浪费。

由此可见,标签稀缺一直是联邦学习场景中普遍存在的关键问题,联邦半监督学习(Federated Semi-supervised Learning,FSSL)中一系列工作都致力于解决这一问题。其中很多工作将现成的半监督学习和联邦学习结合起来,以充分发挥两种方法各自的优势。这些方法通常联合多个客户端,使用有标签或无标签数据共同训练一个单一模型[1]。

传统半监督学习中有标签和无标签数据都在同一个设备上,而联邦场景下,不同的客户端拥有的标注能力不同,导致了不同客户端出现了不同程度的标签稀缺问题。而在同一个全局模型上,聚合不同目标函数学习得到的客户端模型,会使更新模型的梯度方向发生冲突。因此需要针对联邦学习这一分布式特性,设计特有的半监督学习框架,利用不同客户端的无标签数据。

二、研究动机

在FSSL场景中,我们假设 个客户端的数据集是完全被标注过的,而剩余的 个客户端的数据集则没有任何数据标注信息。联邦系统所有标签数据 ,全部由有数据标签的 个客户端的数据组成,而 则全部由剩余的 个没有标注的客户端数据构成。在现有FSSL算法中,在有标签数据上的目标函数 ( ) 为交叉熵或其他有监督损失函数,同时,一些FSSL方法提出利用传统的半监督学习方法,例如伪标签或教师平均算法,配合数据增强函数来充分利用无标签数据。这些方法在无标签数据上的目标函数记作 ( ) 。因此,FL系统的全局模型目标函数变为了:

打开网易新闻 查看更多图片

图 1 不同目标函数优化过程的梯度相似性

由于客户 端不同的目标 函数 ,在聚合时也可能会造成一种新的"客户端漂移"的状况,由公 式(3)可以看到,这种偏移状况主要是由于用于聚合全局模型的来自不同客户端的模型,它们各自的优化目标函数各不相同,进而不同模型更新梯度产生了冲突所造成的。 为了验证这种现象,计算了不同目标函数梯度的相似性,梯度相似性为负时,证明梯度之间存在冲突,干扰了模型向最优方向更新,结果如图1。

三、方法

3.1 Twin-sight模型

Twin-sight由两个模型组成,其中一个是 的无监督模型和 参数化的有监督模型。无监督模型通过实例分类[2]来学习对下游任务有意义的表征,所有客户端上的无监督模型都相同,其目标函数 ( ) 为:

代表数据 和 嵌入表示,经过 正则化后的内积。它不仅期望分出数据所属的粗粒度类别,还将每个样本都当作一个类,期望把每一个数据样本都区分开。

有监督模型在有标签数据集的客户端上通过交叉熵损失函数 ( ) 训练,然而客户端集合 中无法接触到有标签数据。因此,为了避免在有监督模型上训练目标函数不一致,引入了代理损失 ( ) 来训练 中客户端的有监督模型,因此全局有监督模型的优化函数为:

打开网易新闻 查看更多图片

其中代理损失 ( ) 用通过伪标签 计算的交叉熵损失来计算, 而伪标签则是通过有监督模型在无标签数据上推理得到的,因此代理损失为:

其中 ( ) 是一个指示函数, ( ) 选择给定向量中的最大值,而 是选择具有高置信度伪标签的阈值,是一个超参数。

3.2 Twin-sight交互

在客户端本地单独训练两个模型并不能有效提升FSSL的性能,受到分布对齐的启发[3],在不同的特征空间中,相同数据的特征(或嵌入)应保持相同的邻域关系。因此引入Twin-sight交互,该项期望保持通过有监督模型和无监督模型提取的数据特征之间的邻域关系,以达到互相校准的目的, ( ) 可以被定义为:

其中 是一种特定的度量标准,用来衡量两个矩阵之间的差异, ( ) 则构建了数据之间的邻域关系。在本文中,使用格拉姆矩阵 来量化在一个小批量数据中的邻域关系,度量标准 则均方损失来衡量。在此也期望激发更多研究者尝试更加精准的邻域关系度量和交互方式。

Twin-sight的框架图如图1所示,将Twin-sight模型以及Twin-sight交互组合在一起,通过FL方式共同训练两个模型。因此,在本地数据全部有标签的客户端上,训练方式可以表示为:

相似的,在本地数据全部没有标签的客户端上,训练则为 :

打开网易新闻 查看更多图片

四、实验结果与分析

为了验证Twin-sight有效性,我们在四个广泛使用的数据集CIFAR-10、CIFAR-100、FMNIST和SVHN上进行了实验,并和现有的SOTA基线算法进行了比较,结果如表1和表2,加粗的结果为最优算法,下划线结果为次优。

更多消融实验也验证了Twin-sight的有效性,我们还实验了不同无监督算法对Twin-sight的性能影响。

以及不同无数据标签客户端比例下,Twin-sight是否能稳定超过基线算法的实验。

不同通信轮次对FSSL算法及Twin-sight的影响。

五、结论与展望

本文提出了Twin-sight模型训练范式,该方法能够有效提升在FSSL中的性能主要是由于:1)双模型下的优化目标解耦,将学习目标解耦为两个模型,这样做避免了梯度冲突。2)数据、模型和目标函数的一致性,这种一致性确保了模型能够在整个联邦学习系统中协同工作。但是Twin-sight依旧引入了额外模型来辅助,因此期望未来能研究出内存友好的双模型范式,来解决这些问题。与此同时,能够有效应对多种FSSL场景的方法还不多,期望未来能够研究出适应FSSL多场景泛化和鲁棒的方法。

篇幅原因,本文忽略了诸多细节,更多细节可以在原文中找到。感谢阅读!

参考文献

[1] Liang X, et al. Rscfed:随机抽样共识联邦半监督学习.在 CVPR 中,2022 年。

[2] Mitrovic J, et al. 通过不变因果机制进行表征学习。在ICLR,2020年。

[3] Zhang Y, et al. Causaladv:Adversarial robustness through the perspective of causality.在 ICLR,2022 年。

Illustration From IconScout

By
nanoagency

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈