随着 GPT-3 的推出,大模型逐渐成为人们关注的焦点。研究者们纷纷投入到各类大模型的研发中,这些模型通常具有出色的泛化能力,并在众多任务中展现出强劲的潜力。
为了进一步发挥大模型的优势,将其应用于各类下游任务已经成为一种趋势。
然而,实践中人们常常面临一个重大挑战:对整个大模型进行完整训练(即全量微调)需要极高的成本,如需要大量的图形处理器(GPU,Graphics Processing Unit)资源等。
考虑到下游任务的多样性,为每个任务训练一个专门的大模型并不现实。因此,一个自然的问题出现了:在资源有限的情况下,如何更高效地训练大模型,以便在多样的下游场景中充分发挥其潜力?
正是在这个背景下,参数高效微调(PEFT,Parameter-Efficient Fine-Tuning)这一研究领域应运而生。
PEFT 旨在通过微调极少量的参数,使模型在不同任务中实现接近全量微调,甚至超过全量微调的效果。随着 2022 年以来大模型的迅猛发展,PEFT 算法层出不穷,种类繁多。
与此同时,许多综述性论文试图对这些方法进行分类,虽然各自的分类结果有所重叠,但始终难以形成统一的共识。
此外,由于许多方法的原理偏向直觉性而非理论性,其性能表现往往难以系统地解释。不同方法之间的性能差异显著,如何解释这种差异性也成为值得深入探讨的问题。
基于这一背景,来自上海交通大学的研究人员开展了一项研究。研究目标有两个:首先,从统一视角出发归纳不同的 PEFT 方法,将它们整合在一个统一的框架之下。
其次,探索这些方法的底层逻辑,并分析不同方法之间的性能差异。
研究中,该团队从子空间微调的角度在数学上为参数微调提供了一个统一框架。
通过这个框架,课题组将各种不同的参数微调方法归纳在同一个数学背景下,使得整个微调过程更加简洁和系统。
预计参数高效微调技术具有广泛的应用前景。它能够在边缘计算、自动驾驶、医疗影像分析、个性化推荐系统等领域,通过优化模型性能和压缩模型参数,实现高效的部署与运行。
此外,PEFT 技术在半监督与无监督学习、模型压缩与蒸馏以及自然语言处理等方面,也展现出极大的潜力,特别是在资源受限的环境中,能够显著提升模型的实际应用能力。
同时,子空间微调技术能为参数高效微调的发展提供了新的视角和重要启发。通过深入分析模型参数在子空间中的行为,利用子空间微调技术还可以揭示模型底层逻辑的运作机制。
这种分析不仅有助于理解模型参数的相互作用和优化路径,还能够指导 PEFT 技术的设计,使其在更具理论支撑的框架下实现更高效的性能调优。
日前,相关论文以《在分解的基础上进行参数高效微调的进一步说明》(See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition)为题发在arXiv[1],司翀杰是第一作者。
该团队表示这项研究的框架相对庞大,还有很多未解决的问题。因此,他们打算进一步优化现有的理论和方法。目前,他们正在研究如何更好地优化子空间扩展中的低秩特性,以提高模型的效率和性能。
此外,他们发现低秩自适应(LoRA,Low-Rank Adaptation)方法具有巨大的潜力,但这一潜力在现有的实现中并未被完全释放。基于 LoRA 的特性,他们进一步探索如何在下游任务中充分挖掘和利用这一潜力。
眼下,课题组已取得不错的实验结果,这可能会为从另一个角度理解 PEFT 的本质提供新的视角。
参考资料:
1.https://arxiv.org/pdf/2407.05417
运营/排版:何晨龙