打开网易新闻 查看更多图片

本文由来自上海交通大学和上海人工智能实验室的多位研究者共同完成,受到上海市“通用人工智能大模型”基础研究专项支持。共同第一作者为孙亦刘、陆彦超与曹家熙,共同通讯作者为来自上海交通大学自动化与感知学院的宫辰教授与刘伟副教授。团队长期致力于机器学习及大模型方面的研究。

当训练数据枯竭、训练成本飙升,大语言模型(LLM)训练之路该何去何从?

作为提升 LLM 性能的主流核心范式,持续扩充训练数据量的传统做法正面临严峻挑战(如图 1 所示)。研究表明,目前互联网上可获取的高质量数据年增长率不足 10 %,难以满足 LLM 训练数据大规模增加的需求。同时,该范式引导的 LLM 训练动辄需要数千万 GPU 小时的算力开销, 产生了巨额资源消耗与碳排放,让堆数据策略难以为继。

打开网易新闻 查看更多图片

图 1:左:大模型数据扩展面临的三大挑战。右:互联网可用数据量与 LLM 训练数据量的增长趋势对比。

因而,如何在有限的数据规模下获取更多的训练收益,已经成为 LLM 训练的关键问题!

目前,研究者在该领域已展开了大量的探索,例如 s1、Less-Is-More Reasoning (LIMO) Hypothesis 和 Rho-1,但该领域仍缺乏统一的研究视角和系统的工作梳理,导致研究目标界定模糊,研究方法呈现零散化、碎片化的格局,尚未形成完备、统一的理论与方法体系。

在这一背景下,来自上海交通大学与上海人工智能实验室的研究团队发布了该领域的首篇系统性综述。该综述首次提出了 “数据价值密度”(Data Value Density,DVD)这一核心概念并给出数学定义。基于该定义,该综述建立了系统的分类框架,梳理了该领域的现有工作,为学术界和工业界绘制了一份详尽的指南。

打开网易新闻 查看更多图片

  • 论文标题:Data Value Density Enhancement for Large Language Model Training: A Comprehensive Survey
  • 论文链接:https://ssrn.com/abstract=6618802

核心概念与主要贡献

本篇 Survey 从底层逻辑出发,首次提出了 “数据价值密度”(Data Value Density,DVD)这一核心概念,并给出了严谨的数学定义:

打开网易新闻 查看更多图片

其中,D 表示 LLM 训练所使用的数据集,C 表示评估数据价值所必须的上下文信息,例如当前 LLM 能力分布、目标任务特征等。

V (D∣C) 衡量数据集 D 在训练上下文 C 下对模型性能提升的总贡献价值,而 μ(D) 衡量数据集 D 的规模。该领域研究的目标,就是构建一个新数据集,使其价值密度大于原数据集(Δf>0)。

基于这一核心概念,作者系统性地梳理了现有文献,作出了四大核心贡献:

  • 贡献一:首次提出 “DVD” 这一概念,为大模型训练全阶段的数据优化确立了明确的研究目标,即增强训练数据的价值密度;
  • 贡献二:基于 DVD 的定义,将现有方法划分为五大方向,厘清了技术发展的完整脉络;
  • 贡献三:梳理了目前用于数据价值密度增强领域的代表性数据集,深度剖析了不同任务的数据内在特性;
  • 贡献四:指出了数据价值密度增强领域所面临的挑战,为学术界和工业界在本领域的探索指明了有潜力的方向。

框架介绍

基于 DVD 的数学定义中分子 V (D∣C) 与分母 μ(D) 的动态变化关系,作者将数据价值密度增强领域划分为五大类别(如图 2 所示):

  • V (D∣C) 提升,μ(D) 不变:在数据规模固定的情况下,提升数据总体价值,包含数据调度,数据混合,增强式生成等策略;
  • V (D∣C) 不变,μ(D) 下降:在数据总体价值不变的情况下,降低数据规模,包含重复数据去除,数据蒸馏等策略;
  • V (D∣C) 提升,μ(D) 下降:在数据总体价值提升的情况下,降低数据规模,包括负价值数据去除等策略;
  • V (D∣C) 略降,μ(D) 暴降:在数据总体价值轻微下降的情况下,数据规模大幅度下降,包括高价值数据筛选等策略;
  • V (D∣C) 暴增,μ(D) 略增:在数据规模轻微上升的情况下,数据总体价值大幅度上升,包括数据进化等策略。

打开网易新闻 查看更多图片

图 2:DVD 增强方法分类框架

为了更好地理解各类 DVD 增强策略,作者用一张清晰的示意图进行形象化的展示,示意了不同类型的 DVD 增强策略实施前后数据集内部发生的变化(如图 3 所示)。

打开网易新闻 查看更多图片

图 3:五类 DVD 增强策略的实现原理

主流数据集

除去方法论相关介绍,本篇 Survey 同时整理了 DVD 增强研究中高频使用的数据集,并根据任务特性将其分为三大板块(如表 1 所示):

  • 文本理解: 从高达上万亿 Token 的无标签预训练语料,到少而精的有标签后训练数据;
  • 复杂推理: 针对不同类型的推理任务(如逻辑推理与常识推理),收录了包含 MATH, GPQA, OpenThoughts、AIME 等主流的推理数据集;
  • 垂直领域: 梳理了医疗、法律、金融等多个领域的相关数据集。

打开网易新闻 查看更多图片

表 1:DVD 增强领域的主流数据集

同时,文章还将 DVD 增强与当前火热的上下文学习(In-Context Learning)、能力密度(Capacity Density)、样本效率(Sample Efficiency)和主动学习(Active Learning)进行了深度对比,打通了不同研究范式之间的底层逻辑。

前路与挑战

尽管 DVD 增强技术已经取得了一定的成果,本文指出了 DVD 增强当前面临的四大挑战(如图 4 所示):

  • “黑盒” 可解释性差:现有方法高度依赖人类经验,数据对模型能力分布的影响、数据点之间的交互模式等仍缺乏严谨的理论框架支撑;
  • 实施成本昂贵:虽然大量方法减少了模型训练所需的数据量,降低了训练成本,但为了达成这一目的所产生的额外成本开销可能是巨大的,例如调用 LLM 进行大规模采样、训练打分模型等;
  • 人工与自动化的两难:现有 DVD 增强策略通常涉及大量的数据操作。若选择专家标注,其质量可控但成本极高,若选择模型自动化处理,其效率极高但极易引入幻觉。因而 DVD 增强技术中的相关数据操作需要在人工和自动化之间做好平衡,在保证数据质量的前提下降低数据操作成本;
  • 垂直领域研究空白:由于专业性、安全隐私、获取成本等因素,垂直领域的数据往往是稀缺的,其更需要 DVD 增强策略来缓解这一困境。然而,目前针对垂直领域的 DVD 增强策略较少。并且,由于垂直领域的数据具有独特的特征,针对通用任务的方法在应用于垂直领域时,性能往往较差。因而,工业界急需针对垂直领域的 DVD 增强策略。

打开网易新闻 查看更多图片

图 4:DVD 增强面临的四大挑战

结语

本篇 Survey 从首创的 DVD 视角出发,系统地梳理了大模型训练数据价值密度增强领域的完整路线图。这一领域的研究有助于解决当下 LLM 训练数据枯竭与算力开销大等问题。

期待这篇 Survey 能为社区提供一份实用的参考指南,帮助研究者快速把握数据价值密度增强的底层逻辑,推动大模型训练模式从粗放式数据消耗向精准化知识萃取的根本性跨越。