寻找高质量数据：对“确定性”的实践探寻和思考

#导语#

在生成式人工智能时代，模型的能力很大程度上可以反映出其训练数据的质量，这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。然而面对“如何建设高质量数据”的问题，我们面临着两种不同的路径：一是由政府主导，“集中力量办大事”，制定高质量数据标准，统筹建设高质量语料库；二是基于政府和社会力量的市场化分工协同，尊重产业实践和技术判断，以训练语料实际对模型的贡献来验证数据的价值。本文将围绕高质量数据的形成过程、在大模型训练中的应用和对模型能力的提升等方面，尝试给出我们的建议与判断。

一、高质量数据的重要性

在生成式人工智能时代，模型训练的成功与否与所依赖的数据质量息息相关。由于高质量数据可以更好地模拟客观世界，用这些作为训练数据可以增强模型能力。从技术层面看，通常用损失函数来量化模型预测输出与实际目标标签之间的不匹配程度。能更好模拟客观世界的数据，能使模型预测的概率分布尽可能逼近实际数据的真实分布，通过梯度下降等优化算法调整模型参数，让模型在训练集上的损失函数最小。从模型能力表现看，一是高质量数据可以提升模型的准确性和稳定性。首先，这些数据通常包含更准确和丰富的信息，有助于模型更好地理解数据的内在结构，掌握世界规律，提升产出的精准性。其次，数据清洗是提高数据质量的重要环节，包括去重、删除个信隐私内容、纠正错误、填补缺失值等，经过清洗的数据可以提升训练阶段的稳定性。二是高质量数据具有多样性，可以降低模型对特定数据集的依赖，减少过拟合风险，提升鲁棒性和泛化能力。一方面高质量数据通过对现有不同来源的数据加以混合，调试配比，提升模型执行下游任务的泛化能力。另一方面如《合成数据》系列文章所述，可以利用数据增强等手段有效提升多样性，即通过对现有数据进行变换或扩充，如旋转、缩放、亮度调整等，生成更多的训练样本，增加训练数据代表性和多样性。

相反，如果在训练中使用了较多错误、有毒、重复的低质量数据，还会对模型能力产生破坏性影响，也就是人们常说的“Garbage In Garbage Out”，比如没有经过严格质量筛选的大量社交媒体对话、用户生成的内容等。在对模型能力的损害上，使用错误的数据进行训练，会导致模型记忆有偏差信息，发生事实性错误；使用有重复的语料，则可能会导致模型在训练过程中对特定类型的示例产生偏见，降低生成结果的多样性，造成模型能力“塌缩”，加剧“双重下降”现象（Double Descent, 即模型初始性能恶化，随参数增多改善，但继续增加模型大小又出现过拟合问题）。

由于高质量数据如此重要，会引发对一系列问题的思考，比如我们能否前置制定统一的标准体系，把高质量训练数据先识别出来？应该由谁来主导建设高质量数据？另外对于中国大模型的发展，我们最需要的又是哪种高质量语料？

二、高质量数据的标准

大模型的训练

语料有哪些？

从以ChatGPT为例的大语言模型看，训练主要包含预训练和对齐两个阶段。预训练数据类型包含公开的网页、新闻、书籍、科研论文、对话文本（如Reddit、知乎等）、代码等，让模型掌握世界知识，更好地理解规律。对齐阶段可分为监督微调(SFT)和基于人类反馈的强化学习(RLHF)两部分，让模型产出的价值观和人类对齐。前者需要设计问答对，由打标人编写正确答案，后者需要打标人对模型产出答案的质量进行打分和排序。而如果将模型部署应用于特定的场景（如工业、金融、医疗等），则还需要满足该场景专业需求的领域知识用于预训练和对齐，更好地激发行业知识在任务中的应用。整体看，训练数据的质量主要取决于预训练，对齐阶段目的主要是用于激发模型能力。

从以Mid-journey和Sora为例的多模态大模型看，在训练阶段需要大量图像-文本对、视频-文本对等有标注数据集进行训练。图像-文本对是包含一张图像和一段描述该图像内容的文本的数据，让模型学习组成图像的像素之间、文字与图像的关联。视频-文本对包括一个短视频和一段描述视频中发生事件的文本，让模型不仅学习单个画面，还需要理解视频中的时间序列和动态变化。

高质量数据的类型

具有三重不确定性

第一重不确定性来自于所需的语料种类，其类型是由人类对模型能力需求决定的，而能力需求又是根据需要模型所完成的任务而不断演变。回溯基础大模型的发展历程，在2020年左右，基于Transformer架构的Google Meena，其目的是让模型具有生成连贯且有意义内容的对话能力，因此对话文本被视为最重要的高质量数据。而随着技术路线的演进，人们发现更通用的上下文理解能力是重点，因此书籍和科研论文等又被视为高质量数据。通过提升其在训练语料中的占比，可以增强模型从文本中捕捉长距离依赖的能力。随着人们对通用人工智能(AGI)的向往，对提升通用性能的北极星指标--推理能力有帮助的语料，又更加被重视。一种是代码数据，因为里面涉及大量If-Then-Else等条件控制信息；另一种是教材，因为涉及了比较详细的数学推理过程，和逻辑链(CoT)高度相关。如果再拓展到行业模型，根据对模型能力的不同需求，语料类型更难以一一列举。比如，经人类标注的，由视觉相似性图片构成的匹配对数据库，可以作为高质量数据用于大模型在广告领域的训练，通过更好预测用户需求实现对素材点击率的优化。而通过收集人类驾驶员对稀有事件(corner case，比如驾驶过程中遇到的复杂路况、极端天气、异常行为的人或车辆等场景)的应对数据，则可以更好训练完全自动驾驶(FSD)模型在不同场景中的处理能力。由此看出，由于生成式AI在技术演进和应用场景拓展中具有不确定性，模型对所需要语料类型也在发生变化，“高质量语料”的类型和范围也在不断拓展。

第二重不确定性来自于语料形态的演化，高质量数据的形态会不断增强，以强化该类型语料的能力。一方面随着合成数据和数据增强技术的提升，大模型正在不断拓展对数据利用的可能性。正如《合成数据》系列文章中提到，对于大模型难以直接使用的原始数据，通过加工、改造和泛化形成新型数据，如领域知识，用于强化模型在领域应用的能力。另外，在自动驾驶等领域，通过仿真数据生成更多样化、不同视角的物理世界用于模型训练，可以提升针对特定场景的数据收集效率，弥补真实世界中对稀有事件观测不足的问题。另一方面，随着模型长上下文建模能力的增强，对代码和教材的需求又有了质的变化。例如，训练用的代码数据从执行单一任务到仓库级(Repository level)，让模型推理能力从掌握单任务模块进化到学习整体架构；训练用的教材从中小学级别知识拓展到大学，进一步增强了复杂场景下的推理能力。

第三重不确定性来自于不同数据类型之间的有效搭配，数据调度(Data Scheduling)对模型能力起到重要作用。该环节强调对不同来源的数据加以混合，以提升数据集的多样性。因为不同类型的数据对模型能力提升的侧重点不同，各个数据来源的配比不同，也会影响模型的泛化能力以及在下游任务的表现，其中包含两个重要环节：一是调整不同来源数据的配比（数据混合, Data Mixture），二是不同来源数据用于训练的顺序（数据课程, Data Curriculum）。

数据混合环节既可以在预训练的数据分布中进行设定，也可以在训练的不同阶段设定配比，需要在实践中不断尝试出最优的组合。例如在预训练阶段，The Pile数据集结合了政府开放的公共数据集及社会力量整理的网络公开信息，组成了由22个训练子集构成的高质量数据集，包括论文、代码、问答网站、维基百科等。在SFT阶段，有研究者从Stack Exchange、wikiHow、Reddit等网站中精选高赞语料，配合手工整理的问答对，得到共计1000条高质量微调数据，以”少而精”的数据在模型对齐能力上取得了很好的效果。数据混合在实践中会采取不同策略，一种是增加来源多样性，有研究表明，增加数据源异质性对LLM在下游任务能力的提升十分关键。还有一种是优化数据混合，根据大模型执行的目标任务，选择特征空间中临近度更高的预训练数据，或选择对任务性能产生积极影响的数据。

数据课程是为了让大模型更好地学习某项技能，对语料学习顺序进行探索。一般来说，按照技能集合的顺序组织预训练语料（从基础技能到目标技能），比直接从专注目标技能的语料库中学习更为有效，如从通用的例子开始，逐步引入更具专业化的数据。这也是部分模型会在预训练和监督微调之间，引入持续预训练(Continual Pre-training)的原因。例如阿里巴巴达摩院在推出面向东南亚语大模型SeaLLM时，面临语料供给稀缺的问题。达摩院遵循数据课程的逻辑，基于Llama-2模型，在预训练第一阶段使用语言识别工具，只保留英、中、泰、越南、印尼语言的文档；而在预训练第二阶段筛选高棉语、老挝语、马来语、缅甸语等特定语料专项学习，通过持续预训练来扩展词汇量，专门针对东南亚语言进行优化，以确保模型能够学习到丰富的语言特征和文化背景。

对同类数据的质量

评估标准也不完全一致

对同类语料的质量评估，往往从质量、规模、多样性三个维度出发。在质量上，被视为“高质量”通常是因为其信息已经通过了有用性或质量筛选，这些大多可以从来源中做判断。例如，在语言模型训练中，新闻、科研论文或开源代码项目中的内容会受到专业标准（如同行评审）的筛选；常识性内容中，维基百科则经受了一群专注编辑者的筛选；而经过筛选的对话内容则是基于用户的积极互动（如在Reddit上获得的点赞数量）；在多模态模型训练中，以视觉中国为例，其网站有经过专业设计师筛选的大量图片和视频素材，并有对图像的光照、构图、艺术性、美观性等专业性标注，形成了高质量的图像/视频-文本对。其次，对于无法从信息来源直接判断数据质量的语料，人们会尝试用评估模型进行打分。例如对大量公开的网页，通过先对少量样本人工评价得到可读性、帮助性、安全性等指标，通过这些具有代表性的样本训练评估模型，将人工定义的评价标准转化为机器可识别的特征和模式，在此基础上评价语料中所有网页信息的质量。然而，即使有了前两种方法，针对部分语料仍无法前置判断其质量。如用于领域模型训练的语料，涉及到不同行业的专业知识，缺少统一的判断标准，往往是在模型训练中不断检验其质量的高低。

从规模看，收集足够规模的高质量语料也非常重要。根据大模型“伸缩法则”(Scaling Law)，当模型的参数或计算量按比例扩大时，模型性能也与之成比例提升。而随着参数规模的增加，也需要更多数据来训练模型，即模型参数与训练语料之间也存在类似的比例关系。需要指出的是，并不是语料规模越大越好，而是高信息密度的语料规模越大越好：以CC(Common Crawl)和C4数据集的对比为例，CC是一个有400TB的公共网络抓取数据集，包含了互联网上数十亿网页，内容非常广泛但未经清洗。而C4则是对CC进行了过滤噪声、重复内容等清洗后的305GB数据集。经评估发现基于C4训练的模型性能优于CC，这既说明了数据清洗的重要性，也说明了语料规模不能一味追求大。

此外，同类型语料中的多样性也是值得关注的问题。首先，会涉及到数据集的公平性，从网络采集的信息存在对于弱势群体（如种族、性别、职业、年龄等）不平衡的问题，可能会加剧现有偏见或系统性不平等。在技术层面上，通过对训练数据集进行仔细的审查和筛选，确保其分布的广度和均衡性，可以缓解公平性问题。另外，同类语料的多样性也会影响模型能力，特别是在安全能力建设方面。真实世界中潜在隐患(bad case)的出现往往是偶然事件，相较于对这些“不良信息”的一概删除，对这些样本采用打安全标签的方式，反而有助于提升模型对安全风险的识别，增强安全防护能力。

由此看出，针对不同类型的高质量语料，意味着其在语料类型、语料形态、以及语料搭配使用三个层面存在不确定性。而针对同类型的语料，又涉及到从质量、规模、多样性三方面的综合考量，对高质量并没有统一的评估标准。就像生成式人工智能技术的发展路径充满不确定性一样，对高质量数据的判断，也同样没有人拥有“上帝视角”，可以精准前置预知高质量的标准，来决定哪些是未来的高质量数据。

三、中式价值观语料提升模型

对价值观的引导能力

以上重点分析了高质量数据的不确定性，什么才是确定性的高质量语料？换句话说，我国基础大模型在哪些方面的能力上最需要增强？这体现在模型对传统文化和本土价值观的引导能力上。对待价值观问题，一方面要守住底线，这可以通过模型内生安全和外层护栏策略，对负面价值观的输入和输出做严格管控。另一方面要正向宣传和引导，这需要模型能够学习大量补充该能力的语料——并不是指所有的中文语料，而是特指其中能代表中式价值观的部分。

模型为了更好地理解客观世界和掌握规律，需要学习大量来自知识和价值观层的数据，它们更多受到人类主观意志的影响。而大模型是概率分布模型，其使用的数据来源分布将使得模型具备与之相似的人类意志。所以，训练中加入更多代表中式价值观的语料，有助于大模型更好地理解和反映中文使用者的文化背景和价值取向，从而在全球化的背景下保持文化的多样性和独特性。而且此类语料短缺的问题也没有办法通过机器翻译弥补，因为即使翻译质量有保障，仍会引入源语言的偏见，体现的仍是源语言的价值观。总体来看，文言文、古汉语、电子书籍等反映优秀传统文化的内容，以及主流媒体发布的能反映本土价值观的内容，都可视为高质量具有中式价值观的语料。但目前看，与语料相关的各环节：从积累机制、数字化（比如我国古籍数字化率不到30%），到开放共享与开发利用，及训练过程中机器算法与编码系统的建设，都仍需大量持续投入精力。

谈到中文大模型，还有一个普遍关注的问题，中文语料和英文语料在互联网中的占比存在显著差异：在全球网站中，英文占59.8%，而中文仅占1.3%，那中文语料供给短缺是否是制约我国大模型发展的关键要素呢？在实践中发现，规模并不是决定性影响因素。一是世界知识的积累有的属于客观事实，用英文或中文表达，其原理是一致的。或者说，在机器翻译质量有保障的前提下，可以弥补这部分中文语料的缺少。二是在训练技术上引入新方法也可以弥补语料供给不足的问题。如在“数据课程”环节所述，东南亚语料等区域性语言，其资源与中文语料相比更为稀少，但通过数据课程合理安排不同语料的训练顺序，也能让模型学习到丰富的语言特征。可见，中文语料“量”的短缺尚可有解决方案，但中式价值观类的语料短缺，则会成为制约我国大模型发展的短板。

四、以更务实、开放、多元的

方式解决高质量数据的供给问题

制度设计要给技术发展预留空间。正如国务院研究室副主任陈昌盛在“关于当前促进数字经济发展的六个优先”中提到的，“数据的可及性优先于数据的确权”。随着模型能力提升和模态扩展，高质量数据类型的演进具有不确定性，难以预判，因此在不违反国家安全、个信保护、企业商秘三条红线的前提下，对大模型训练数据的使用应持更开放的态度，不要过多在输入端做管控，要给技术发展预留空间。而对待剩余风险，可以更多采用输出端限制和事后救济补偿的原则。因为在技术原理上，一方面大模型训练不依赖个人信息、另一方面对版权类数据的学习属于转换性使用，并非直接的拷贝和复制，可被视为合理使用。另外，对正在发展中的技术，应以促进开发利用为目标确定保护规则，推动模型能力建设，特别是对作为中间产品类型的合成数据，不宜过早过度保护。

在对高质量数据的理解上，应认识到对高质量并不适合被前置的客观标准定义。“高质量”更多是一种主观判断，它的标准取决于模型的应用目的，数据类型会根据模型的发展阶段“因时而动”、根据技术人员的理解判断“因人而异”、根据模型的训练效果“因效而定”。因此，所谓“高质量标准”的制定，至多也只是对同类型数据在质量维度评估提供一种参考，对模型训练的价值有限。

在操作层面，高质量数据集的建设离不开政府与社会力量的市场化分工协同。如同人工智能的发展历程一样，如何构建高质量数据也并没有标准答案和成功先例。此类问题要想取得突破，正如著名经济学家许成钢所说，需要的不是政府直接干预，而是大量的自由探索和大批的独立研究。特别是在具有专业性和需要试错迭代的领域，基于市场优胜劣汰可以更高效的判断好坏、配置资源。在政府侧，对可用于模型训练的公共数据鼓励“应开尽开”，在数据开放过程中不要过多预设使用场景。在社会力量侧，企业和相关机构“应试尽试”，通过在数据混合与数据课程环节的不断迭代，寻找发挥最大价值的“配方”。在该过程中，社会力量本质上是凭借各自对技术和市场的理解，投入时间、人力和算力，探索数据集的构建方法。在市场机制层面，高质量语料效果会在模型训练和应用中得到检验，其价值可依据商业合同对价按效果付费，而不是按资源占用规模。

然而，对于有确定性、已经研究清楚的高质量语料，要坚决促进利用，同时关注相关语料的积累。首先，对有助于模型提升对价值观引导能力的中式价值观语料，以及增强对物理世界专业性理解的科研数据，应高度重视开放共享和开发利用，涉及到版权类语料要旗帜鲜明地扫清制度障碍。特别是对于受财政支持的科研或文化单位所有的知识产权类价值观语料，应尽快向社会公开用于基础大模型训练，同时可基于非营利性成本补偿原则明确合理收费标准，如媒体的主流价值观数据，国家图书馆电子化图书、历史典籍、数字报纸、科研期刊和论文等。其次，在中文价值观语料的产生机制上，还应鼓励通过人的参与提高供给。长期以来依靠删除手段的互联网生态整治，导致我国价值观语料积累不足。让模型学习到更多中式价值观语料，除了对现有语料开发利用，也要从源头上重视其产生机制的建设，包括培育专业化的人才，鼓励高质量的开发工具类、知网类的讨论专区，也包括让更多的人使用大模型，提供更多的反馈。

致谢：感谢阿里巴巴集团阿里研究院资深专家周搏、阿里巴巴集团安全部高级算法专家陈岳峰、阿里巴巴集团高级算法专家李天宇、阿里巴巴数据流通与治理平台高级技术专家徐强对本系列文章提供理论支持和技术指导。

【参考文献】

1.SeaLLMs -- Large Language Models for Southeast Asia, Nguyen et al., 2024

2.A Survey of Large Language Models, Zhao et al., 2023

3.LIMA: Less Is More for Alignment, Zhou et al., 2023

4.Planning-oriented Autonomous Driving, Hu et. al., 2023

5.Data-juicer: A one-stop data processing system for large language models, Chen et al., 2023

6.Skill-it! A data-driven skills framework for understanding and training language models, Chen et al., 2023

7.Scaling Laws and Interpretability of Learning From Repeated Data, Hernandez et al., 2022

8.合成数据：大模型训练和应用的新方案，王峥等，2024

9.陈昌盛：关于当前促进数字经济发展的“六个优先”, 新浪财经, 2023

10.生成式人工智能治理与实践白皮书，阿里巴巴集团等，2023

作者 | 王峥、傅宏宇、袁媛阿里研究院AI政策研究中心

责编 | 崇修（转载及媒体合作请评论区或邮箱留言）

如果对数字经济的财税金融问题有兴趣，可关注“数字经济财金沙龙”公众号

寻找高质量数据：对“确定性”的实践探寻和思考

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

新一代注意力机制Lightning Attention-2：无限序列长度

OpenAI宫斗“唯一幸存董事”亲述：做问答，机器替代不了人

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

“离谱的AI扩图”火了！张张那叫一个出其不意

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

大模型卷爆数字人:一句话5分钟实现定制，跳舞主持带货都能hold住

"鸿茅药酒事件"当事人:卖了将近3千套书直播为报平安

骑手与路人发生冲突，突然从后备箱抽出砍刀，发疯似的一阵乱砍！

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

俄方警告：F-16被视为核武器载机将成俄合法打击目标

晨意帮忙丨7万多的日立空调故障不断，业主拆开怒了：配件遭偷梁换柱，公司及厂家回应

跟大家汇报一个好或者坏消息！拉法之战已经开打，以军势如破竹！

寻找高质量数据：对“确定性”的实践探寻和思考

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

​新一代注意力机制Lightning Attention-2：无限序列长度

OpenAI宫斗“唯一幸存董事”亲述：做问答，机器替代不了人

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

“离谱的AI扩图”火了！张张那叫一个出其不意

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

大模型卷爆数字人:一句话5分钟实现定制，跳舞主持带货都能hold住

"鸿茅药酒事件"当事人:卖了将近3千套书 直播为报平安

骑手与路人发生冲突，突然从后备箱抽出砍刀，发疯似的一阵乱砍！

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

俄方警告：F-16被视为核武器载机 将成俄合法打击目标

晨意帮忙丨7万多的日立空调故障不断，业主拆开怒了：配件遭偷梁换柱，公司及厂家回应

跟大家汇报一个好或者坏消息！拉法之战已经开打，以军势如破竹！

新一代注意力机制Lightning Attention-2：无限序列长度

"鸿茅药酒事件"当事人:卖了将近3千套书直播为报平安

俄方警告：F-16被视为核武器载机将成俄合法打击目标