合成数据：治理之智

在上一期《合成数据：大模型训练和应用的新方案》中，我们讨论了合成数据在大模型预训练和对齐阶段的作用，合成数据对大模型数据可用性的拓展，以及合成数据在推荐系统中的应用。本篇作为本系列的收官之作，我们从价值和风险视角，基于对合成数据技术特征和应用的理解，探讨合成数据可及性和安全性问题，以期为合成数据治理的政策提供有益的建议。

# ONE

合成数据是解决高质量训练数据供给不足的新方案

高质量数据是大模型技术发展的主要瓶颈之一，可供大模型学习的数据类型较多，但能够进一步拓展大模型知识边界、推动大模型推理、泛化等关键能力提升的数据更多偏向于视频、图片等多模态数据，以及特定行业中的领域知识数据。此类数据主要来自于人类的创造、制作和经验积累，其规模、类型和质量因客观条件的不同存在较大差异。在大模型强大的无监督数据学习能力面前，大模型的数据需求快速经历了从量到质的转换，能够被大模型更为直接地利用、可以进一步提升大模型关键能力、帮助大模型生成内容更符合人类习惯和要求的高质量数据，成为了最为关键的数据类型。对于提高此类高质量训练数据的供给，现行的主要方案侧重于构建更为开放、包容的高质量数据源，包括建立具有公共或准公共属性的高质量数据集，鼓励行业数据的进一步共享，放宽对于训练数据的权属保护规则等。而合成数据为模型数据供给提供了新的技术方案，将合成数据应用于大模型训练数据中，可以从以下三个方面帮助解决高质量训练数据供给不足的问题。

其一，合成数据解决了部分类型的真实世界数据难以观测的问题，拓展了训练数据的多样性。传统上看，通过生成“边缘情况”(corner case，如极端天气、罕见病）或者真实世界中的“潜在隐患”(bad case，如金融诈骗等安全风险），可以弥补因为样本分布不均衡导致的客观限制。在输入端纠正数据在采集和处理过程中引入的偏误，提高数据分布的合理性和客观性。面向未来，利用合成数据技术生成的仿真数据（如游戏引擎生成的视频），以及对于大模型难以直接使用数据的加工和改造形成的新型数据（如领域知识），可以提升模型对数据利用的可能性，对于推理、泛化等大模型核心能力的突破将起到更为显著的作用。

其二，合成数据和真实世界的配合使用提高了模型的安全性和可靠性。在LLM中，合成数据将更为广泛地应用于模型对齐阶段，可以提升模型对齐能力，解决基于人类反馈的强化学习过程中人类回答标准不统一，因知识欠缺造成问答准确性不足，以及人类提供反馈成本较高的问题。以高性能模型生成得到的高质量合成数据，以知识蒸馏的方式帮助轻量级模型进一步的监督学习，并为下游开发提供准确、高效的对齐数据来源，从整体上提高各种规模尺寸模型的性能，促进模型安全。在图像领域，合成数据可以弥补对抗样本稀疏的缺陷，将合成图像数据和普通图像数据按照一定比例进行混合，可以提高视觉模型对图片的识别和判断能力，即使在普通数据样本完全缺失的情况下，使用合成数据进行图像识别训练，也可以得到接近普通数据样本训练的效果，从而提升图像识别的鲁棒性。

其三，合成数据可以替代个人特征数据，有助于用户隐私保护，解决数据获取合规性的问题。例如，当合成数据用于推荐系统，可以降低后者对个人信息的依赖。传统的直接利用个人行为特征数据进行推荐，模型并不能从文义角度理解用户的需求，为了提升“猜你喜欢”的准确度则需要获取和分析大量的用户行为特征信息。在推荐系统等涉及个人隐私信息的判别式模型中，通过与大模型的结合可以有效缓解该问题。首先，利用生成器自动产出个性化提示词（即合成数据）用于模型优化；然后，发挥大模型对文义的推理能力，可以更好地预测用户的实际需求。用户和大模型进行简单沟通后，由大模型代为执行推荐，在提升推荐匹配度的同时还可以降低推荐模型对个人特征数据的依赖。推荐模型不再高度依赖个人特征信息，也为隐私增强技术的加入提供了操作空间，在合成数据的生成过程可以加入差分隐私等去标识技术，推荐系统在不识别特定用户的情况下也能良好判断用户的实际需求，进行针对用户实际需求而非臆测性、推断性的推荐。

# TWO

合成数据应在发展中治理，动态管控潜在风险

其一，相比于对合成数据量的扩增，在应用中要更重视质的提升。首先，当前在语料中使用占比更高的仍然是来自真实世界的数据集，合成数据未被用于大规模替代真实数据进行预训练。相反，如果此阶段过多引入合成数据，可能会影响训练数据分布，从而导致模型对世界知识的理解产生偏差。其次，合成数据的总体规模也会受到模型生成能力和生成速度的限制（例如按照当前的合成图像数据生成速度，在A100 GPU上每个图像生成时间大约为0.8s；启用xformer时，在V100 GPU上每个图像的生成时间约为2秒)。因此，更重要的是关注生成合成数据对客观世界模拟的准确性，更好满足模型对训练数据差异化的需求，以及拓展模型对训练数据利用的可能性。较为通用的方案是按照一定比例将合成数据与真实世界的数据进行混合，用于模型优化，提升模型准确性、鲁棒性和安全性。

其二，合成数据本身具备良好的安全性，在后续使用中较为可靠。用于模型优化训练的合成数据目的在于替代普通优化数据，提高模型的对齐能力和垂类应用效果。要达到此目的，合成数据安全性和真实性不低于真实世界的数据，否则使用合成数据并不能更好地提升模型性能——如果合成数据的质量低于真实数据的数据，则可能造成模型性能不升反降，使用合成数据的价值也将大打折扣。现实情况来看，合成数据往往也是通过高性能模型生成而得来，此类模型具有良好的安全防护机制，能够有效控制生成内容的安全性，因此产生的合成数据在下游利用中可靠性良好，不会带来“数据-模型自我循环”导致的模型失控问题。

其三，对合成数据仍需设置相应的安全管控策略，确保模型整体的安全性不会因为合成数据的使用而受到影响。一是加强对合成数据质量的评估检测。合成数据和其他类型的训练数据一样，需要不断提高准确性和可靠性，而为了保证合成数据具有可用性价值，其准确性和可靠性要高于普通的真实世界数据。二是为合成数据设置备用数据集。合成数据在模型训练中的使用还处于探索阶段，需要更为审慎地观察不同类型、模态和配比合成数据对模型性能带来的影响，并为合成数据准备备用的真实世界数据集，当模型能力和安全性评测、红队测试等监控指标出现异常时，及时介入并采用用备份的数据集继续模型训练和应用，保证模型的稳定性。三是建议对用于模型优化、对齐的合成数据在适当环节引入人类参与。例如，对用于对齐阶段生成的问答对和其他媒体格式内容，在进行模型优化前进行人工抽检，确保后续模型调优和对齐的质量。

# THREE

基于促进开发利用的目标确定合成数据的保护规则

合成数据保护的目标是推动合成数据技术的研发应用，鼓励各方更多地生成和提供高质量合成数据，通过合成数据补充模型训练数据资源、降低模型训练成本、增强模型的应用能力、提高模型的安全性能。结合技术现状和应用特点，为实现前述目标，合成数据的保护可以从以下三个方面予以考虑。

其一，合成数据的生产方法技术应当受到保护。合成数据的生成方法本身作为技术工程专业知识，有较强的新颖性和创造性，可能构成方法明受到专利法的保护，而未公开的流程工艺则可能属于受商业秘密保护的专业知识（know-how）。鉴于本文的主题和篇幅，对此不予赘述。

其二，“中间产品”类型的合成数据不宜过早过度保护。合成数据本身作为新型的训练数据类别，在模型优化、能力提升、应用拓展方面有独特潜力，但在现阶段因其更多承担“中间产品”的属性，尚不具有独立的保护价值，训练数据的商业秘密属性、版权数据用于训练的合理使用规则对合成数据可以延伸适用。

具体而言，受制于技术水平和应用领域的限制，现阶段合成数据尚不具备独立的价值形态，暂时不必对合成数据进行单独的价值确认和权属保护。如前文所述，合成数据目前主要的功能是模型训练优化的中间产物，合成数据自身价值更多体现在对模型能力提升所带来的更好的应用潜力和更广泛的商业机遇。此阶段，需要重视并引导合成数据研发应用的相关研究，为合成数据开发者提供必要的激励，但不必进行过早、过度保护而限制合成数据的基础研究和下游利用。

对于涉及行业领域商业秘密和利用版权产生的合成数据，可以延伸适用对于训练数据的商业秘密和版权保护的基本原则。

一方面，延伸训练数据的商业秘密保护，利用特定领的商业秘密数据而形成的合成数据，可以作为商业秘密进行保护。利用行业领域商业秘密知识形成的合成数据，涉及垂直领域的行业经验以及模型厂商在优化模型中的具体实践，在训练中还需要投入较多的资源进行数据增强和数据合成，在工程应用中确定数据配比和使用规则，具备较高的实用性和价值型，此类合成数据的生产过程也不公开，秘密性得以保持，满足商业秘密保护的构成要件，可以作为商业秘密进行延伸保护。

另一方面，合成数据中图片、音视频等内容数据，宜采取和版权类训练数据类似的思路，不在使用前进行直接限制。合成的内容数据用于模型训练的特定阶段（如大模型优化训练阶段，或大模型与推荐系统结合的提示词生成和优化阶段），本身不供人类学习和欣赏，难以被认定为是一种版权法意义上的表达，不属于版权法保护的人类文学艺术创作。而合成数据作为模型应用中的技术工具和中间产物，其使用并不会对原始作品版权人的利益造成影响。过于严格的权属界定不仅不匹配合成内容数据的价值特征，反而会限制合成数据在多模态等前沿领域的应用。

值得指出的是，随着模型生成能力的提高和应用场景的拓展，合成数据的价值形态将更为独立而明确，各类主体的贡献也将逐步明晰，此后可以根据客观条件构建合成数据的价值认定和价值分配规则。

其三，提高模型安全能力合成数据应当开放共享。合成数据应用于模型对齐、安全调优等提高模型安全能力的场景，能够有效弥补安全数据供给缺口，具有明显的公共利益属性。对于提高模型安全性能、增强模型鲁棒性的合成数据，无论是数据本身还是生成方法均需要鼓励开放共享，通过合成数据的有效应用提高各类型模型的安全性能，为解决现阶段模型安全数据标准不统一、供给不足的困境提供一套技术解决方案。

致谢：感谢阿里巴巴集团阿里研究院资深专家周搏、阿里巴巴集团政策法规研究室主任刘明、阿里巴巴集团安全部AI安全负责人陈岳峰、阿里巴巴集团高级算法专家李天宇、阿里云智能集团高级算法专家周伟对本系列文章提供理论支持和技术指导。

系列文章参考文献：

[1] Synthetic Query Generation for Privacy-Preserving Deep Retrieval Systems using Differentially Private Language Models, Carranza et al., 2024

[2] The Claude 3 Model Family: Opus, Sonnet, Haiku, Anthropic, 2024

[3] Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models, Chen et al., 2024

[4] Big Ideas 2024, ARK Invest Annual Research Report, 2024

[5] Personalized Prompt for Sequential Recommendation, Wu et al., 2023

[6] Textbooks Are All You Need, Gunasekar et al., 2023

[7] Generative Recommendation: Towards Next-generation Recommender Paradigm, Wang et al., 2023

[8] Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender System, Gao et al., 2023

[9] Self-Instruct: Aligning Language Models with Self-Generated Instructions, Wang et al., 2023

[10] Synthetic Data Could Be Better Than Real Data, Savage, 2023

[11] Synthetic Data and Data Augmentation, Keskin, 2023

[12] Synthetic Data Generation: Definition, Types, Techniques, and Tools, 2023

[13] StableRep: Synthetic Images from Text-to-Image, Models Make Strong Visual Representation Learners, Tian et al., 2023

[14] Self-critiquing Models for Assisting Human Evaluators, Saunders et al., 2022

[15] Constitutional AI: Harmlessness from AI Feedback, Bai et al., 2022

[16] Towards Zero-Label Language Learning, Wang et al., 2021

[17] Accelerating AI with Synthetic Data Generating Data for AI Projects, Emam, 2021

[18] 《人工智能对齐：全面性综述》，吉嘉铭等，2024

[19] 专访月之暗面杨植麟：一家新创立的 AGI 公司如何超越 OpenAI？2024

作者｜傅宏宇、王峥、袁媛阿里研究院AI政策研究中心

阿里研究院AI政策研究中心，依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态，总结沉淀AI发展和治理实践经验和方法案例，为AI政策制定实施提供科技企业的智识建议。

责编｜崇修（转载及媒体合作请评论区或邮箱留言）

合成数据：治理之智

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

OpenAI宫斗“唯一幸存董事”亲述：做问答，机器替代不了人

让机器准确「看懂」手物交互动作，清华等提出GeneOH Diffusion

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

新一代注意力机制Lightning Attention-2：无限序列长度

NeurIPS 2023 | 模仿人类举一反三，数据集扩增新范式GIF框架来了

研究没思路的看过来，这是可信机器学习的1000个创新idea

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

OpenAI媒体管理器明年投用！识别内容版权，允许创作者退出AI训练

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

可以互相交谈的人工智能来了

NVIDIA Omniverse Cloud API支持数字孪生开发，可解决复杂AI问题

“离谱的AI扩图”火了！张张那叫一个出其不意

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

建议收藏！100篇必读论文｜大模型月报（2024.04）

合成数据：治理之智

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

OpenAI宫斗“唯一幸存董事”亲述：做问答，机器替代不了人

让机器准确「看懂」手物交互动作，清华等提出GeneOH Diffusion

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

​新一代注意力机制Lightning Attention-2：无限序列长度

NeurIPS 2023 | 模仿人类举一反三，数据集扩增新范式GIF框架来了

研究没思路的看过来，这是可信机器学习的1000个创新idea

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

OpenAI媒体管理器明年投用！识别内容版权，允许创作者退出AI训练

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

可以互相交谈的人工智能来了

NVIDIA Omniverse Cloud API支持数字孪生开发，可解决复杂AI问题

“离谱的AI扩图”火了！张张那叫一个出其不意

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

建议收藏！100篇必读论文｜大模型月报（2024.04）

新一代注意力机制Lightning Attention-2：无限序列长度