合成数据：前世今生

导语

Sora横空出世，又一次引爆了科技圈。我们在探寻文生视频大模型的又一次出圈背后，除了算力、算法的不断演进迭代外，数据依然是绕不开的话题。据分析，OpenAI在训练过程使用了部分由游戏引擎生成的合成视频作为训练集。当然，合成数据并不只用于文生视频大模型上，在大语言模型上也早有应用。伴随着大模型不断发展，合成数据有望成为未来各类模型训练的关键数据，加速推动大模型在多领域、多产业落地应用。

本系列推送将分为三篇，尝试回答合成数据的一些关键问题。在上篇《合成数据：前世今生》，我们会重点关注为什么要用到合成数据？合成数据是什么？在中篇《合成数据：大模型训练和应用的新方案》，将讨论合成数据如何作用于大模型训练？合成数据能否替代真实数据？合成数据在大模型和推荐系统中如何应用？在下篇《合成数据：治理之智》，我们会基于合成数据的价值和风险，讨论合成数据可及性和安全性问题，并给出合成数据治理的相关政策建议。

合成数据带来的思考

在生成式人工智能技术不断发展的趋势下，训练数据来源是人们最关心的问题之一。在已经使用的训练语料中，有用于语言大模型训练的文本数据，包括网页信息、书籍、科研论文、知识百科、专业问答、代码、以及领域知识，也有用于多模态模型的图片、视频、音频等媒体数据。根据Epoch AI的估算，书籍、科研论文等高质量语言数据集可能会在2024年前耗尽。人们正在积极探索新数据源，以缓解训练语料可能面临不足的问题。一种思路是将未数字化的知识数字化，如在最新发布的Claude 3中，提到了将大量未数字化的书籍和资料做OCR生成，成为模型可读取的训练语料。还可利用机器感知数据，比如将无人车、无人机、其他智能硬件设备等生成的大量物理世界数据用于训练。另一种思路是利用模型或算法，批量生成新数据，比如合成数据，然后利用它们训练模型。

近期，合成数据在大模型训练和应用的话题引起了广泛关注。一方面，高质量的合成数据可以作为真实数据的补充和替代，模拟现实世界的复杂性和多样性，被视为扩展模型学习范围与能力的重要手段。另一方面，合成数据的生成过程可能存在偏差或噪声，导致其质量和真实性无法完全模拟客观世界。由此引出一系列值得深入讨论的问题：对于合成数据的价值，它能否拓展大模型能力的边界？又是否能替代真实数据，缓解优质数据供给不足的问题？此外，合成数据能否通过对现有数据的深加工，将之前不能被用于训练的数据转化为可用，提升模型对数据利用的可能性？而对于合成数据的风险，人们也会担忧是否会出现“大模型自己产生数据进行自我训练”的循环，导致初始偏差被不断放大，最终使模型失控？这种新数据源还会带来哪些新风险？

什么是合成数据？

合成数据(Synthetic Data)是通过算法和数学模型创建的。首先建模真实数据的分布，然后在该分布上进行采样，创建出新数据集，模拟真实数据中的统计模式和关系。合成数据类似于数据的“替身演员”，发挥补充或替代真实数据的作用。在机器学习和人工智能领域，合成数据可以为模型提供训练材料，帮助它们学习、理解和预测。

与合成数据相关性较高的另一种技术是数据增强(Data Augmentation)。两者目的都是为了提高模型的性能和泛化能力，但它们在实现这一目标时采取了不同的方法。合成数据涉及到创建全新的数据点，是从头开始生产的；而数据增强则是在已有数据的基础上进行修改以产生新的变体。在NLP领域，合成数据可以通过使用生成式模型基于现有数据生成新句子来创建；如当现实世界的数据有限或不平衡时，可以使用合成数据来训练模型进行文本分类。而NLP中的数据增强技术包括同义词替换、随机删除、随机插入和文本换行等。

这两种方法也不是解决数据问题的万能药。如果生成过程设计不当，合成数据也可能缺乏保真度，对客观世界的模拟出现偏差。而数据增强通常会受限于原始训练数据的质量和多样性。

为什么需要用到合成数据？

什么情况下会用到合成数据？本质原因是真实世界中获取数据遇到困难。一是真实世界中难以观测，如罕见病或极端天气等。利用合成数据可以设计比真实数据集更广泛的情况，对Corner Case进行模拟，提升训练数据集的全面性和多样性，确保在处理边缘案例时也有良好性能，提升模型泛化能力。二是真实世界中数据获取的成本高，如大模型对齐训练中需要人类大量的高质量反馈。利用合成数据可以实现对齐流程自动化，几乎不需人类标注，大幅节省成本，提高获取效率。三是数据获取和处理涉及到真实世界中的个信甚至敏感信息，特别是医疗健康和金融领域。合成数据可以利用差分隐私对个体信息“加噪声”等方法，模拟真实数据集的分布，而不模拟其中的真实个人信息，实现对个信去标识化。由此归纳出，合成数据具有全面性和多样性、经济高效、有利于隐私保护等优点。

合成数据的生成方法及分类

根据是否基于实际数据集生成，合成数据生成方法主要分为两大类。第一种是基于真实数据集构建的：人们会建立模型以捕获真实数据的分布特性和结构特征，刻画数据中的多变量关系和相互作用。然后从该模型中抽样或生成合成数据。如果模型能很好地代表真实数据，那么合成数据将具有与真实数据相似的统计特性。以ChatGPT为例，它深入研究了人类写的数十亿例文本，分析了词语之间的关系，并构建了一个模型来理解它们是如何组合在一起的。在生成文本时，每一个单词的选择也都取决于它前一个单词出现的统计概率。第二种生成方法并不来源于真实数据，而是通过使用现有模型或者人类专业背景知识来创建。现有的模型可以是某个过程的统计模型，也可以是模拟模型(Simulation)。模拟可以通过游戏引擎等方法创建，如最近火爆的Sora文生视频模型，里面用到了由游戏引擎（Unity、Unreal Engine 5等）合成的视频数据作为训练集，以提高生成质量。

根据用于训练的AI类型，可以将合成数据分为应用于生成式AI和判别式AI训练两类。应用于生成式AI训练的通常有媒体合成数据，即由模型和算法合成的视频、图像或声音。文本合成数据，即在自然语言处理中由模型生成的文本。而判别式AI训练（分类或回归）所需的通常是表格合成数据，类似真实生活中数据记录或表格的合成数据。

下期预告

接下来，我们会基于合成数据在大模型预训练和对齐阶段发挥的价值，以及在大模型和推荐系统中的应用，为读者们带来进一步的分析。敬请关注《合成数据：大模型训练和应用的新方案》。

—— END——

作者｜王峥、傅宏宇、袁媛阿里研究院AI政策研究中心

阿里研究院AI政策研究中心，依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态，总结沉淀AI发展和治理实践经验和方法案例，为AI政策制定实施提供科技企业的智识建议。

责编｜崇修（转载及合作请评论区或邮箱留言）

合成数据：前世今生

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

让机器准确「看懂」手物交互动作，清华等提出GeneOH Diffusion

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

OpenAI宫斗“唯一幸存董事”亲述：做问答，机器替代不了人

新一代注意力机制Lightning Attention-2：无限序列长度

可以互相交谈的人工智能来了

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

“离谱的AI扩图”火了！张张那叫一个出其不意

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

建议收藏！100篇必读论文｜大模型月报（2024.04）

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

骑手与路人发生冲突，突然从后备箱抽出砍刀，发疯似的一阵乱砍！

"鸿茅药酒事件"当事人:卖了将近3千套书直播为报平安

俄方警告：F-16被视为核武器载机将成俄合法打击目标

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

晨意帮忙丨7万多的日立空调故障不断，业主拆开怒了：配件遭偷梁换柱，公司及厂家回应

跟大家汇报一个好或者坏消息！拉法之战已经开打，以军势如破竹！

合成数据：前世今生

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

让机器准确「看懂」手物交互动作，清华等提出GeneOH Diffusion

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

OpenAI宫斗“唯一幸存董事”亲述：做问答，机器替代不了人

​新一代注意力机制Lightning Attention-2：无限序列长度

可以互相交谈的人工智能来了

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

“离谱的AI扩图”火了！张张那叫一个出其不意

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

建议收藏！100篇必读论文｜大模型月报（2024.04）

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

骑手与路人发生冲突，突然从后备箱抽出砍刀，发疯似的一阵乱砍！

"鸿茅药酒事件"当事人:卖了将近3千套书 直播为报平安

俄方警告：F-16被视为核武器载机 将成俄合法打击目标

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

晨意帮忙丨7万多的日立空调故障不断，业主拆开怒了：配件遭偷梁换柱，公司及厂家回应

跟大家汇报一个好或者坏消息！拉法之战已经开打，以军势如破竹！

新一代注意力机制Lightning Attention-2：无限序列长度

"鸿茅药酒事件"当事人:卖了将近3千套书直播为报平安

俄方警告：F-16被视为核武器载机将成俄合法打击目标