导语

Sora横空出世,又一次引爆了科技圈。我们在探寻文生视频大模型的又一次出圈背后,除了算力、算法的不断演进迭代外,数据依然是绕不开的话题。据分析,OpenAI在训练过程使用了部分由游戏引擎生成的合成视频作为训练集。当然,合成数据并不只用于文生视频大模型上,在大语言模型上也早有应用。伴随着大模型不断发展,合成数据有望成为未来各类模型训练的关键数据,加速推动大模型在多领域、多产业落地应用。

本系列推送将分为三篇,尝试回答合成数据的一些关键问题。在上篇《合成数据:前世今生》,我们会重点关注为什么要用到合成数据?合成数据是什么?在中篇《合成数据:大模型训练和应用的新方案》,将讨论合成数据如何作用于大模型训练?合成数据能否替代真实数据?合成数据在大模型和推荐系统中如何应用?在下篇《合成数据:治理之智》,我们会基于合成数据的价值和风险,讨论合成数据可及性和安全性问题,并给出合成数据治理的相关政策建议。

打开网易新闻 查看更多图片

合成数据带来的思考


在生成式人工智能技术不断发展的趋势下,训练数据来源是人们最关心的问题之一。在已经使用的训练语料中,有用于语言大模型训练的文本数据,包括网页信息、书籍、科研论文、知识百科、专业问答、代码、以及领域知识,也有用于多模态模型的图片、视频、音频等媒体数据。根据Epoch AI的估算,书籍、科研论文等高质量语言数据集可能会在2024年前耗尽。人们正在积极探索新数据源,以缓解训练语料可能面临不足的问题。一种思路是将未数字化的知识数字化,如在最新发布的Claude 3中,提到了将大量未数字化的书籍和资料做OCR生成,成为模型可读取的训练语料。还可利用机器感知数据,比如将无人车、无人机、其他智能硬件设备等生成的大量物理世界数据用于训练。另一种思路是利用模型或算法,批量生成新数据,比如合成数据,然后利用它们训练模型。

近期,合成数据在大模型训练和应用的话题引起了广泛关注。一方面,高质量的合成数据可以作为真实数据的补充和替代,模拟现实世界的复杂性和多样性,被视为扩展模型学习范围与能力的重要手段。另一方面,合成数据的生成过程可能存在偏差或噪声,导致其质量和真实性无法完全模拟客观世界。由此引出一系列值得深入讨论的问题:对于合成数据的价值,它能否拓展大模型能力的边界?又是否能替代真实数据,缓解优质数据供给不足的问题?此外,合成数据能否通过对现有数据的深加工,将之前不能被用于训练的数据转化为可用,提升模型对数据利用的可能性?而对于合成数据的风险,人们也会担忧是否会出现“大模型自己产生数据进行自我训练”的循环,导致初始偏差被不断放大,最终使模型失控?这种新数据源还会带来哪些新风险?

打开网易新闻 查看更多图片

什么是合成数据?

合成数据(Synthetic Data)是通过算法和数学模型创建的。首先建模真实数据的分布,然后在该分布上进行采样,创建出新数据集,模拟真实数据中的统计模式和关系。合成数据类似于数据的“替身演员”,发挥补充或替代真实数据的作用。在机器学习和人工智能领域,合成数据可以为模型提供训练材料,帮助它们学习、理解和预测。

与合成数据相关性较高的另一种技术是数据增强(Data Augmentation)。两者目的都是为了提高模型的性能和泛化能力,但它们在实现这一目标时采取了不同的方法。合成数据涉及到创建全新的数据点,是从头开始生产的;而数据增强则是在已有数据的基础上进行修改以产生新的变体。在NLP领域,合成数据可以通过使用生成式模型基于现有数据生成新句子来创建;如当现实世界的数据有限或不平衡时,可以使用合成数据来训练模型进行文本分类。而NLP中的数据增强技术包括同义词替换、随机删除、随机插入和文本换行等。

这两种方法也不是解决数据问题的万能药。如果生成过程设计不当,合成数据也可能缺乏保真度,对客观世界的模拟出现偏差。而数据增强通常会受限于原始训练数据的质量和多样性。

为什么需要用到合成数据?


什么情况下会用到合成数据?本质原因是真实世界中获取数据遇到困难。一是真实世界中难以观测,如罕见病或极端天气等。利用合成数据可以设计比真实数据集更广泛的情况,对Corner Case进行模拟,提升训练数据集的全面性和多样性,确保在处理边缘案例时也有良好性能,提升模型泛化能力。二是真实世界中数据获取的成本高,如大模型对齐训练中需要人类大量的高质量反馈。利用合成数据可以实现对齐流程自动化,几乎不需人类标注,大幅节省成本,提高获取效率。三是数据获取和处理涉及到真实世界中的个信甚至敏感信息,特别是医疗健康和金融领域。合成数据可以利用差分隐私对个体信息“加噪声”等方法,模拟真实数据集的分布,而不模拟其中的真实个人信息,实现对个信去标识化。由此归纳出,合成数据具有全面性和多样性、经济高效、有利于隐私保护等优点。

合成数据的生成方法及分类

根据是否基于实际数据集生成,合成数据生成方法主要分为两大类。第一种是基于真实数据集构建的:人们会建立模型以捕获真实数据的分布特性和结构特征,刻画数据中的多变量关系和相互作用。然后从该模型中抽样或生成合成数据。如果模型能很好地代表真实数据,那么合成数据将具有与真实数据相似的统计特性。以ChatGPT为例,它深入研究了人类写的数十亿例文本,分析了词语之间的关系,并构建了一个模型来理解它们是如何组合在一起的。在生成文本时,每一个单词的选择也都取决于它前一个单词出现的统计概率。第二种生成方法并不来源于真实数据,而是通过使用现有模型或者人类专业背景知识来创建。现有的模型可以是某个过程的统计模型,也可以是模拟模型(Simulation)。模拟可以通过游戏引擎等方法创建,如最近火爆的Sora文生视频模型,里面用到了由游戏引擎(Unity、Unreal Engine 5等)合成的视频数据作为训练集,以提高生成质量。

根据用于训练的AI类型,可以将合成数据分为应用于生成式AI和判别式AI训练两类。应用于生成式AI训练的通常有媒体合成数据,即由模型和算法合成的视频、图像或声音。文本合成数据,即 在自然语言处理中由模型生成的文本。而判别式AI训练(分类或回归)所需的通常是表格合成数据,类似真实生活中数据记录或表格的合成数据。

打开网易新闻 查看更多图片

下期预告

接下来,我们会基于合成数据在大模型预训练和对齐阶段发挥的价值,以及在大模型和推荐系统中的应用,为读者们带来进一步的分析。敬请关注《合成数据:大模型训练和应用的新方案》

—— END——

作者|王峥、傅宏宇、袁媛 阿里研究院AI政策研究中心

阿里研究院AI政策研究中心,依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态,总结沉淀AI发展和治理实践经验和方法案例,为AI政策制定实施提供科技企业的智识建议。

责编|崇修(转载及合作请评论区或邮箱留言)