NeurIPS 2023 | 模仿人类举一反三，数据集扩增新范式GIF框架来了

机器之心专栏

机器之心编辑部

在这篇 NeurIPS 2023 论文中，来自新加坡国立大学和字节跳动的学者们受人类联想学习的启发，提出了数据集扩增的新范式，有效地提升了深度模型在小数据场景下的性能和泛化能力，极大地降低了人工收集和标注数据的时间和成本。代码已开源。

论文链接：https://browse.arxiv.org/pdf/2211.13976.pdf
GitHub：https://github.com/Vanint/DatasetExpansion

众所周知，深度神经网络的性能很大程度上依赖于训练数据的数量和质量，这使得深度学习难以广泛地应用在小数据任务上。例如，在医疗等领域的小数据应用场景中，人力收集和标注大规模的数据集往往费时费力。为了解决这一数据稀缺问题并最小化数据收集成本，该论文探索了一个数据集扩增新范式，旨在自动生成新数据从而将目标任务的小数据集扩充为更大且更具信息量的大数据集。这些扩增后的数据集致力于提升模型的性能和泛化能力，并能够用于训练不同的网络结构。

该工作发现只是利用现存方法无法很好地扩充数据集。（1）随机数据增强主要改变图片的表面视觉特征，但不能创造具有新物体内容的图片（如下图的荷花依然是同一个，没有新荷花的生成），因此所引入的信息量有限。更为严重的是，随机数据增强可能会裁剪医学图像的病灶（变）位置，导致样本的重要信息减少，甚至产生噪声数据。（2）直接利用预训练的生成（扩散）模型进行数据集扩增也不能很好地提升模型在目标任务上的性能。这是因为这些生成模型的预训练数据往往与目标数据存在较大的分布差异，这导致它们所生成的数据与目标任务存在一定的分布和类别差距，无法确保所生成的样本带有正确的类别标签且对模型训练有益。

为了更有效地进行数据集扩增，该工作探究了人类的联想学习：给定一个物体，人类可以利用他们累积的先验知识轻易地想象物体的不同变体，例如下图狗子在不同种类、不同颜色、不同形状或不同背景下的变体。这一想象学习的过程对于数据集扩增非常有启发性，因为它不仅是简单地扰动图片中动物体的外观，而是应用丰富的先验知识来创造具有新信息量的变体图片。

然而，我们无法直接建模人类作为先验模型来进行数据想象。但幸运地是，近期的生成模型（如 Stable Diffusion，DALL-E2）已经展现了强大的拟合大规模数据集分布的能力，能够生成内容丰富且逼真的图片。这启发了该论文使用预训练的生成模型作为先验模型，利用它们强大的先验知识来对小数据集进行高效地数据联想和扩增。

基于上述想法，该工作提出了一个新的指导式想象扩增框架（Guided Imagination Framework, GIF）。该方法能够有效提升深度神经网络在自然和医疗图片任务上的分类性能和泛化能力，并极大地减少因人工数据收集和标注所带来的巨大成本。同时，所扩增的数据集也有助于促进模型的迁移学习，并缓解长尾问题。