科学家们已经建立了一个框架,通过将它们浓缩到更小的模型中,在不影响质量的情况下,给像Dall·E3和Stable Diffusion这样的生成式人工智能系统带来了巨大的提振。

一项新的研究表明,由于一项技术可以将整个100个阶段的过程浓缩为一步,流行的人工智能(AI)驱动的图像生成器的运行速度可以提高30倍。

打开网易新闻 查看更多图片

科学家们发明了一种名为“分布匹配蒸馏”(DMD)的技术,可以教新的人工智能模型模仿已建立的图像生成器,即所谓的扩散模型,如Dall·E3、Midjourney和Stable diffusion。

这个框架产生了更小、更精简的人工智能模型,可以更快地生成图像,同时保持最终图像的相同质量。科学家们在上传到预印本服务器arXiv的一项研究中详细介绍了他们的发现。

该研究的共同主要作者、麻省理工学院电子工程和计算机科学博士生尹天伟(音译)在一份声明中说:“我们的工作是一种新颖的方法,可以将当前的扩散模型(Dall·E3和Stable Diffusion)加速30倍,这一进步不仅大大减少了计算时间,而且保留了生成的视觉内容的质量。”

扩散模型通过一个多阶段的过程生成图像。使用带有描述性文字标题和其他元数据的图像作为训练数据,人工智能被训练成更好地理解图像背后的上下文和含义,因此它可以准确地响应文本提示。

人工智能科学家杰伊·阿拉马尔(Jay Alammar)在一篇博客文章中解释说,在实践中,这些模型的工作原理是取一张随机图像,然后用随机噪声场对其进行编码,这样它就会被破坏。这被称为“前向扩散”,是训练过程中的关键步骤。接下来,图像经历多达100个步骤来清除噪声,称为“反向扩散”,以产生基于文本提示的清晰图像。

通过将他们的新框架应用到一个新模型中,并将这些“反向扩散”步骤减少到一个,科学家们减少了生成图像所需的平均时间。在一次测试中,他们的模型使用 Stable Diffusion v1.5 将图像生成时间从大约2590毫秒(或2.59秒)缩短到90毫秒 —— 快了28.8倍。

DMD有两个组件,它们一起工作,以减少模型在生成可用图像之前所需的迭代次数。第一种被称为“回归损失”,在训练过程中根据相似性组织图像,这使得人工智能学习得更快。第二种被称为“分布匹配损失”,这意味着描绘一个被咬掉一口的苹果的几率,与你在现实世界中可能遇到苹果的频率相对应。这些技术结合在一起,最大限度地减少了新人工智能模型生成的图像看起来的不合理性。

麻省理工学院电子工程和计算机科学教授弗雷多·杜兰德(Fredo Durand)在声明中说:“自扩散模型建立以来,减少迭代次数一直是扩散模型的圣杯。我们非常高兴,最终能够实现单步图像生成,这将大大降低计算成本并加速过程。”

研究团队表示,新方法大大降低了生成图像所需的计算能力,因为只需要一步,而不是原始扩散模型中的“数百步迭代细化”。科学家们说,这种模式还可以在快速高效的生产至关重要的行业中提供优势,从而更快地创造内容。

如果朋友们喜欢,敬请关注“知新了了”!