On the Universality of Coupling-based Normalizing Flows 2402.06578v1 基于耦合的归一化流的普适性

https://github.com/vislearn/Coupling-Universality

本节的见解表明,现有的构造依赖于病态的归一化流,并且在 KL 散度下不收敛,这促使我们引入新的普遍性定理。

Theorem 4.6. Coupling-based normalizing flows with affine couplings are distributional universal approximator under the convergence metric ∆affineas given in Section 4.4.

Corollary 4.7. Coupling-based normalizing flows with coupling functions at least as expressive as affine couplings are distributional universal approximator under the convergence metric ∆affineas given in Section 4.4.

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

摘要

我们提出了一个新颖的理论框架,用于理解基于耦合的归一化流(例如RealNVP,Dinh等人,2017年)的表达能力。尽管它们在科学应用中很普遍,但由于其受限的结构,对耦合流的全面理解仍然难以捉摸。现有的定理存在不足,因为它们要求使用任意病态的神经网络,从而限制了实际的适用性。此外,我们证明了这些构造固有地导致体积保持流,这是我们证明的表达性的一个基本约束。我们提出了一种基于耦合的归一化流的新的分布普遍性定理,克服了先前工作的一些限制。我们的结果支持了普遍观点,即耦合架构具有表达力,并为选择耦合函数的表达能力提供了细致的视角,弥合了实证结果与理论理解之间的差距。

1. 引言

密度估计和复杂分布的生成建模是统计学和机器学习中的一个基本问题,其应用范围从计算机视觉(Rombach等人,2022年)到分子生成(Hoogeboom等人,2022年)和不确定性量化(Ardizzone等人,2018b年)。

归一化流是一类常见的生成模型,其模拟了可以通过最大似然准则从样本中训练的概率密度。它们通过将一个简单的多变量基础密度(如标准正态分布)通过一个学习到的可逆函数传输到感兴趣的分布来实现。其中一种特别高效的可逆神经网络的变体是基于所谓的耦合块,它们使得结果分布同时能够快速评估 并从中采样。

耦合块对可逆神经网络施加了强大的结构约束。最引人注目的是,每个块中有一半的维度保持不变,剩余维度的转换受到限制以确保可逆性。同时,即使是简单的仿射耦合型归一化流也能够学习高维分布,比如图像(Kingma & Dhariwal,2018年)。

关于这种架构拟合复杂分布能力的理论解释是有限的。现有的证明基于在实践中不成立的假设,因为涉及的构造依赖于病态神经网络(Koehler等人,2021年)。

我们通过两种方式扩展了理论:首先,我们证明了体积保持的归一化流NFs(Dinh等人,2015年;Sorrenson等人,2019年)在KL散度方面不是通用逼近器,即实际损失度量。事实上,针对基于耦合的归一化流的现有通用逼近定理构造了体积保持流(Teshima等人,2020a;Koehler等人,2021年),从根本上限制了它们对学习分布的实际影响。其次,我们引入了一种新的基于耦合的归一化流的分布普遍性证明。这个证明是建设性的,表明逐层训练会逐渐收敛到正确的目标分布,我们在图1中进行了说明。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

总结起来,我们的贡献包括:

- 在第4.2节中,我们展示了作为分布通用逼近器的体积保持流的限制。

- 然后在第4.3节中,我们展示了现有的基于仿射耦合的归一化流的分布普遍性证明构造了4.3这样的体积保持流。

- 在第4.5节中,我们给出了一种基于耦合的归一化流NFs的新的普遍性证明,克服了先前的缺点。

我们的结果验证了一个关键的见解,之前只是经验性地观察到:仿射耦合块是归一化流的有效基础。我们的证明阐明了如何使用更具表现力的耦合函数可以在更少的层次下实现良好的性能。此外,我们的发现建议在使用体积保持流时要谨慎,因为它们在表达能力上具有固有的局限性。‍

2. 相关工作

归一化流是一类基于可逆神经网络的生成模型(Rezende&Mohamed,2015年)。我们专注于广泛使用的基于耦合的流,其中涉及一系列简单的可逆块(Dinh等人(2015; 2017年),见第3节)。

尽管基于耦合的归一化流NFs在实践中表现良好,尽管其受限的架构引起了几篇论文对其分布普遍性的兴趣,即它们是否可以以任意精度逼近任何目标分布(见定义4.1)。Teshima等人(2020a)证明了耦合流是可逆函数的通用逼近器,这导致了分布普遍性。Koehler等人(2021年)证明了仿射耦合型归一化流可以使用仅三个耦合块以任意精度逼近任何分布。然而,这些工作假设用于耦合的神经网络具有爆炸性导数,在实际情况下是不现实的条件。我们的工作通过显示逐层训练归一化流达到普适性来解决了这一限制。此外,我们还在第4.3节中展示了这些工作构造了体积保持变换,这是另一个重要的限制。

一些工作展示了增强的仿射耦合型归一化流的分布普遍性,其中至少添加了一个额外的维度,通常填充有精确的零(Huang等人,2020年;Koehler等人,2021年;Lyu等人,2022年)。添加额外的零的问题是在数据域中流不再是精确可逆的,通常失去了变量变换公式(方程(1))的可追踪性。Lee等人(2021年)添加了独立同分布的高斯作为额外的维度,这再次允许密度估计,但他们只展示了如何逼近对数凹分布的有限类。我们的普遍性证明不依赖于这样的构造。

归一化流NFs的表达能力的其他理论工作考虑了更具表现力的可逆神经网络,包括SoS多项式流,神经ODE和残差神经网络(Jaini等人,2019年;Zhang等人,2020年;Teshima等人,2020b年;Ishikawa等人,2022年)。另一条研究线发现对于高斯分布,与缺乏维度之间的耦合的O(D)高斯化块相比,所需的耦合块数量与维度D无关(Koehler等人,2021年;Draxler等人,2022年;2023年)。

3. 基于耦合的归一化流

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

等式(1)允许容易地评估感兴趣点处的模型密度。获取样本可以是通过从潜在标准法线采样并应用学习变换的逆实现:

打开网易新闻 查看更多图片

变量变化公式(方程(1))可以直接用于训练归一化流。相应的损失最小化了真实数据分布 p(x) 和学习分布之间的 Kullback-Leibler 散度,可以通过所涉及期望的 Monte-Carlo 估计来优化:

打开网易新闻 查看更多图片

最后这种变体清楚地表明,将此损失最小化与最大化训练数据的对数似然是完全相同的。在训练中,期望值是使用(批次的)训练样本 x1,...,N 进行近似。

为了让方程(1)和(2)在实践中有用,fθ(x) 必须具有以下特性:(i) 快速抽样的可追踪逆,和 (ii) 快速训练的可追踪雅可比行列式,同时(iii) 具有足够表达复杂分布的能力。这些约束同时满足是不平凡的,为构建这样的可逆神经网络付出了重要的工作。

在这项工作中,我们专注于基于耦合的神经网络类别(Dinh 等人,2015;2017)。这种设计处于表达能力强大但易于反转的甜蜜点(Draxler 等人,2023),并且具有可追踪的雅可比行列式。其基本构建块是耦合层,它由每个维度的一个可逆函数 组成,但有一个变化:耦合层只会改变维度的后半部分 a =(活跃部分),参数 θ = θ(b) 由依赖于维度的前半部分(被动部分)的神经网络预测出来。

打开网易新闻 查看更多图片

神经网络 θ(b) 允许在耦合层中建模维度之间的依赖关系。计算耦合层的逆是容易的,因为对于被动维度来说,。这使得计算反转活跃维度所需的参数 θ(b) 成为可能。

打开网易新闻 查看更多图片

选择正确的一维可逆函数 c(x; θ) 是活跃研究的课题,可以参考我们附录 A 中的列表以及 Kobyzev 等人(2021)的评论。许多应用程序使用仿射线性函数 c(x; s, t) = sx + t,其中 s > 0 和 t 是由 θ(b) 子网络作为被动维度的函数预测的参数。特别是对于较小维度的问题,使用更灵活的 c,例如有理二次样条(Splines Durkan 等人,2019b),已被证明是有用的。我们的普遍性结果与我们所知的所有耦合架构兼容,除了 NICE。与此同时,我们的构造直接说明了使用更具表现力的耦合的原因,因为它们可以使用更少的层学习相同的分布(参见第 4.6 节)。

为了具有表现力,归一化NFs流由一堆耦合层组成,每个层具有不同的活跃和被动子空间。这通过在每个耦合之前使用一个额外的层来实现,该层通过旋转矩阵 Q ∈ SO(D) 将传入的向量 x 旋转:

打开网易新闻 查看更多图片

通常,Q 简单地选择为在训练期间保持不变的置换矩阵,但一些变体允许在训练期间选择任意旋转 Q 或学习旋转(Kingma & Dhariwal,2018)。我们的普遍性定理将考虑自由形式的旋转矩阵 Q。这不会限制其适用性到某些架构,因为任何可逆线性函数都可以由具有固定置换的固定数量的耦合块表示(Koehler 等人,2021)。旋转层与耦合层一起形成一个耦合块:

打开网易新闻 查看更多图片
在本文的其余部分,我们关心的是耦合块的潜在深度串联可以表示分布 p(x)。

4. 基于耦合流的分布普遍性

在这一节中,我们提出了基于耦合的归一化流的新分布普遍性结果。我们首先解释了我们所说的分布普遍性。然后,我们展示了关于保体积流的负面结果,即它们在 KL 散度方面不是分布普遍逼近器。这显示了耦合流先前的普遍性证明存在根本限制。然后,我们提出了克服这些缺点的证明。

4.1. 分布普遍性

所谓分布普遍性是指某一类生成模型可以表示任意分布 p(x)。由于神经网络的特性,我们不能指望我们的生成模型能够完全(即在数学意义上的精确相等)地表示 p(x)。通过回归领域的类比,这一点变得清晰:具有 ReLU 激活函数的神经网络总是建模分段线性函数,因此它永远无法精确回归抛物线。然而,对于任意有限的 ϵ > 0 并且给定越来越多的线性片段,它可以越来越接近抛物线,使得 之间的平均距离消失:。因此,为了描述一类神经网络的表达能力,如果模型与任何目标之间的误差可以任意减小,称该类网络为通用是具有指导意义的。

在表示分布 p(x) 方面,以下定义捕捉了一类模型分布的普遍性,类似于 (Teshima 等人,2020a,Definition 3):

打开网易新闻 查看更多图片

定义 4.1. 如果对于每一个可能的目标分布 p(x),都存在一个分布序列 pn(x) ∈ P,使得 pn(x) 当 n→∞ 时收敛到 p(x),则概率分布集合 P 被称为分布普遍逼近器。

将普遍性形式化为收敛级数的形式是有用的,因为它(i)表明所讨论的分布 p(x) 可能不属于 P,以及(ii)级数索引 n 通常反映了与计算需求相对应的基础模型的超参数(例如,网络的深度)。

我们暂且没有给出“pn(x) 当 n→∞ 时收敛到 p(x)”的确切定义,因为我们可能会考虑不同的收敛变体。现有文献关于基于仿射耦合的归一化流考虑了弱收敛(affine coupling-based normalizing flows Teshima 等人,2020a),以及 Wasserstein 距离的收敛(Koehler 等人,2021)。我们将在第 4.3 节中指出,现有证明中使用的构造基本上与这些相对较弱的收敛度量密切相关。已经提出了许多收敛度量,详见(Gibbs & Su,2002)进行系统概述。

在本文中,我们考虑具有无限支持和有限矩的连续目标分布 p(x),这涵盖了实际兴趣的分布。

4.2. 体积保持流的局限性

在本节中,我们提供了关于具有常数雅可比行列式 的归一化流的负面普遍性结果,例如非线性独立成分估计(NICE)(Dinh 等人,2015)或一般不可压缩流网络(GIN general incompressible-flow networks)(Sorrenson 等人,2019)。这样的流通常称为体积保持流,有时也称为不可压缩流

对于一维函数,这意味着 fθ(x) 是线性的。对于多变量函数,fθ(x) 可以是非线性的,只是其中一个维度上的任何体积变化必须通过其余维度上的反向体积变化来补偿。例如,GIN 通过要求实现了体积保持的耦合块。这比 NICE 更具表达力,NICE 将所有 si(b) = 1,除了在线性重新缩放层中。

虽然体积保持流在某些应用中可能很有用,例如解缠(Sorrenson 等人,2019)或在 Boltzmann 生成器中进行温度缩放(Dibak 等人,2022),但它们在学习哪些分布方面存在劣势。

为了推导这一点,让我们将变量变换公式 Equation (1) 调整为体积保持流:

打开网易新闻 查看更多图片

其中。这个方程表明,对于每个 x,流建模的密度恰好是相应潜变量 z = fθ(x) 的密度,直到一个常数因子为止,同样地,每个潜变量必须将其相对的可能性贡献给数据空间中的一个点。

事实证明,这种限制对于体积保持流的表达能力是致命的:

打开网易新闻 查看更多图片

定理 4.2. 具有常数雅可比行列式 的归一化流族在 KL 散度下不是一个普遍的分布逼近器。

在附录 B.1 中的详细证明中,我们构造了一个无法用 KL 散度近似的分布的反例。直观地说,体积保持流只能通过移动其中的区域来变换潜变量分布 p(z),但是它们不能通过 Equation (11) 压缩或膨胀空间以改变局部密度。这意味着 pθ(x) 的结构基本上与潜变量分布 p(z) 共享。例如,学习到的密度的局部最大值,通常称为其模态,是从潜变量分布继承而来的。这意味着学习到的分布无法从标准正态潜变量空间中创建多模式分布:

打开网易新闻 查看更多图片

推论 4.3. 具有常数雅可比行列式的归一化流 pθ(x) 具有与潜变量分布 p(z) 相同数量的模式。

图 2 通过使用一个体积保持流学习一个二维目标分布来说明这个缺点。问题在于根据 Equation (11),pθ(x) 和 p(z) 的最大值之间存在一一对应关系,以及数据空间和潜空间中的邻域。在这个例子中,通过一个细长的桥连接了学习到的“模式”,它们实际上形成了一个连接的高概率区域,没有障碍。此外,密度在两个模式处都偏低。具有灵活体积变化的归一化流不会出现这些问题,并且能正确地逼近双峰分布。我们在附录 B.2 中给出了详细的证明,实验细节在附录 E.2 中。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

图 2. 具有恒定雅可比行列式的归一化流无法模拟一个简单的双峰混合分布(第一行与第二行):尽管两个模式在真实情况下的权重不同,但在模型密度中,两个模式几乎相同。此外,体积保持流实际上只有一个最大值,第二个伪模式与第一个通过高密度的桥连接。具有可变雅可比行列式的归一化流不会出现这些问题(第三行)。

通过在潜空间中引入一个(可学习的)多模式分布,这部分问题可以部分恢复,但是如果要学习的分布结构未知,则这必然受到限制。

我们的定理 4.2 和推论 4.3 确定了基于体积保持流的应用的一个基本限制。这解释了为什么在实践中 RealNVP 的表现明显优于 NICE(Dinh 等人,2017)。使用体积保持流的工作必须考虑到这种有限的表达能力和学到的分布中的偏差。在下一节中,我们将发现这个问题也适用于基于耦合的归一化流的现有普遍性证明。

4.3. 现有构造的问题

已经存在的证明表明仿射和更具表达力的耦合流是分布普遍逼近器。它们利用了特殊参数化的耦合块,导致收敛到任意分布(Teshima 等人,2020a;Koehler 等人,2021)。虽然在技术上是正确的,但 (Teshima 等人,2020a;Koehler 等人,2021) 使用的收敛度量对这些构造的两个缺点不加区分:它们需要病态网络,并构造了体积保持流,根据我们的定理 4.2,体积保持流在 KL 散度下不是普遍的。我们将通过 Koehler 等人 (2021) 中提出的方法演示这些缺点,但同样的论点也适用于 (Teshima 等人,2020a) 中的构造。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

导出的雅可比行列式表达式显示了普遍性定理的两个重要缺点。第一个是随着近似误差 ϵ 变得非常小,ϵ' 和 ϵ'' 也变得非常小。对于正向传播,这导致雅可比行列式消失,对于逆向传播则导致雅可比行列式爆炸。这说明了 Koehler 等人 (2021,备注 2) 中提到的一个观点,即对于小的近似误差,网络是病态的,使得构造不现实。

第二个问题是一个更基本的问题。根据 (Koehler 等人,2021) 给出的构造参数对于三个仿射耦合的归一化流的雅可比行列式的推导表达式显示,这些行列式是常数,因为 ϵ' 和 ϵ'' 是常数因子。因此得到的构造是一个体积保持流,这在前一节中已经考虑过。这意味着根据我们的定理 4.2 和推论 4.3,由此产生的归一化流在 KL 散度下不是分布普遍逼近器,而是总是代表着单峰分布,不论数据分布如何。

本节的见解表明,现有的构造依赖于病态的归一化流,并且在 KL 散度下不收敛,这促使我们引入新的普遍性定理。

4.4. 收敛度量

理想情况下,我们会使用 Equation (3) 中的 KL 散度作为我们的收敛度量来作出普遍性声明。这不仅是实践中使用的度量,而且也是一种强度量,它意味着弱收敛,保证了期望值的收敛,并且意味着密度的收敛(Gibbs & Su,2002)。此外,正如我们在第 4.2 节中先前展示的那样,KL 散度能够区分体积保持和非体积保持流之间的表达能力,但是弱收敛和 Wasserstein 距离则不能(第 4.3 节)。

在我们的证明中考虑的收敛度量与 Kullback-Leibler 散度确实相关。为了构造它,将方程 (3) 中的损失函数 L 改写为比较当前潜在分布 pθ(z) 作为我们流 fθ(x) 通过将 p(x) 推向前的结果:

打开网易新闻 查看更多图片

这个等式表明,真实分布 p(x) 和模型分布 pθ(x) 之间的差异同样可以通过潜空间来衡量,即通过模型从数据生成的当前潜在分布 pθ(z) 和目标潜在分布 p(z) 之间的 KL 散度。

现在让我们考虑一下,如果我们将另一个仿射耦合块添加到现有的归一化流 fθ(x) 中会发生什么,从而得到一个我们称之为 pθ∪φ(x) 的流。让我们选择额外耦合块 φ 的参数,使其最大程度地减少损失,而不改变之前的参数:

打开网易新闻 查看更多图片

这使我们能够测量通过添加一个仿射耦合块所实现的额外损耗改进:

打开网易新闻 查看更多图片

请注意,对于我们的论证来说,考虑到仿射耦合块已经足够了,但是结果也适用于更具表达力的耦合函数。

下面的定理允许我们将上述损失改善 Δaffine 作为分布的收敛度量。它说明,除非它已经收敛到潜空间中的标准正态分布,否则添加另一个耦合层总是可以改善损失 L:

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

表明最大可实现的损失改进∆affine是正规化流的一个有用的收敛度指标:如果添加更多层没有效果,那么潜在分布已经收敛到正确的分布。

在本节的其余部分,我们对定理4.4的证明进行概述,技术细节移至附录C.1。我们将在下一节继续我们的普适性定理。

我们的步骤如下:

首先,我们使用无限表达力的仿射耦合块的最大损失改进∆∗affine的显式形式(Draxler等人,2020)。

然后,我们在引理4.5中表明,这些不现实的网络的收敛等价于有限的ReLU网络的收敛。

最后,我们证明意味着p(z) = N(z; 0, I)。尽管这个推导是为仿射耦合块构造的,但对于更具表现力的耦合函数也成立(请参阅附录A,了解我们知道的所有适用耦合):如果仿射耦合块无法改进,更具表现力的耦合也无法改进。另一方向是平凡的,因为由于p(z) = N(0, I),没有损失改进是可能的。

如果我们暂时假设神经网络可以精确表示任意连续函数,那么这个假设的最大损失改进是由Draxler等人(2020年,定理1)计算出来的。一个具有固定旋转层Q的单个仿射耦合块,为了最大限度地减少损失,将通过在被动维度的前两个动态半部分条件下标准化数据来标准化数据,而被动维度为b = (Qx)1,...,D。在耦合之前的时刻。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

就损失而言,这种转换最多能实现以下损失改进,其中每个被动坐标b都有一定的贡献:

打开网易新闻 查看更多图片

在这里,我们用星号表示,这种改进不一定可以通过有限的神经网络在实践中达到。更具表现力的耦合函数可以更强地减少损失。我们将在第4.6节中详细讨论这一点

如果我们回到有限的神经网络,可以实现什么损失改进?在下面的陈述中,我们表明等价于存在一个有限宽度的两层ReLU子网络,该子网络确定了在仿射耦合块fcpl中实现的参数:

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

当且仅当存在一个具有有限数量神经元的两个隐藏层的ReLU神经网络时,满足以下条件:

这表明事件可以互换使用。这种等价性来自于这样一个事实,即如果,那么我们总是可以构建一个两层ReLU神经网络,将条件标准差缩放得更接近于1,条件均值更接近于零。在附录C.1.2中的详细证明中,我们还利用了一个经典的回归通用逼近定理(Hornik,1991)。

最后,如果对于所有旋转矩阵Q,任意潜在分布p(z)的前两个条件矩已经被标准化:

那么该分布必须是标准正态分布:。这可以通过直接组合高斯识别结果(Eaton, 1986; Bryc, 1995)来获得。

这样就完成了定理4.4的证明概述,我们现在准备介绍我们的普适性结果,利用作为收敛度指标。

4.5. 仿射耦合流的普适性

为了构建我们的通用耦合流,我们采用了一个简单的迭代方案。我们从数据分布开始作为潜在分布的原始猜测:。然后,我们附加一个由旋转矩阵Q和耦合函数组成的单个仿射耦合块。我们优化新参数,以最大限度地减少损失,就像方程(17)中所述,并得到一个新的潜在估计

以下定理确保了我们迭代此过程使得潜在分布收敛到潜在空间中的标准正态分布p(z):

Theorem 4.6. Coupling-based normalizing flows with affine couplings are distributional universal approximator under the convergence metric ∆affineas given in Section 4.4.

定理4.6. 基于耦合的正规化流,在给定的收敛度量下是分布通用逼近器,如第4.4节所述。

证明思路很简单:收敛度量衡量添加另一个仿射耦合块可以减少损失L的程度,但是可以通过许多块的串联来减少的总损失是有限的。因此,后续层不能随意改进损失,它们的损失改进必须收敛于零。根据定理4.4,这个过程的不动点在潜在空间中具有标准正态分布。我们在附录C.2中给出了完整的证明。

图1展示了定理4.6如何构建耦合流以学习一个玩具分布的示例。尽管问题的拓扑结构复杂,仿射耦合流能够很好地学习分布。

打开网易新闻 查看更多图片

虽然我们的证明消除了以前工作中存在的虚假构造,但仍然有一些我们希望未来可以改进的性质:首先,构造没有利用深层块可以进行协调行动的事实,这可以通过端到端训练找到。其次,不清楚第4.4节中的收敛度量与实际使用的损失收敛(Equation (3)中给出的KL散度)之间的关系。我们猜测我们设置耦合流的方式也会在KL散度下收敛。反之亦然:我们在附录C.3中的推论C.3中表明,KL散度的收敛意味着在我们的新度量下的收敛。最后,我们的证明没有对所需的耦合块数量提供保证。我们希望我们的贡献为理解基于仿射耦合的正规化流铺平道路。

4.6. 表达耦合流的普适性

以上定理4.6表明,仿射耦合对于通用分布逼近是足够的。正如在第3节中提到的,已经提出了大量更具表现力的耦合函数,例如神经样条流spline(Durkan等人,2019b),它使用单调有理二次样条spline作为耦合函数。事实证明,通过正确选择参数,我们知道的所有耦合函数都可以精确地表示为仿射耦合,除了保体积的变体,详见附录A。例如,有理二次样条可以通过使用等距节进行参数化,其中,并且在每个节上固定导数为s。

因此,更具表现力的耦合函数的普适性立即可以从定理4.6中得出,就像Ishikawa等人(2022年)将他们的结果从仿射扩展到更具表现力的耦合一样:

Corollary 4.7. Coupling-based normalizing flows with coupling functions at least as expressive as affine couplings are distributional universal approximator under the convergence metric ∆affineas given in Section 4.4.

推论4.7. 基于耦合的正规化流,其中耦合函数至少与仿射耦合一样具有表现力,是在给定第4.4节中的收敛度量下的分布通用逼近器

我们对定理4.6的证明是通过逐层训练构建的,它展示了更具表现力的耦合函数如何使用相同数量的块优于仿射函数。类似于仿射耦合的损失改进方程(18)中的损失改进,让我们计算任意灵活耦合函数的最大可能损失改进:

打开网易新闻 查看更多图片

在这里,期望值再次是针对被动坐标。

在这里,额外的损失改进是条件负熵,它衡量了每个主动维度与具有相匹配均值和方差的高斯分布的偏差。

由于仿射耦合函数对J(p)中KL两侧的对称影响(Draxler等人,2022,引理1),它不会影响此项。然而,如果条件分布p(ai|b)显著非高斯,更具表现力的耦合块则可以利用这个损失分量,见图3中的示例。

打开网易新闻 查看更多图片

这种增益的影响可能因数据集而异。例如,在图像中,一个像素的一个颜色通道在整个图像中其他颜色通道的条件分布通常显示出简单的单峰模式,负熵较低。这是在图像中分离被动和主动维度的成功场景(Kingma&Dhariwal,2018)。我们在附录D中对方程(27)及其后续论证给出了额外的技术细节。

5. 结论

我们的新的普适性证明展示了不同耦合块的普适性的有趣层次结构:

1. 保体积正规化流,即具有恒定体积变化的流,如基于耦合的NICE和GIN(Dinh等人,2015;Sorrenson等人,2019),在KL散度下不是普适的,这意味着它们可以表示的分布存在根本限制。

2. 仿射耦合流,如RealNVP(Dinh等人,2017),尽管其看似限制性的架构,但是在分布上是普适逼近器。

3. 具有更具表现力耦合函数的耦合流也是普适逼近器,但通过利用逐层训练中的额外损失分量而收敛更快。

我们的工作在理论上证明了为什么耦合块是实践中使用正规化流的标准选择,结合它们易于实现以及在训练和推断中的速度。我们消除了先前证明中存在的虚假构造,并使用了一个简单的原则:逐层构建流直到无法再实现更多的损失改进。

使用保体积流可能对现有工作产生负面影响。通过选择或学习更灵活的潜在分布,可以部分地解决这个缺点。

打开网易新闻 查看更多图片

在这里,我们重申了我们主要证明所依据的文献结果

打开网易新闻 查看更多图片

E. Experimental details

We base our code on PyTorch (Paszke et al., 2019), Numpy (Harris et al., 2020), Matplotlib (Hunter, 2007) for plotting and Pandas (Wes McKinney, 2010; The pandas development team, 2020) for data evaluation.

We provide our code at https://github.com/vislearn/Coupling-Universality. Sequentially running all experiments takes less than two hours on a desktop computer with a GTX 2080 GPU.