On the regularization of wasserstein GANs

摘要

自从他们的发明以来，生成对抗网络（GAN）已经成为一种流行的方法，用于学习对真实（未标记）数据的分布进行建模。Wasserstein GAN克服了训练过程中的收敛性问题，该问题以不同的度量标准使模型和经验分布之间的距离最小化，从而将Lipschitz约束引入到优化问题中。可以通过神经网络建模的对函数类实施Lipschitz约束的一种简单方法是权重裁剪。作为改进培训的替代方案，提出了一种通过修正正则项来增加损失的方法，这种正则化项可惩罚批评者的梯度范数（作为网络输入的函数）偏离一个正则项。我们提出理论上的论点，为什么使用弱的正则化项来加强Lipschitz约束是可取的。这些论据得到几个数据集上的实验结果的支持。

介绍

通用对抗网络（GAN）是一类生成模型，最近引起了很多关注。它们基于在两个竞争性神经网络（NNs）之间进行博弈的想法：生成器和分类器（或区分器）。虽然分类器旨在区分生成的数据与实际数据，但生成器尝试生成分类器无法将其与经验分布中的样本区分开的样本。意识到这种生成模型新方法背后的潜力，最近的贡献集中在稳定训练上，包括集成方法，改进的网络结构和理论上的改进，这有助于使用GAN成功地对复杂分布进行建模。它是由Arjovsky等人提出的。通过最小化Wasserstein-1距离来训练生成器和判别器网络，该距离在收敛性方面优于Jensen-Shannon距离（在原始GAN中使用）。因此，此版本的GAN被称为Wasserstein GAN（WGAN）。度量的更改引入了一个新的最小化问题，该问题要求鉴别函数位于1-Lipschitz函数的空间内。在同一篇文章中，通过执行权重裁剪（即通过将鉴别器NN的参数限制为小于给定值的大小）来保证Lipschitz约束。 Gulrajani等人提出了一种改进的训练策略。基于最佳运输理论的结果。在这里，代替权重缩减，损失会增加一个正则项，该正则项会惩罚评论函数（相对于其输入）的梯度范数相对于一个的偏离。
我们回顾了这些结果，并提出了理论上的考虑和经验性的结果，从而提出了对WGAN减少限制的正则化术语的建议。更确切地说，我们的贡献如下：

我们回顾了Gulrajani等人提出的正则化技术的论点。基于以下两个观点：（i）正则化策略要求训练样本和生成的样本要从某个联合分布中提取。但是，实际上，样本是独立于其边际抽取的。（ii）论点进一步假设鉴别器是可区分的。我们解释了为什么两者都可能对训练有害。
我们提出了一个限制性较小的正则化术语，并给出了经验结果，有力地支持了我们的理论考虑。

最优运输

我们将需要两个概率分布耦合的概念。尽管可以更一般地定义耦合，但我们在我们感兴趣的环境中陈述该定义，即，我们认为所涉及的所有空间都等于 $\mathbb{R}^n$ 。

定义1

令µ和ν为 $\mathbb{R}^n$ 上的两个概率分布。 µ和ν的耦合π是 $\mathbb{R}^n×\mathbb{R}^n$ 上的概率分布，使得对于所有可测集合 $A⊆\mathbb{R}_n，π（A, \mathbb{R}^n）= µ（A）和π（\mathbb{R}^n, A）=ν（A）$ 。 µ和ν的所有耦合的集合由Π（µ,ν）表示。
以下定理在最佳运输理论（OT）中起着核心作用，被称为坎托罗维奇对偶。请注意，提出的定理是一个较不普遍的定理，但根据我们的需要，改编了Villani（2008）2的定理5.10。我们将用 $\mathcal{Lip}_1$ 表示所有1-Lipschitz函数的集合，即所有函数f的集合，使得对于x,y来说， $f（y）-f（x）≤\Vert x-y \Vert_2$ 。

定理1（Kantorovich）

设μ和ν是 $\mathbb{R}^n$ 上的两个概率分布，使得 $\int_{\mathbb{R}^n}\Vert x\Vert_2d\mu(x)<\infty$ 和 $\int_{\mathbb{R}^n}\Vert x \Vert_2d\mathcal{v}(x)<\infty$ 。然后
$\underset{\pi \in \Pi(\mu,\mathcal{v})}{min}\int_{\mathbb{R}_n*\mathbb{R}_n}\Vert x-y\Vert_2\mathcal{d}\pi(x,y) = \underset{f \in \mathcal{Lip}_1}{max}(\int_{\mathbb{R}_n}\mathcal{d}\mu(x)-\int_{\mathbb{R}_n}f(x)\mathcal{dv}(x)) \tag 1$
特别地，最小值和最大值均存在。

以下两个语句是等效的：

（a）π∗是最优耦合（将（1）左侧的值最小化）。
（b）任何最优函数 $f^*\in\mathcal{Lip}_1$ （在（1）的右手边达到最大值）满足所有（x; y）在π∗的支持下： $f^*(x)-f^*(y)=\Vert x-y\Vert_2$ 。
OT领域提供了几种计算最佳耦合的方法。为了加快最佳耦合的计算速度，Cuturi通过添加熵项E(π)引入了导致 $\int_{\mathbb{R}_n*\mathbb{R}_n}\Vert x-y\Vert_2\mathcal{d}\pi(x,y)+\in E(\pi)$ 最小化的原始问题,通过正则化参数 $\in$ 。Dessein等人将正规化的OT归纳为更一般的一类正则化术语Ω（π）。我们在本文中提出的学习算法与使用 $\Omega(\pi)=\int(\dfrac{\mathcal{d}\pi(x,y)}{\mathcal{d\mu}(x)\mathcal{dv}(y)})^2\mathcal{d\mu}(x)\mathcal{dv}(y)$ 的方法有关。这导致由:
$\underset{f,g}{sup}\{\mathbb{E}_{x\sim \mu}[f(x)]-\mathbb{E}_{y\sim v}[g(y)]-\dfrac{4}{\in}\int\int max\{0,(f(x)-g(y)-\Vert x-y\Vert_2)\}^2d\mu(x)d\mathcal{v}(y)\} \tag 2$

Wasserstein GANs

形式上，给定经验分布µ，在某个空间X上的一类生成分布 $\mathcal{ν}$ ，以及一类判别器 $d：\mathcal{X} \rightarrow [0; 1]$ ，GAN训练旨在优化由 $min_{\mathcal{v}}max_\mathcal{D}\mathbb{E}_{x \sim \mu}[log(d(x))]+\mathbb{E}_{y\sim \mathcal{v}}[log(1-d(y))]$ 产生的问题。实际上，基于随机梯度下降的（几个步骤）以交替的方式更新生成器和鉴别器网络的参数。因此，鉴别器尝试将接近零的值分配给生成的数据点，并将接近一的值分配给实际数据点。作为对立代理，生成器旨在在区分符希望看到真实数据的地方生成数据。Goodfellow等人的定理1表明，如果在每次迭代中找到最优鉴别器，则生成器的损失函数的最小化将导致Jensen-Shannon（JS）散度的最小化。 Arjovsky等人建议使用最小化Wasserstein-1距离（也称为地球移动器（EM）距离）来代替JS距离，该距离是针对任何波兰空间（M，c）和M上的概率分布µ和ν定义的，公式为：
$W(\mu,\mathcal{v})=\underset{\pi \in\Pi(\mu,\mathcal{v})}{inf}\int_{M*M}c(x,y)d\pi(x,y) \tag 3$
从坎托罗维奇对偶性，可以得出，在我们正在考虑的特殊情况下，获得了极小值，并且也可以将Wasserstein1距离计算为：
$W(\mu,\mathcal{v}) = \underset{f\in \mathcal{Lip_1}}{max}\mathbb{E}_{x\sim \mu}[f(x)]-\mathbb{E}_{y\sim \mathcal{v}}[f(y)] \tag 4$
其中，最大值取自所有1-Lipschitz函数 $\mathcal{Lip_1}$ 的集合。
因此，WGAN的目标是解决:
$\underset{\mathcal{v}}{min}\underset{f\in \mathcal{Lip_1}}{max}\mathbb{E}_{x\sim \mu}[f(x)]-\mathbb{E}_{y\sim\mathcal{v}}[f(y)] \tag 5$
就像原始GAN一样，这可以通过对生成网络ν和1-Lipschitz函数f（也由NN建模）交替进行梯度下降更新来实现。生成器的目的仍然是生成看起来真实的数据点，并且由充当评估者（或评论家）角色的f的函数值主导。评估者的目标是为每个数据点分配一个置信度值，该值在生成的数据点上尽可能低，而在真实数据上则尽可能高。它可以分配的置信度值受相似性约束的限制，其中相似性是通过数据点的距离来衡量的。这可以由这样的想法激发，即相似的点应该具有相似的置信度值才是真实的。评论者的新角色有助于解决收敛性问题，但是将绝对值解释为实数（接近1）和伪数据（接近0）的情况就丢失了。

改进的GANs

训练通过NN对WGAN评论家函数进行建模提出了一个问题，即如何对公式（5）中的目标执行1-Lipschitz约束。正如Arjovsky等人提出的将可以由NN建模的函数类别f限制为α-Lipschitz连续函数（对于某些α）的简单方法是执行权重裁剪，即强制网络参数不超过特定绝对值 $c_{max}> 0$ 。正如作者指出的那样，这不是一个好选择，而是简单的选择。我们通过证明（对于标准NN体系结构）在附录B中进一步证明这一点，即使用权重裁剪，最佳功能通常不包含在网络建模的功能类别中。
最近，Gulrajani等人提出了一种权重裁剪方法。基本思想是用一个正规化术语来增加WGAN损失，该术语会惩罚批评者的梯度范数相对于其输入的偏离（导致变种称为WGAN-GP，其中GP代表梯度罚分。）更准确地说，批评者的损失应由下式给出：
$\mathbb{E}_{x \sim \mu}[f(x)]-\mathbb{E}_{y\sim\mathcal{v}}[f(y)]+\lambda\mathbb{E}_{\hat{x}\sim \tau}[(\Vert \nabla f(\hat{x})\Vert_2-1)^2] \tag 6$
其中τ是t〜U [0，1]的 $\hat{x} = tx +（1- t）y$ 的分布，x〜µ,y〜ν分别是实数样本和生成的样本。根据以下结果得出正则项。

命题1

令μ和ν是 $\mathbb{R}_n$ 上的两个概率分布。令 $f^∗$ 为视觉评论家，得出最大化 $max_{f∈\mathcal{Lip}_1}\int_{\mathcal{R}_n} f（x）dµ（x）-\int_{\mathcal{R}_n} f（x）dν（x）$ ，设 $π^∗$ 为相对于 $min_{π∈\Pi（μ，ν）}\int _{\mathbb{R}_n×\mathbb{R}_n} || x-y ||_2dπ（x，y）$ 的最佳耦合。如果 $f^∗$ 是可微的，并且对于0≤t≤1， $x_t = tx +（1-t）y$ ，则认为 $\mathbb{P}_{（x，y）〜π^∗} [（∇f^∗（x_t）= \dfrac{y−x_t}{|| y− x_t ||}）] = 1$ 。这尤其意味着，在这些点 $x_t$ 上，梯度的范数几乎是一个π*-。
注意，仅当 $f^∗$ 可微且从最佳耦合 $π^∗$ 采样x和y时，命题1成立。但是，独立于边际分布μ和ν进行采样很有可能导致点（x，y）超出 $π^∗$ 的支持范围。此外，最优成本函数 $f^∗$ 不必在任何地方都是可微的。在以下小节中将更详细地讨论这两点。

从边际抽样代替最优耦合

观察1

假设 $f ∗∈\mathcal{Lip}_1$ 是最优评论函数，而 $π^∗$ 是由定理1中的Kantorovich对偶性确定的最优耦合。然后 $| f^∗（y）-f^∗（x_t）| = || x_t-y ||_2$ 在 $x_t = tx +（1-t）y$ 上，对于从π∗采样的（x，y），0≤t≤1，但不一定在连接任意对的线上实点和生成的数据点的乘积，即任意x〜µ和y〜ν。
考虑图1中的示例，其中每个X代表生成器的样本，每个O代表真实数据样本。最佳耦合 $π^∗$ 用红色表示，最佳评论家函数的值用蓝色表示（最优性在附录A.1中显示）。

Figure 1

一维（左）和二维（右）示例，显示

f^∗（O）-f^∗（X）= | O-X |

仅适用于耦合对

（X，O）〜π^∗

。
在左侧的一维示例中，最左边的X和最右边的O满足

f^∗（O）-f^∗（X）= \dfrac{1}{ 7} | O-X | \neq | O-X |

，说明了条件推导的基础，即梯度范数等于生成和真实之间的一点，仅适用于从最佳耦合采样的点。请注意，虽然这里的梯度几乎在所有地方仍是范数1，但这并不一定适用于更高的维度，因为并不是所有的点都位于从π采样的一对点之间的直线上。这在图1右侧的二维中得到了示例，其中带有

a∈R

的蓝色数字表示这些点上的最佳批判函数的值（这些点上的值很重要）。在不失一般性的前提下，我们可以假设位置（1、2）处的值为零，同时考虑到最佳批评函数在添加任意常数后仍保持最佳状态。由于必须满足f ∗的Lipschitz约束，所以我们得到1 − a≤√2和a + 1≤√2。因此a∈[1 −√2，√2 -1]和Lipschitz约束的不等式之一必须严格。

评论家的差异性

观察2

最佳批评家的差异性假设在兴趣点上是无效的。
考虑两个离散概率分布的示例及其最佳判别函数 $f^∗$ ，如图2左侧所示。我们可以看到指示函数 $f^∗（x）= 1-| x |∈\mathcal{Lip_1}$ 是最优的，因为它导致Kantorovich对偶方程的等式。（也是唯一的连续函数，直到一个常数，它对于耦合点（x，y）实现 $f^∗（x）− f^∗（y）= | y − x |.$ ）但是，它在0点处不可微。
通过将这些点视为高斯的中心点，可以使反例成为连续的，如图2右侧所示。这由以下命题形式化，表明蓝色的批评者对于实测的灰色高斯确实是最优的。数据和两个生成数据的高斯的绿色混合。

Figure 2

不可微分的最佳判别函数 $f^∗$ （以蓝色显示）。左：对于两个离散分布：圆形和十字分别属于经验分布和生成模型的样本。近似微分函数以绿色显示。右图：对于两个连续分布：经验分布µ用灰色显示，生成分布ν用绿色显示。

命题2

令µ = N（0，1）是以零为中心的正态分布，而 $ν=ν_{-1}+ν_1$ 是两个正态分布 $ν_{-1}= \dfrac{1}{2}\mathcal{N}(-1,1)$ 和 $ν_1= \dfrac{1}{2}\mathcal{N}(1,1)$ (在实线上)。如果µ描述实际数据的分布，而ν描述生成模型的分布，则最优注释函数由 $φ^∗（x）=-| x |$ 给出。
基于最佳耦合通常不确定的观察结果，具有不可微性的问题可以推广到高维空间。从某种意义上说，确定性耦合特别好，因为它们允许运输计划将一个分布中的每个点x确定性地分配给另一分布的点y，而不必拆分任何质量（对确定性最佳耦合的搜索称为Monge问题）。但是，在许多设置中不存在确定性耦合。确定性耦合的概念在以下定义中形式化。

定义2

令（X，µ）和（Y，ν）为两个概率空间。如果存在可测量的函数ρ：X→Y使得 $supp(\pi)\subseteq\{(x,\rho(x))\}\vert x\in X$ ，则称 $\pi \in \Pi(\mu,\mathcal{v})$ 为确定性耦合。
我们现在可以制定以下观察结果。

观察3

假设 $π^∗$ 是 $\mathbb{R}_n$ 上两个概率分布之间的不确定性最佳耦合，因此 $supp（π^∗）$ 中存在点（x，y）和（x，y'）。进一步假设在（y − x）=λ·（y' − x）的情况下不存在λ> 0（特别是这意味着 $y \neq y'$ ）。那么，任何最佳判断函数 $f^∗$ 在x处都是不可微的。
在实践中，通过NN逼近最佳评论者，情况略有不同：NN建模的函数在几乎所有地方都是可区分的（取决于激活函数）。通过Stone-Weierstrass定理，在紧集上，我们可以用可微分函数均匀地逼近任何（Lipschitz-）连续函数。然而，在非可微性附近具有范数的梯度似乎是对逼近函数的强大约束（请参见图2（a））。因此，我们与古拉詹尼（Gulrajani）等人的论证相反。我们认为不应将任意实点x与生成点y之间的线上的任意点的梯度假定为等于1。

如何调整WGANS

在下面，我们将讨论如何改善WGAN的正则化

惩罚违反Lipschitz约束的行为。

对于批评家功能，我们手头只有Lipschitz约束的不等式。此外（如附录中引理1所示），通过最大化目标函数，Lipschitz常数的耗尽是自动的。因此，正则化的自然选择是直接对给定的约束进行惩罚，即分别从经验分布和生成的分布中采样两个点x〜µ和y〜ν并在成本函数中添加正则项：
$(max\{0, \dfrac{\vert f(x)-f(y)\vert}{\Vert x-y\Vert_2}\})^2 \tag 7$
我们平方惩罚偏差比较大的而不是小的。请注意，正则化项与平方的Hinge损失相似，在与支持向量机相关的优化问题中，该条件也可用于将硬约束变成软约束。
或者，由于NN生成了（几乎到处都是）可微函数，因此只要梯度范数确实大于一，我们就可以进行惩罚，这种选择称为“单边惩罚”，不久之后将被讨论为对Gulrajani惩罚任何偏离一个偏差的替代方法等。请注意，将梯度强制小于范数具有一个优势，即当偏导数的范数> 1时，我们在最陡下降方向上会受到惩罚。因此，所有偏导数也被隐式地强制以一个范数为界。同时，即使在不可微的点上，对平滑逼近函数的梯度强制≤1也不是不合理的约束。由于这些原因，我们建议添加正则项 $max {0，||∇f（\hat{x}）|| − 1}^2$ 表示成本函数。在附录D.4中分析了采样点 $\hat{x}$ 的不同方法。因此，我们提出的方法（WGAN-LP，其中LP代表Lipschitz罚分）在更新鉴别符以最小化
$\mathbb{E}_{y\sim v}[f(y)]-\mathbb{E}_{x-\mu}[f(x)]+\lambda\mathbb{E}_{\hat{x}\sim\tau}[(max\{0,\Vert \nabla f(\hat{x})\Vert-1\})^2] \tag 8$
（其中τ取决于所选择的具体采样策略），并使用梯度下降更新鉴别器网络建模ν以最小化 $-E_{y〜ν}[f（y）]$ 。

与规范化最佳运输的联系。考虑正则化OT的公式（2）。

对于硬约束 $f（x）-g（y）≤|| x-y ||_2$ ，可以达到 $\mathbb{E}_{x〜µ} [f（x（x）]-\mathbb{E}_{y〜ν}[g（y）]-0$ 通过设置 $f（x）= inf_y g（y）+ || x-y ||_2 = g（x）$ ，随后仅使一个函数最大化。利用处理单个函数作为动量的优势，可以类似地替换方程2中的f = g，该方程使用软约束（即使现在只能近似于最大值）。这导致了最小化的目标：
$\mathbb{E}_{y\sim v}[f(y)]-\mathbb{E}_{x\sim\mu}[f(x)]=\dfrac{4}{\in}\int\int max\{0,(f(x)-f(y)-\Vert x-y\Vert_2)\}^2d\mu(x)dv(y) \tag 9$
类似于方程式（7），每当 $f（x）-f（y）> || x-y ||_2$ 时，对真实样本x和生成样本y进行轻度惩罚。值得注意的是，要证明替换f = g的合理性，将需要对偶问题的高正则化参数 $λ= \dfrac{4}{\in}$ 对应于原始问题的低正则化。

依赖于正则化超参数λ

令 $L_{GP}^{λ}$ 和 $L_{LP}^{λ}$ 分别表示方程（6）（WGAN-GP）和方程（8）（WGAN-LP）在一类（可微分）批评函数f上的正则化损失的最小值。为了比较这些最佳损耗，我们得到以下结果（附录C.4中的证明）

命题3

$\mathcal{L}_\lambda^{LP}\leq\mathcal{L}_\lambda^{GP}\leq\mathcal{L}_\lambda^{LP}+\lambda$
特别地，对于小λ，最佳分数近似一致。另一方面，增加λ会增强软约束，这意味着第4节中的理论观察与λ的增加更加相关。我们的实验准确地表明了WGAN-LP和WGAN-GP在较小的λ上的性能非常相似，而WGAN-LP在较大的λ值下的性能要好得多，并且其性能对超参数λ的选择依赖性较小。

更一般的看法

坎托罗维奇对偶定理在一个相当笼统的情况下成立。例如，可以用其他度量代替欧几里德距离 $||·||_2$ 。例如，对于不同的自然数p取 $||·||_2^p$ ，将使p阶Wasserstein距离（即Wasserstein-p距离）最小化。基于对p阶Wasserstein距离的计算的对偶问题（由Kantorovich对偶定理给出），我们仍然需要最大化方程（5），唯一的区别是现在相对于1-Lipschitz-continuity进行测量。$|·||_2^p。对于我们的训练方法，这需要进行的唯一修改是使用由（7）给出的正则化项，其中欧几里德距离被感兴趣的度量代替。
最近，由Bellemare等人撰写的Wasserstein距离被能量距离代替。对于Cramer GAN的训练，作者应用了Gulrajani等人提出的GP惩罚条款。我们希望使用LP惩罚术语对Cramer GAN也有利。

实验

我们对三个玩具数据集8Gaussians，25Gaussians和Swiss Roll 6进行了几个实验，以比较不同正则化项的影响。更具体地说，我们分别比较方程（6）和（8）中描述的WGAN-GP和WGAN-LP的性能，其中对训练样本x和生成的样本y之间的线上随机采样的点进行惩罚。
生成器网络和判别器网络都是具有三个隐藏的Leaky ReLU层（每个包含512个神经元）和一个线性输出层的简单前馈NN。生成器网络的潜在变量的维数设置为2。在训练过程中，除了前25个生成器更新外，每个生成器更新都会执行10个判别器更新，前25个生成器更新时会在每个生成器更新前将判别器更新100次，以便在训练开始时更接近最佳判别器。这两个网络均使用RMSprop进行了训练，学习率为 $5·10^{-5}$ ，批处理大小为256。

评论家的水平集

评估二维数据集的学习批评者功能的一种定性方法是显示其级别集，就像Gulrajani等人所做的那样。图3显示了在Swiss Roll数据集上经过GP和LP罚分训练的WGAN经过10、50、100和1000次训练迭代后的水平集，有关8Gaussian和25Gaussian数据集的类似实验结果可参见附录D.1。
显然，惩罚权重为λ= 10，这对应于Gulrajani等人提出的超参数值。WGAN-GP既没有学习到良好的判别功能，也没有学习到良好的数据生成分布模型。使用较小的正则化参数λ= 1，可以稳定学习。但是，使用LP-penalty，即使仅在几次迭代中具有较高的罚分权重，也可以学会一个很好的批评家，并且级别集显示出更高的规则性。训练具有较低罚分权重的WGAN-LP会得到相同的观察结果（结果未显示）。我们还对λ进行了更高的实验，得出与λ= 10几乎相同的结果，这强调了基于LP罚分的训练对λ的选择较不敏感。

Figure3

经过10、50、100、500和1000次迭代后，WGAN的评论者f的级别集。黄色对应于f的高值，紫色对应于f的低值。训练样本以红色表示，生成的样本以蓝色表示。上图：λ= 10的GP罚分。中图：λ= 1的GP罚分。下图：λ= 10的LP罚分。

评论家损失的演变

为了公平地比较采用不同正则化项的方法，我们在整个训练过程中都显示了批评者损失函数的值，而没有正则化项。 WGAN-GP和WGAN-LP的结果如图4所示。
GP-penalty和λ= 5对评论器的优化非常不稳定：损失在0附近剧烈振荡。当我们使用LP-penalty时，评论器的损失平稳地减少到零，当生成分布v稳定地收敛到真实分布μ时，这就是我们所期望的。还应注意，由于良好的判别功能将较高的值分配给实际数据点x〜µ，将较低的值分配给生成的点y〜ν，因此，我们可以预期批评者损失的负值会稍为正。这正是我们使用LP-penalty时观察到的结果。有趣的是，当将LP-penalty与非常高的罚分权重结合使用时（例如λ= 100），我们获得了相同的结果，表明对于λ=总是满足约束条件。另一方面，将λ= 1与GP-penalty结合使用可使训练稳定，但仍会导致训练开始时出现波动（结果显示在附录D.2中）。

Figure4

WGAN评论家损失（不带正则化项）的负值在λ= 5时的演变。20个运行中的平均结果（蓝色区域表示分位数，绿色点表示离群值）。左：对于GP处罚。右：对于LP处罚。

估计Wasserstein距离

为了估算训练期间真实分布和生成分布之间的实际Wasserstein距离如何演变，我们使用Kuhn-Munkres算法（基于真实分布和生成分布的样本集之间的欧式距离来计算最小分配成本）。我们使用大小为500的样本集来维持合理的计算时间，并在500次迭代过程中每10次迭代估算一次距离。对于不同的随机种子，将所有实验重复10次。根据图5中λ= 5的WGAN-GP和WGAN-LP的结果，我们得出结论，建议的LP罚分导致估计的Wasserstein距离更小并且训练期间的波动较小。
当使用正则化参数λ= 1训练WGAN-GP时，训练也会稳定，这表明使用GP-penalty的效果高度取决于正确选择的λ。

Figure5

WGAN训练期间近似Wasserstein-1距离的演变（λ= 5，10次运行的中值结果）。左：对于GP-penalty。右：对于LP-penalty。

CIFAR-10上的样品质量

我们使用与Gulrajani等人相同的ResNet生成器和鉴别器以及相同的超参数训练了WGAN。并在整个训练过程中计算了初始得分。表1中报告了在100000次训练迭代中具有不同正则化参数的最高得分。WGAN-LP的初始得分与WGAN-GP相似或稍好，但惩罚权重较小（λ≤10），而对于其他选择则更稳定超参数的鉴于最近的一项大规模研究尤其有趣，该研究还报告了WGAN-GP的样品质量对λ的强烈依赖性（参见Lucic等人的图8和9,2017）。如图6所示，可以通过监视正则化项的值来进行另一项有趣的观察，如图6所示，其中||∇f（ˆx）||对惩罚的贡献 > 1在上方显示，并且贡献||∇f（ˆx）|| <1（仅适用于WGAN-GP）显示在下半平面中。
虽然对于较大的λ，WGAN-LP的单侧正则化的值仅稍大（100比5），但WGAN-GP的正则化显示出对正则化参数选择的强烈依赖。对于λ= 5，小于1的梯度范数的惩罚贡献几乎消失了（我们发现，对于更小的正则化参数，这将变得更加严重）。也就是说，在WGAN-GP运行良好的环境中，它实际上的作用类似于WGAN-LP。

Table1

CIFAR-10的初始得分。报告的是训练期间达到的最大平均值。在10个图像集上计算平均值，括号中给出方差。

Figure6

在CIFAR上训练期间梯度惩罚的幅度比较，显示了<1和> 1即 $min（0，||∇f（\hat{x}）|| − 1）^2$ 和 $max（0，||∇f（ \hat{x}）|| − 1）^2$ 。左：用于正则化参数λ=5。右：用于正则化参数λ=100。WGAN-LP的（单侧）梯度损失用蓝色（实线）表示，WGAN-GP的梯度损失用红色（虚线）表示。。每次迭代（一个小批量）的所有值均以浅蓝色和红色显示。深蓝色和红色线条表示大小为500的滑动窗口上的平均值。该图表明，对于较小的正则化参数，WGAN-GP惩罚≤1梯度的梯度损失部分几乎消失了，使其接近WGAN-LP 。对于较大的正则化参数值，WGAN-GP及其贡献部分的总代价要大于WGAN-LP的代价，但是WGAN-GP的性能会受到更大的影响。

结论

为了稳定训练Wasserstein GAN，我们建议使用以下惩罚项来强制出现在目标函数中的Lipschitz约束： $E_{\hat{x}〜τ}[（max {0，||∇f（\hat{x}）|| − 1}）^2 ]$ 。我们提供了理论和经验证据，该梯度罚分比先前考虑的削波权重和应用由 $E_{\hat{x}〜τ}[（||∇f（\hat{x}）||_ 2-1 ）^2]$ 给出的更强的梯度罚分的方法更好。除了更稳定的学习行为外，提出的正则化项还导致对权重权重λ值的敏感性降低（在整个训练过程中，对于不同的λ值，证明了平滑的收敛和行为良好的评论家分数）。