3.对抗网络
当模型都是多层感知机时,多抗网络得到最直接的应用,未来在数据 x 上学习生成器的分布pg,我们的输入噪声变量pz(Z)上进行先验,然后将数据空间的映射表示为G(z;θg),其中的G表示为多层感知机的可微函数,我们又定义了一个多层感知机D(x;θd),它输出的是单个的标量。D(x)表示的x来自于数据而不是pg的概率。我们训练D以最大化为训练样本,将其和来自G的样本分配正确标签的概率,我们同时对G进行训练,把这个式子做最小化处理。
在另一个角度上,D和G扮演了MiniMax游戏中两个玩家的角色,其价值函数为V(G,D),表示如下:
在下一节中,我们提出了对抗网络的理论分析,基本上,训练标准允许人们完全恢复数据的分布情况,因为D和G都被给予了足够的容量,在非参数下限制下,这个方法不怎么严谨,只起到教学上的作用。可以看一下Fig.1。在实际应用时,我们必须使用迭代的数值方法来实现,在计算中,训练内循环中一直优化D是不允许的,并且,在有限的数据集上,这会导致过拟合,相反,我们在优化D的k步和优化G的一步之间交替,只要G的变化足够缓慢,D就能够保持在最优解附近。这种策略类似于SML/PCD[31,29],将马尔可夫链中的样本从一个学习步骤维持到下一个学习步骤,避免了马尔可夫链作为内循环的一部分。这一过程也在算法1中呈现出来。
生成对抗网络通过同时判别分布(,蓝色,虚线)进行训练,区分来自数据生成分布(黑色,虚线)的样本和生成分布的样本(绿色,实线),下面的水平线是从中采样的域,在这种情况下,分布是均匀的。上方的水平线则表示的域的一部分。向上的箭头表示映射如何在变换样本上增加非均匀的分布,在高密度区域会收缩,在低密度区域会增长。其中(a)考虑了收敛附近的对抗对,其中对类似于,则是部分精确的分类器,(b)在算法的内循环中训练,用以区分样本和数据,收敛到, (c)则是在更新了之后的梯度引导流向更有可能的区域并被归类为数据。(d)是经过几个步骤的训练之后,如果和还有足够的容量,它们将达到两个无法继续改善的点,因为鉴别器无法区分这两个分布,此时的 = 。
4.理论成果
生成器隐含地把概率分布定义为当~时获得的样本的分布。因此,如果给定足够的容量和训练时间,我们希望算法1能够收敛到的水平。这一部分的结果在非参数的设置中完成,举个例子说我们通过研究概率密度函数空间中的收敛情况来表示具有无限容量大模型。
我们将在4.1节中展示这个Minimax博弈游戏对于 是全局最优的解,而后,在4.2节和4.3节中,会展示算法1优化等式1,从而推导出所需要的结论。
算法1:小型的梯度下降训练,应用在判别器的步骤数是一个超参数,在我们的试验中,我们的 = 1,这是最经济的选择。
for number of training iterations do
for k steps do
· Sample minibatch of m noise sample { } from noise prior .
· Sample minibatch of m examples {} from data generating distribution
· Update the discriminator by ascending its stochastic gradient:
end for
· Sample minibatch of noise sample from noise prior
·Update t he generator by descending its stochastic gradient:
end for
The gradient-based updates can use any standard gradient-based rule.We used momentary in our experiments.
4.1的全局最优化
我们首先考虑了对于指定的生成器,找到一个最好的判别器。
命题1:对于给定的,应该这么算:
证明:对于给定的,鉴别器的训练标准就是把给最大化。
对于任何属于\ {} 的,函数达到最大值。这本判别器不需要在
鉴别符不需要在Supp(pdata)∪Supp(pg)之外定义,结束证明。
我们还注意到,的训练目标可以解释为最大似然估计条件概率,其中的是来自于(此时)或是(此时)。Minimax博弈游戏现在可以这样表示:
定理1:当且仅当时,取得全局最小值,此时值为。
证明2:对于,,(考虑到式2),因此,在,使用公式4,我们发现此时,另外,这是最佳可能的值,仅面对时,观察:从中减去该式,就可以得到:KL(Kullback-Leibler)散度,在最前面的表示式中认识到Jensen模型分布和数据生成过程之间有香农差(Shannon divergence):由于两个分布之间的Jensen-Shannon差总是非负数,只有在相等时才为零,我们证明了是的全局最小值,只有分解在上时,生成模式完美复制了演化过程。
4.2算法1的收敛性
命题2:如果和都有足够的容量,在算法1中每一步都把鉴别器达到给定的最佳状态,并更新以改进标准:然后,就收敛到了处。
证明:考虑到在上述标准中作为一个的函数出现,并注意到在处是凸的。凸函数上限还包括了函数在达到最大值点处的导数,换而言之,对于每个,如果和在处是凸的,那么当,则。这就相当于在最佳处计算的梯度下降更新,给定相应的,在{p_g}处是凸的,并具有在理论1中所证明的唯一全局最优解,因此,更新足够小,而收敛于,证明完毕。
在实验中,对抗性网络通过函数表示为有限的分布,我们优化了而不是其本身,使用多层感知机把定义在参数空间中,引入了多个关键节点,然而,多层感知机在实验中表现出了优异的性能,这多少能表明它们的合理性(尽管在理论上不太妥贴)。