Generative Adversarial Nets(2014NIPS)
原理理解了,具体数学上的定义都没看。。。被问蒙了。。。
学习不能不求甚解呜呜呜
仔细看一遍!!
Introduction
a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that a sample came from the training data rather than G.
In the case where G and D are defined by multilayer perceptrons, the entire system can be trained with backpropagation
In this case, we can train both models using only the highly successful backpropagation and dropout algorithms and sample from the generative model using only forward propagation
Adversarial nets
- data
,生成器分布
,定义先验
,其中
为input noise variables,到data space的映射为
,其中
为用多层感知机表示的可微函数。
- 定义
,为多层感知机,输出为a single scalar。
表示
是来自data而不是
的概率。
- 给
的输入分配标签,训练
最大化损失。 同时训练
最小化
损失函数:
其中表示
在
属于
分布下的期望
the training criterion allows one to recover the data generating distribution as G and D are given enough capacity, i.e., in the non-parametric limit
训练早期,G比较差的时候,D的输入非常容易辨别,因此的梯度值会很小,不利于G的训练。因此可以用
来代替。
Theoretical Results
G含蓄的将概率分布定义为当
~
时,样本
的分布,因此,我们希望算法1能够收敛于对
的较好的估计。
Algorithm 1
- Minibatch stochastic gradient descent
- 训练D的steps
为超参数,实验中设置为1(最简单情况)
- 梯度更新可以使用标准梯度下降,实验中使用的是带动量的梯度下降。
for number of training iterations do
for k steps do
选择m个
选择m个
更新判别器梯度:
end for
选择m个
更新生成器梯度
end for
1、
的全局最优性
G固定,D的最优解为
代回可得实际训练损失,最小为-log4(满足
时)
一般情况:
可以写成Jensen–Shannon divergence(JS散度):
两种分布间的JS散度通常是非负的,且当他们相等时散度为0.
2、算法1的收敛性
损失收敛于↑
收敛于
*自己写给自己看的博客
*文章内容不保证正确
*部分内容来源于网络,侵删
今天也是元气满满的一天哦~~
冲鸭~~QWQ