batch normalization

在DNN里，我们定义的每一层的线性变化 $Z^{[l]}=W^{[l]}\times input+b^{(l)}$ ，其中 $l$ 代表层数，非线性变换 $A^{[l]}=g^{[l]}(Z^{[l]})$ 为第 $l$ 层的激活函数。随着梯度下降的进行，每一层的参数 $W^{[l]}$ 和 $b^{[l]}$ 都会被更新，那么 $Z^{[l]}$ 的分布也就发生了改变，进而 $A^{[l]}$ 也同样出现分布的改变。而 $A^{[l]}$ 作为第 $l+1$ 层的输入，意味着 $l+1$ 层就需要去不停适应这种数据分布的变化，这一过程就被叫做Internal Covariate Shift。带来问题是（1）上层网络需要不停调整来适应输入数据分布的变化，导致网络学习速度的降低；（2）网络的训练过程容易陷入梯度饱和区，减缓网络收敛速度。

ICS产生的原因是由于参数更新带来的网络中每一层输入值分布的改变，并且随着网络层数的加深而变得更加严重，因此我们可以通过固定每一层网络输入值的分布来对减缓ICS问题。
（1）白化（Whitening）
白化（Whitening）是机器学习里面常用的一种规范化数据分布的方法，主要是PCA白化与ZCA白化。白化是对输入数据分布进行变换，进而达到以下两个目的：使得输入特征分布具有相同的均值与方差。其中PCA白化保证了所有特征分布均值为0，方差为1；而ZCA白化则保证了所有特征分布均值为0，方差相同；去除特征之间的相关性。通过白化操作，我们可以减缓ICS的问题，进而固定了每一层网络输入分布，加速网络训练过程的收敛。
（2）Batch Normalization提出
既然白化可以解决这个问题，为什么我们还要提出别的解决办法？当然是现有的方法具有一定的缺陷，白化主要有以下两个问题：白化过程计算成本太高，并且在每一轮训练中的每一层我们都需要做如此高成本计算的白化操作；白化过程由于改变了网络每一层的分布，因而改变了网络层中本身数据的表达能力。底层网络学习到的参数信息会被白化操作丢失掉。既然有了上面两个问题，那我们的解决思路就很简单，一方面，我们提出的normalization方法要能够简化计算过程；另一方面又需要经过规范化处理后让数据尽可能保留原始的表达能力。于是就有了简化+改进版的白化——Batch Normalization。

第一点，对每个特征进行独立的normalization。我们考虑一个batch的训练，传入m个训练样本，并关注网络中的某一层，忽略上标 $l$ 。关注当前层的第 $j$ 个维度，也就是第 $j$ 个神经元结点，对当前维度进行规范化：

BN_归一化.jpg

通过上面的变换，我们解决了第一个问题，即用更加简化的方式来对数据进行规范化，使得第 $l$ 层的输入每个特征的分布均值为0，方差为1。Normalization操作我们虽然缓解了ICS问题，让每一层网络的输入数据分布都变得稳定，但却导致了数据表达能力的缺失。也就是我们通过变换操作改变了原有数据的信息表达（representation ability of the network），使得底层网络学习到的参数信息丢失。另一方面，通过让每一层的输入分布均值为0，方差为1，会使得输入在经过sigmoid或tanh激活函数时，容易陷入非线性激活函数的线性区域。因此，BN又引入了两个可学习（learnable）的参数 $\gamma$ 和 $\beta$ 。这两个参数的引入是为了恢复数据本身的表达能力，对规范化后的数据进行线性变换，即 $、tilde{Z}_j=\gamma_{j}\haxt{Z}_{j}+\beta_j$ 。特别地，当 $\gamma^2=\sigma^2,\beta=\mu$ 时，可以实现等价变换（identity transform）并且保留了原始输入特征的分布信息。通过上面的步骤，我们就在一定程度上保证了输入数据的表达能力。

batch normalization.jpg

利用BN训练好模型后，我们保留了每组mini-batch训练数据在网络中每一层的 $\mu_{batch}$ 和 $\sigma^2_{batch}$ 。此时我们使用”整个样本的统计量“来对Test数据进行归一化，具体来说使用均值与方差的无偏估计；得到每个特征的均值与方差的无偏估计后，我们对test数据采用同样的normalization方法：

BN_test.jpg

参考文献：
https://zhuanlan.zhihu.com/p/34879333

batch normalization

友情链接更多精彩内容