https://www.sohu.com/a/148103872_723464
https://www.cnblogs.com/jiangxinyang/p/9372678.html
https://www.jianshu.com/p/86530a0a3935
https://blog.csdn.net/u014314005/article/details/80583770
https://blog.csdn.net/malefactor/article/details/51476961/
论文:《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》https://arxiv.org/abs/1502.03167
归一化解决的问题:
神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另外一方面,一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度,这也正是为什么我们需要对数据都要做一个归一化预处理的原因。
我们把网络中间层在训练过程中,数据分布的改变称之为:“Internal Covariate Shift”。
Batch Normalization
第一步:通过一定的规范化手段(其实就是利用估计),把每层的输入值的分布强行拉回到N(0,1)的分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值大概率落在非线性函数对输入比较敏感的区域,这样输入的小变化就会导致损失函数较大的变化,避免梯度消失问题产生,而且学习收敛的速度更快,能大大加快训练速度。
,
,
第二步:仿射变换中的和都是可以学习的参数,不难发现如果取输入的,取输入的,Batch Normalization变换就回到了恒等变换。
-
PS: 为什么要γ 和 β?
有的人说是因为如果各隐藏层的输入均值在靠近0的区域即处于Sigmoid激活函数的线性区域(为了保持较大的梯度),这样不利于训练好的非线性神经网络,得到的模型效果也不会太好。γ 和 β的出现等价于非线性函数的值从正中心周围的线性区往非线性区动了动。核心思想应该是想找到一个线性和非线性的较好平衡点,既能享受非线性的较强表达能力的好处,又避免太靠非线性区两头使得网络收敛速度太慢。
这种解释是有问题的:
因为Relu是分段线性函数,但是仍可以轻松表达所有函数,拟合非线性函数的水平仍然很强。
理论上初始化为 γ=1 和 β=0 然后再训练中自适应为真实分布的u和σ。初期梯度较大训练速度快,
在训练过程中会计算很多批Mini-Batch的期望和方差,在之后的验证和测试的时候,我们将这些批次的Mini-Batch的期望和方差分别求平均值来作为此时的期望和方差。
总体均值E= , 总体方差V=
利用多个样本的值对总体进行评估。
,
工程实践:
非常不鼓励扔掉Dropout。
Batch Norm根本压不住大模型在训练后期的过拟合b值其实都不需要,因为BN层有β
注:为什么使用减均值、白化可以加快训练?
由于初始化的时候,我们的参数一般都是0均值的,因此开始的拟合y=Wx+b,基本过原点附近,如图b红色虚线。因此,网络需要经过多次学习才能逐步达到如紫色实线的拟合,即收敛的比较慢。如果我们对输入数据先作减均值操作,如图c,显然可以加快学习。更进一步的,我们对数据再进行去相关操作,使得数据更加容易区分,这样又会加快训练,如图d。
注:BN不适合RNN环境。
注:归一化不能在求的激活值之后进行,不然流到下一层参数的误差值会越来越小,从而影响模型的学习,也就是梯度弥散问题。
如果归一化参数不在梯度下降中计算的话,会使模型参数膨胀。