归一化/标准化 = 零均值化 + 方差归一化(白化)
结果使得数据均变成均值为0方差为1
机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而BatchNorm是干啥的呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。OK,BN讲完了,再见。
在深层神经网络中,中间某一层的输入是其之前的神经层的输出。因此,其之前的神经层的参数变化会导致其输入的分布发生较大的差异。在使用随机梯度下降来训练网络时,每次参数更新都会导致网络中间每一层的输入的分布发生改变。越深的层,其输入的分布会改变得越明显。就像一栋高楼,低楼层发生一个较小的偏移,都会导致高楼层较大的偏移。
解决梯度消失、梯度爆炸
我们知道激活函数和激活函数存在梯度饱和的区域,其原因是激活函数的输入值过大或者过小,其得到的激活函数的梯度值会非常接近于0,使得网络的收敛速度减慢。传统的方法是使用不存在梯度饱和区域的激活函数,例如等。BN也可以缓解梯度饱和的问题,它的策略是在调用激活函数之前将 的值归一化到梯度值比较大的区域。BN应在激活函数之前使用。
机器学习中常见的操作是批标准化(Batch Normalization、BN),有专门的BN层
这种表示会对模型的收敛有帮助,但是也可能破坏已经学习到的特征。为了解决这个问题,BN添加了两个可以学习的变量和 用于控制网络能够表达直接映射,也就是能够还原BN之前学习到的特征。
下图中m是批总数、是第i个批(batch)、是标准化后的批(normalized batch)、,是需要学习的两个参数
当并且时,
BN层输入等于输出
BN的测试过程
在训练的时候,我们可以获得该批量中样本的均值和方差。但是在测试的时候,数据都是以单个样本的形式输入到网络中的。在计算BN层的输出的时候,我们需要获取的均值和方差是通过训练集统计得到的。具体的讲,我们会从训练集中随机取多个批量的数据集,每个批量的样本数是 ,测试的时候使用的均值和方差是这些批量的均值。
上面的过程明显非常耗时,更多的开源框架是在训练的时候,顺便就把采样到的样本的均值和方差保留了下来。
卷积中的BN
我们知道,常规的CNN一般由卷积层、下采样层及全连接层构成。全连接层形式上与前向神经网络是一样的,所以可以采取前向神经网络中的BatchNorm方式,而下采样层本身不带参数所以可以忽略,所以CNN中主要关注卷积层如何计算BatchNorm。
CNN中的某个卷积层由m个卷积核构成,每个卷积核对三维的输入(通道数*长*宽)进行计算,激活及输出值是个二维平面(长*宽),对应一个输出通道(参考图7),由于存在m个卷积核,所以输出仍然是三维的,由m个通道及每个通道的二维平面构成。
那么在卷积层中,如果要对通道激活二维平面中某个激活值进行Normalization操作,怎么确定神经元集合S的势力范围呢?图8给出了示意图。类似于前向神经网络中的BatchNorm计算过程,对于Mini-Batch训练方法来说,反向传播更新梯度使用Batch中所有实例的梯度方向来进行。
所以对于CNN某个卷积层对应的输出通道k来说,假设某个Batch包含n个训练实例,那么每个训练实例在这个通道k都会产生一个二维激活平面,也就是说Batch中n个训练实例分别通过同一个卷积核的输出通道k的时候产生了n个激活平面(Feature Map)。假设激活平面长为5,宽为4,则激活平面包含20个激活值,n个不同实例的激活平面共包含20*n个激活值。
那么BatchNorm的集合S的范围就是由这20*n个同一个通道被Batch不同训练实例激发的激活平面中包含的所有激活值构成(对应图8中所有标为蓝色的激活值)。划定集合S的范围后,激活平面中任意一个激活值都需进行Normalization操作,其Normalization的具体计算过程与前文所述计算过程一样,采用公式3即可完成规范化操作。这样即完成CNN卷积层的BatchNorm转换过程。
CNN中Batch Norm的另外一种角度的理解:
描述起来似乎有些复杂,但是从概念上,其实可以把CNN中的卷积层想象成前向神经网络中的一个隐层,然后把对应的某个卷积核想象成MLP隐层中的一个神经元节点,无非其输出是个二维激活平面而不像MLP的神经元输出是一个激活值,另外一个不同是这个神经元覆盖的输入部分不同,CNN的卷积核是局部覆盖输入,通过滑动窗口来实现输入的全覆盖,而MLP的神经元则是一步到位全局覆盖输入而已(参考图9示意)。如果从这个角度思考CNN和MLP中的BatchNorm的话,其实两者的做法是一致的。
在图2中,假设一个批量有个样本,Feature Map的尺寸是pxq,通道数是,在卷积网络的中,BN的操作是以Feature Map为单位的,因此一个BN要统计的数据个数为 mxpxq,每个Feature Map使用一组 和。
最后
BN是深度学习调参中非常好用的策略之一(另外一个可能就是Dropout),当你的模型发生梯度消失/爆炸或者损失值震荡比较严重的时候,在BN中加入网络往往能取得非常好的效果。
BN也有一些不是非常适用的场景,在遇见这些场景时要谨慎的使用BN:
受制于硬件限制,每个Batch的尺寸比较小,这时候谨慎使用BN;
在类似于RNN的动态网络中谨慎使用BN;
训练数据集和测试数据集方差较大的时候。
综上归一化的优点是:让梯度下降等优化算法速度更快。
我们知道数据预处理做标准化可以加速收敛,同理,在神经网络使用标准化也可以加速收敛,而且还有如下好处:
具有正则化的效果(Batch Normalization regularizes the model)
提高模型的泛化能力(Be advantageous to the generalization of network)
允许更高的学习速率从而加速收敛(Batch Normalization enables higher learning rates)
酷文章: