关于BatchNormalization的讨论

归一化/标准化 = 零均值化 + 方差归一化(白化)

结果使得数据均变成均值为0方差为1

机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而BatchNorm是干啥的呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。OK,BN讲完了,再见。

在深层神经网络中,中间某一层的输入是其之前的神经层的输出。因此,其之前的神经层的参数变化会导致其输入的分布发生较大的差异。在使用随机梯度下降来训练网络时,每次参数更新都会导致网络中间每一层的输入的分布发生改变。越深的层,其输入的分布会改变得越明显。就像一栋高楼,低楼层发生一个较小的偏移,都会导致高楼层较大的偏移。



解决梯度消失、梯度爆炸

我们知道\sigma 激活函数和tanh激活函数存在梯度饱和的区域,其原因是激活函数的输入值过大或者过小,其得到的激活函数的梯度值会非常接近于0,使得网络的收敛速度减慢。传统的方法是使用不存在梯度饱和区域的激活函数,例如ReLU等。BN也可以缓解梯度饱和的问题,它的策略是在调用激活函数之前将Wx+b 的值归一化到梯度值比较大的区域。BN应在激活函数之前使用。



BN

机器学习中常见的操作是批标准化(Batch Normalization、BN),有专门的BN层

这种表示会对模型的收敛有帮助,但是也可能破坏已经学习到的特征。为了解决这个问题,BN添加了两个可以学习的变量\beta 和  用于控制网络能够表达直接映射,也就是能够还原BN之前学习到的特征

下图中m是批总数、z^{(i)}是第i个批(batch)、\tilde{z}^{(i)} 是标准化后的批(normalized batch)、\gamma \beta 是需要学习的两个参数

y^{(k)}=\gamma ^{(k)}\hat{x} ^{(k)}+\beta ^{(k)}

\gamma ^{(k)}=\sqrt{Var[x^{(k)}} ]并且\beta ^{(k)}=E[x^{(k)}]时,y^{(k)}=x^{(k)}

BN层输入等于输出



BN的测试过程

在训练的时候,我们可以获得该批量中样本的均值和方差。但是在测试的时候,数据都是以单个样本的形式输入到网络中的。在计算BN层的输出的时候,我们需要获取的均值和方差是通过训练集统计得到的。具体的讲,我们会从训练集中随机取多个批量的数据集,每个批量的样本数是 m ,测试的时候使用的均值和方差是这些批量的均值。

上面的过程明显非常耗时,更多的开源框架是在训练的时候,顺便就把采样到的样本的均值和方差保留了下来。




卷积中的BN

我们知道,常规的CNN一般由卷积层、下采样层及全连接层构成。全连接层形式上与前向神经网络是一样的,所以可以采取前向神经网络中的BatchNorm方式,而下采样层本身不带参数所以可以忽略,所以CNN中主要关注卷积层如何计算BatchNorm。

CNN中的某个卷积层由m个卷积核构成,每个卷积核对三维的输入(通道数*长*宽)进行计算,激活及输出值是个二维平面(长*宽),对应一个输出通道(参考图7),由于存在m个卷积核,所以输出仍然是三维的,由m个通道及每个通道的二维平面构成。

图7:CNN中的卷积核
图8. CNN中的BatchNorm过程  

        那么在卷积层中,如果要对通道激活二维平面中某个激活值进行Normalization操作,怎么确定神经元集合S的势力范围呢?图8给出了示意图。类似于前向神经网络中的BatchNorm计算过程,对于Mini-Batch训练方法来说,反向传播更新梯度使用Batch中所有实例的梯度方向来进行。

        所以对于CNN某个卷积层对应的输出通道k来说,假设某个Batch包含n个训练实例,那么每个训练实例在这个通道k都会产生一个二维激活平面,也就是说Batch中n个训练实例分别通过同一个卷积核的输出通道k的时候产生了n个激活平面(Feature Map)。假设激活平面长为5,宽为4,则激活平面包含20个激活值,n个不同实例的激活平面共包含20*n个激活值。

        那么BatchNorm的集合S的范围就是由这20*n个同一个通道被Batch不同训练实例激发的激活平面中包含的所有激活值构成(对应图8中所有标为蓝色的激活值)。划定集合S的范围后,激活平面中任意一个激活值都需进行Normalization操作,其Normalization的具体计算过程与前文所述计算过程一样,采用公式3即可完成规范化操作。这样即完成CNN卷积层的BatchNorm转换过程。

其中,a_i 为某个神经元原始激活值,a_i^{norm}为经过规范化操作后的规范后值



CNN中Batch Norm的另外一种角度的理解:

图9

描述起来似乎有些复杂,但是从概念上,其实可以把CNN中的卷积层想象成前向神经网络中的一个隐层,然后把对应的某个卷积核想象成MLP隐层中的一个神经元节点,无非其输出是个二维激活平面而不像MLP的神经元输出是一个激活值,另外一个不同是这个神经元覆盖的输入部分不同,CNN的卷积核是局部覆盖输入,通过滑动窗口来实现输入的全覆盖,而MLP的神经元则是一步到位全局覆盖输入而已(参考图9示意)。如果从这个角度思考CNN和MLP中的BatchNorm的话,其实两者的做法是一致的。




图2:卷积网络的BN示意图

在图2中,假设一个批量有m个样本,Feature Map的尺寸是pxq,通道数是d,在卷积网络的中,BN的操作是以Feature Map为单位的,因此一个BN要统计的数据个数为 mxpxq,每个Feature Map使用一组 \gamma \beta



最后

BN是深度学习调参中非常好用的策略之一(另外一个可能就是Dropout),当你的模型发生梯度消失/爆炸或者损失值震荡比较严重的时候,在BN中加入网络往往能取得非常好的效果。

BN也有一些不是非常适用的场景,在遇见这些场景时要谨慎的使用BN:

· 受制于硬件限制,每个Batch的尺寸比较小,这时候谨慎使用BN;

· 在类似于RNN的动态网络中谨慎使用BN;

· 训练数据集和测试数据集方差较大的时候。




可以看到归一化后的数据的梯度下降路线更平滑,速度更快


综上归一化的优点是:让梯度下降等优化算法速度更快。

我们知道数据预处理做标准化可以加速收敛,同理,在神经网络使用标准化也可以加速收敛,而且还有如下好处:

\cdot  具有正则化的效果(Batch Normalization regularizes the model)

\cdot 提高模型的泛化能力(Be advantageous to the generalization of network)

\cdot 允许更高的学习速率从而加速收敛(Batch Normalization enables higher learning rates)



酷文章:

深度学习中的Normalization模型--张俊林

模型优化之BatchNomalization-刘岩


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352