吴恩达深度学习笔记(51)-归一化网络的激活函数(重要!)

归一化网络的激活函数(Normalizing activations in a network)

在深度学习兴起后,最重要的一个思想是它的一种算法,叫做Batch归一化,由Sergey loffe和Christian Szegedy两位研究者创造。

Batch归一化会使你的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好,也会使你的训练更加容易,甚至是深层网络。

让我们来看看Batch归一化是怎么起作用的吧。

训练一个模型,比如logistic回归时,你也许会记得,归一化输入特征可以加快学习过程。你计算了平均值,从训练集中减去平均值,计算了方差,接着根据方差归一化你的数据集,在之前的笔记中我们看到,这是如何把学习问题的轮廓,从很长的东西,变成更圆的东西,更易于算法优化。所以这是有效的,对logistic回归和神经网络的归一化输入特征值而言。

那么更深的模型呢?

你不仅输入了特征值x,而且这层有激活值a^([1]),这层有激活值a^([2])等等。

如果你想训练这些参数,比如w^([3]),b^([3]),那归一化a^([2])的平均值和方差岂不是很好?

以便使w^([3]),b^([3])的训练更有效率。

在logistic回归的例子中,我们看到了如何归一化x_1,x_2,x_3,会帮助你更有效的训练w和b。

所以问题来了,对任何一个隐藏层而言,我们能否归一化a值,在此例中,比如说a^([2])的值,但可以是任何隐藏层的,以更快的速度训练w^([3]),b^([3]),因为a^([2])是下一层的输入值,所以就会影响w^([3]),b^([3])的训练。

简单来说,这就是Batch归一化的作用。尽管严格来说,我们真正归一化的不是a^([2]),而是z^([2]),深度学习文献中有一些争论,关于在激活函数之前是否应该将值z^([2])归一化,或是否应该在应用激活函数a^([2])后再规范值

实践中,经常做的是归一化z^([2])(意思就是在上一层网络净输出时进行归一化,而不是在激活函数激活之后再进行归一化),所以这就是我介绍的版本,我推荐其为默认选择,那下面就是Batch归一化的使用方法。

在神经网络中,已知一些中间值,假设你有一些隐藏单元值,从z^((1))到z^((m)),这些来源于隐藏层,所以这样写会更准确,即z^([l](i))为隐藏层,i从1到m,但这样书写,我要省略l及方括号,以便简化这一行的符号。

所以已知这些值,如下,你要计算平均值,强调一下,所有这些都是针对l层,但我省略l及方括号,然后用正如你常用的那个公式计算方差,接着,你会取每个z^((i))值,使其规范化,方法如下,减去均值再除以标准偏差,为了使数值稳定,通常将ε作为分母,以防σ=0的情况。

所以现在我们已把这些z值标准化,化为含平均值0和标准单位方差,所以z的每一个分量都含有平均值0和方差1,但我们不想让隐藏单元总是含有平均值0和方差1,也许隐藏单元有了不同的分布会有意义,所以我们所要做的就是计算,

γ和β是你模型的学习参数

所以我们使用梯度下降或一些其它类似梯度下降的算法,比如Momentum或者Nesterov,Adam,你会更新γ和β,正如更新神经网络的权重一样。

请注意γ和β的作用是,你可以随意设置̃z^((i))的平均值,事实上,如果γ=√(σ^2+ε),如果γ等于这个分母项(z_norm^((i))=(z^((i))-μ)/√(σ^2+ε)中的分母),β等于μ,这里的这个值是z_norm^((i))=(z^((i))-μ)/√(σ^2+ε)中的μ,那么γz_norm^((i))+β的作用在于,它会精确转化这个方程,如果这些成立(γ=√(σ^2+ε),β=μ),那么̃z^((i))=z^((i))。

通过对γ和β合理设定,规范化过程,即这四个等式,从根本来说,只是计算恒等函数,通过赋予γ和β其它值,可以使你构造含其它平均值和方差的隐藏单元值。

所以,在网络匹配这个单元的方式,之前可能是用z^((1)),z^((2))等等,现在则会用̃z^((i))取代z^((i)),方便神经网络中的后续计算。如果你想放回[l],以清楚的表明它位于哪层,你可以把它放这。

所以希望你学到的是,归一化输入特征X是怎样有助于神经网络中的学习,Batch归一化的作用是它适用的归一化过程,不只是输入层,甚至同样适用于神经网络中的深度隐藏层

应用Batch归一化了一些隐藏单元值中的平均值和方差,不过训练输入和这些隐藏单元值的一个区别是,你也许不想隐藏单元值必须是平均值0和方差1。

比如,如果你有sigmoid激活函数,你不想让你的值总是全部集中在这里(就是上图中的中间部分),你想使它们有更大的方差,或不是0的平均值,以便更好的利用非线性的sigmoid函数,而不是使所有的值都集中于这个线性版本中,这就是为什么有了γ和β两个参数后,你可以确保所有的z^((i))值可以是你想赋予的任意值,或者它的作用是保证隐藏的单元已使均值和方差标准化。那里,均值和方差由两参数控制,即γ和β,学习算法可以设置为任何值,所以它真正的作用是,使隐藏单元值的均值和方差标准化,即z^((i))有固定的均值和方差,均值和方差可以是0和1,也可以是其它值,它是由γ和β两参数控制的。

希望你能学会怎样使用Batch归一化,至少就神经网络的单一层而言,在下一个笔记中,我会教你如何将Batch归一化与神经网络甚至是深度神经网络相匹配。

对于神经网络许多不同层而言,又该如何使它适用,之后,我会告诉你,Batch归一化有助于训练神经网络的原因。所以如果觉得Batch归一化起作用的原因还显得有点神秘,那跟着我走,在接下来的两个笔记中,我们会弄清楚。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容