神经网络减轻过度拟合的四种方法

  • L1规范化
  • L2规范化
  • 弃权
  • 人为扩展训练样本

L1规范化

这个方法是在未规范化的代价函数上加上一个权重绝对值的和:
C=C_0+ \cfrac{\lambda}{n}\sum_{\omega}|\omega|
然后使用一个因子\cfrac{\lambda}{n}进行量化调整,其中\lambda>0可以称为规范化参数,n就是训练集合的大小。

规划化有时候也被称为权重衰减,它的主要功能就是为了在最小化原始代价函数与寻找小的权重之间找个折中,两部分之间相对的重要程度就由\lambda来控制,\lambda越小,就偏向于最小化原始代价函数,反之,就偏向于小的权重。

至于为什么规范化可以减轻过度拟合,粗略的讲,规范化有助于训练小的权重,大的权重容易将训练数据中的噪声过于放大,从而影响模型在测试数据上的泛化能力,小的权重则不会因为一个微小的变动导致结果的大幅度变化,而是由训练数据中最普遍易泛化的特征共同作用。这边主要讲解减轻过度拟合的方法,具体为什么规范化可以减轻过度拟合,在以后的博客中会专门写一篇文章解释。

L2规范化

L2规范化与L1规范化有些类似,这个方法是在未规范化的代价函数上加上所有权重平方的和:
C=C_0+\cfrac{\lambda}{2n}\sum_{\omega}\omega^2
虽然两种规范化有类似的地方,不过我们也需要理解一下L1规范化训练的网络和L2规范化训练的网络不同的行为,对L1规范化代价函数求偏导:
\cfrac{\partial C}{\partial \omega}=\cfrac{\partial C_0}{\partial \omega}+\cfrac{\lambda}{n}sgn(\omega)
其中sgn(\omega)就是\omega的正负号,即\omega是正数时为+1,而\omega是负数时为-1。
对L1规范化的网络进行更新的规则就是:
\omega \rightarrow \omega'=\omega-\cfrac{\eta \lambda}{n}sgn(\omega)-\eta\cfrac{\partial C_0}{\partial \omega}

对L2规范化代价函数求偏导:
\cfrac{\partial C}{\partial \omega}=\cfrac{\partial C_0}{\partial \omega}+\cfrac{\lambda}{n}\omega
对L2规范化的网络进行更新的规则就是:
\omega \rightarrow \omega'=\omega-\eta\cfrac{\partial C_0}{\partial \omega}-\cfrac{\eta \lambda}{n}\omega=(1-\cfrac{\eta \lambda}{n})\omega-\eta \cfrac{\partial C_0}{\partial \omega}

在两种情形下,规范化的效果就是缩小权重。两种规范化都惩罚大的权重,但权重缩小的方式不同。
在L1规范化中,权重通过一个常量\cfrac{\eta \lambda}{n}sgn(\omega)向0进行缩小,而L2规范化中,权重通过一个和\omega成比例的量进行缩小。所以,当一个特定的权重绝对值|\omega|很大时,L1规范化的权重缩小远比L2规范化要小得多。相反,房一个特定的权重绝对值|\omega|很小时,L1规范化的权重缩小远比L2规范化要大得多。

最终结果就是:L1规范化倾向于聚集网络的权重比较小的时候,而L2规范化则倾向于权重比较大时。

弃权

弃权是一种相当激进的技术,并不依赖于对代价函数的修改,而是改变了网络本身。假设我们尝试训练一个网络:

原始神经网络

特别的,假设我们有一个训练数据和对应的目标输出。通常我们会通过在网络中前向传播,然后进行反向传播来确定对梯度的贡献。使用弃权技术,我们会随机(临时)的删除一半的隐藏神经元,同时让输入层和输出层的神经元保持不变。在此之后,我们会得到最终如下所示的神经网络:
修改后的神经网络

虚圈表示删除的隐藏神经元。
我们在一个小批量的数据上前向传播,通过修改后的网络,然后反向传播结果,同样通过这个修改后的网络,对有关的权重和偏置进行更新。然后重置弃权的神经元,选择一个新的随机的隐藏神经元的子集进行删除,在其他的小批量数据上重复这个过程步骤,更新权重和偏置。
通过不断的重复,我们会学到一个权重和偏置的集合。由于这些权重和偏置是在一半的隐藏神经元被弃权的情形下学到的,为了补偿这个,我们将隐藏神经元的偏置以及出去的权重减半。
启发式的看,当我们弃权掉不同的神经元集合时,就好比在训练不同的神经网络。所以,弃权过程就如同大量不同网络的效果的平均。不同的网络会以不同的方式过度拟合,所以弃权的网络的效果会减轻过度拟合。

人为扩展训练数据

训练好的神经网络,增加训练数据是一个稳定有效的方式,因为更少的数据意味着我们的网络接触更少的信息变化。如果我们使用大量更多的训练数据,那么,我们可能会得到更好的性能,即使是用简单的网络。
获取更多的数据代价很大,在实践中常常是很难使用的。不过,还有一种方法能够获得近似的效果,那就是人为扩展训练数据。比如图像识别,对已有的图像进行旋转、转换、扭曲,还有一种特殊的为了模仿手部肌肉的随机抖动的图像扭曲方法。比如语音识别,可以通过增加噪声来扩展训练数据。
一般就是通过应用反应真实世界变化的操作来扩展训练数据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,063评论 6 510
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,805评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,403评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,110评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,130评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,877评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,533评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,429评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,947评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,078评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,204评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,894评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,546评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,086评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,195评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,519评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,198评论 2 357

推荐阅读更多精彩内容