什么是过拟合?

各位小伙伴们大家好,很高兴能够和大家继续讨论机器学习方面的问题,今天想和大家讨论下关于机器学习中的监督学习中的过拟合的问题,以及解决过拟合的一些方法。

在正式进入正题前,我想用几个我们生活中常见的几个简单的例子来让大家更好地理解下过拟合的概念。其实简单的说,过拟合的现象其实就是机器学习过于自信已经到了自付的阶段了。至于什么是自负。我们大概都能想到在自己的小圈子里表现非凡,但是在现实这个大环境中屡屡遭受碰壁。因此我想把自负比作过拟合)(自负=过拟合)。

那么这个时候就可能产生疑问。那么机器学习过于自负是一种什么样的表现呢?

现在在下图有一张图,图上的红点可以看作为一堆数据,这个时候我们一定想到用一条线来把这些数据串起来,整合起来,所有人都希望数据可以分步在这条线周围,这个时候这条线和数据的总误差可能为10.但是这个时候,机器就跟我们的学生一样,总想考第一名,总想拿一百分,这个时候机器就希望获得尽可能少的误差,来完成对着一批数据的使命。但是机器这样想后却得到了图中的那根红线,弯弯曲曲,并且经过了所有的点,这样的误差就会尽可能的小。但是误差少真的会好么?

看起来我们的模型还是太天真了,就跟我们的家长们总以为只要孩子考试得到了满分这个孩子就一定会得到最好的结果。当这个孩子踏出社会后他的很多方面会共同决定他的发展。机器学习模型也类似。当我们把这个模型应用到具体的情况中的时候,他的自负就表现出来了。这个时候假设你的公司给了你一批新的数据,你对模型说,模型,你给我跑出来。这个时候原来的那根笔直的直线因为数据都分布在他的周围,误差很小。但是在之前误差一直很小的模型曲线反而这次获得了较大的误差,表现反而很糟糕。这个时候,曲线就再也骄傲不起来了,因为他并无法很好的符合除了测试数据之外的训练数据。这个现象就是我们所说的过拟合。

那么在分类问题中,过拟合的分割曲线可能会是下图这样,当我们在加上一些数据之后,我们可以很明显的发现有一些原本不属于这个分类的数据在这个分类,对于这个现象其实就是过拟合的现象在作怪了。那么既然过拟合的问题我们会时不时的遇到,那么我们应该怎么样去解决过拟合的问题呢?

方法1:增加数据量

大多数的过拟合的问题是因为他们的数据量太少了,如果我们有成千上万的数据量进行训练。我们那根弯弯曲曲的曲线也会被纠正的不是那么扭曲,会逐渐被拉直,这样模型误差就会进一步减少

方法2:运用正规化

正规化这个问题适用于大多数的机器学习以及大多数的神经网络,其实他们的方法都大同小异,我们现在进行简化正规化的公式为Y=WX(实际的公式比这个复杂得多)。W为机器学习所需要学习到的各种参数。在实际过程中因为训练数据的参差不齐,W的变化往往会非常大,为了避免这个现象,现在我们在计算误差值上进行一些手脚,对于误差我们是这样计算的cost=(wx-realy)2+abs(w)。预测值减去真实值的平方加上w的绝对值。既然W会越大,我们就用这个公式让cost也变得更大,这样让cost作为一个惩罚机制,在加上一个abs(w),这样的正规化就叫做L1正规化。Cost=(wx-realy)2+(w)2这样的现象就叫做L2正规化。其他的L系列的方法也都是类似的方法。通过这样的方法我们就可以使曲线没有那么的扭曲,变得更加的笔直,更加的符合真实的需求。

还有一种常用于神经网络的一种正规化方法:Dropout regularization。

在训练的时候,我们随机忽略掉一些神经元和神经连接,使得这个神经网络变得不完整。不完整的神经网络经过训练到达第二次后,这个时候我们再选择忽略掉一点。让其再变为又一个不完整的神经网络。注意每次忽略掉的前提数据必须是随机不完整。其实想想有了这样的随机忽略drop的方法,我们其实就可以猜测出每一次的训练都不会太过于依赖那些特定的神经元就跟L1,L2这样的正规化的方法一样,每一次的训练都过于依赖参数W。L1,L2会惩罚这些W,而drop的方法会随即丢失这些w.这个方法可以从根本上让神经网络无法过于依赖W。从而有效的缓解过拟合的问题。

好了,这个就是这篇文章所包含的什么是过拟合以及如何解决过拟合方法的一些问题。如果你想了解更多关于机器学习的知识,欢迎关注我的简书,并且欢迎和我一起交流。谢谢大家的阅读。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容