各位小伙伴们大家好,很高兴能够和大家继续讨论机器学习方面的问题,今天想和大家讨论下关于机器学习中的监督学习中的过拟合的问题,以及解决过拟合的一些方法。
在正式进入正题前,我想用几个我们生活中常见的几个简单的例子来让大家更好地理解下过拟合的概念。其实简单的说,过拟合的现象其实就是机器学习过于自信已经到了自付的阶段了。至于什么是自负。我们大概都能想到在自己的小圈子里表现非凡,但是在现实这个大环境中屡屡遭受碰壁。因此我想把自负比作过拟合)(自负=过拟合)。
那么这个时候就可能产生疑问。那么机器学习过于自负是一种什么样的表现呢?
现在在下图有一张图,图上的红点可以看作为一堆数据,这个时候我们一定想到用一条线来把这些数据串起来,整合起来,所有人都希望数据可以分步在这条线周围,这个时候这条线和数据的总误差可能为10.但是这个时候,机器就跟我们的学生一样,总想考第一名,总想拿一百分,这个时候机器就希望获得尽可能少的误差,来完成对着一批数据的使命。但是机器这样想后却得到了图中的那根红线,弯弯曲曲,并且经过了所有的点,这样的误差就会尽可能的小。但是误差少真的会好么?
看起来我们的模型还是太天真了,就跟我们的家长们总以为只要孩子考试得到了满分这个孩子就一定会得到最好的结果。当这个孩子踏出社会后他的很多方面会共同决定他的发展。机器学习模型也类似。当我们把这个模型应用到具体的情况中的时候,他的自负就表现出来了。这个时候假设你的公司给了你一批新的数据,你对模型说,模型,你给我跑出来。这个时候原来的那根笔直的直线因为数据都分布在他的周围,误差很小。但是在之前误差一直很小的模型曲线反而这次获得了较大的误差,表现反而很糟糕。这个时候,曲线就再也骄傲不起来了,因为他并无法很好的符合除了测试数据之外的训练数据。这个现象就是我们所说的过拟合。
那么在分类问题中,过拟合的分割曲线可能会是下图这样,当我们在加上一些数据之后,我们可以很明显的发现有一些原本不属于这个分类的数据在这个分类,对于这个现象其实就是过拟合的现象在作怪了。那么既然过拟合的问题我们会时不时的遇到,那么我们应该怎么样去解决过拟合的问题呢?
方法1:增加数据量
大多数的过拟合的问题是因为他们的数据量太少了,如果我们有成千上万的数据量进行训练。我们那根弯弯曲曲的曲线也会被纠正的不是那么扭曲,会逐渐被拉直,这样模型误差就会进一步减少
方法2:运用正规化
正规化这个问题适用于大多数的机器学习以及大多数的神经网络,其实他们的方法都大同小异,我们现在进行简化正规化的公式为Y=WX(实际的公式比这个复杂得多)。W为机器学习所需要学习到的各种参数。在实际过程中因为训练数据的参差不齐,W的变化往往会非常大,为了避免这个现象,现在我们在计算误差值上进行一些手脚,对于误差我们是这样计算的cost=(wx-realy)2+abs(w)。预测值减去真实值的平方加上w的绝对值。既然W会越大,我们就用这个公式让cost也变得更大,这样让cost作为一个惩罚机制,在加上一个abs(w),这样的正规化就叫做L1正规化。Cost=(wx-realy)2+(w)2这样的现象就叫做L2正规化。其他的L系列的方法也都是类似的方法。通过这样的方法我们就可以使曲线没有那么的扭曲,变得更加的笔直,更加的符合真实的需求。
还有一种常用于神经网络的一种正规化方法:Dropout regularization。
在训练的时候,我们随机忽略掉一些神经元和神经连接,使得这个神经网络变得不完整。不完整的神经网络经过训练到达第二次后,这个时候我们再选择忽略掉一点。让其再变为又一个不完整的神经网络。注意每次忽略掉的前提数据必须是随机不完整。其实想想有了这样的随机忽略drop的方法,我们其实就可以猜测出每一次的训练都不会太过于依赖那些特定的神经元就跟L1,L2这样的正规化的方法一样,每一次的训练都过于依赖参数W。L1,L2会惩罚这些W,而drop的方法会随即丢失这些w.这个方法可以从根本上让神经网络无法过于依赖W。从而有效的缓解过拟合的问题。
好了,这个就是这篇文章所包含的什么是过拟合以及如何解决过拟合方法的一些问题。如果你想了解更多关于机器学习的知识,欢迎关注我的简书,并且欢迎和我一起交流。谢谢大家的阅读。