通过正则化解决过拟合问题

过拟合是机器学习中的常见问题,它是指模型在训练数据集上表现良好,但是用于未知数据时性能不佳
如果一个模型出现了过拟合问题,我们也说此模型有高方差,这有可能是因为使用了相关数据中过多的参数,从而使得模型变得国于复杂。同样,模型也可能面临欠拟合(高偏差)问题。
如果我们多次重复训练一个模型,如使用训练数据集中不同的子集,方差可以用来衡量模型对特定样本实例预测的一致性。可以说模型对训练数据中的随机性是敏感的
相反,当我们在不同的训练数据集上多次重建模型时,偏差可以从总体上衡量预测值与实际值之间的差异;偏差并不是由样本的随机性导致的,它衡量的是系统误差
偏差-方差权衡就是通过正则化调整模型的复杂度。正则化是解决共线性(特征间高度相关)的一个很有用的方法,它可以过滤掉数据中的噪音,并最终防止过拟合

问题:为什么正则化可以防止过拟合?

**由于过拟合本质是过多的特征被启用导致的,导致模型泛化性变差,所以防止过拟合要降低特征的数量,可以通过使w个数减少,问题就变成让W向量中项的个数最小化,方法就是让w变成或趋近于0,因为向量中0元素对应的x是没有任何权重的 。

问题:什么是L2正则化?

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦
正则化背后的概念是引入额外的信息(偏差)来对极端参数权重做出惩罚。最常用的正则化形式被称为L2正则化,有时也称作L2收缩或权重衰减
特征缩放之所以重要,其中一个原因就是正则化。为了使得正则化起作用,需要确保所有特征保持统一
使用正则化方法时,我们只需在逻辑斯蒂回归的代价函数中加入正则化项,以降低回归系数带来的副作用
通过正则化系数,保持权值较小时,我们就可以控制模型与训练数据的拟合程度

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容