通过正则化解决过拟合问题

过拟合是机器学习中的常见问题，它是指模型在训练数据集上表现良好，但是用于未知数据时性能不佳
如果一个模型出现了过拟合问题，我们也说此模型有高方差，这有可能是因为使用了相关数据中过多的参数，从而使得模型变得国于复杂。同样，模型也可能面临欠拟合（高偏差）问题。
如果我们多次重复训练一个模型，如使用训练数据集中不同的子集，方差可以用来衡量模型对特定样本实例预测的一致性。可以说模型对训练数据中的随机性是敏感的
相反，当我们在不同的训练数据集上多次重建模型时，偏差可以从总体上衡量预测值与实际值之间的差异;偏差并不是由样本的随机性导致的，它衡量的是系统误差
偏差-方差权衡就是通过正则化调整模型的复杂度。正则化是解决共线性（特征间高度相关）的一个很有用的方法，它可以过滤掉数据中的噪音，并最终防止过拟合

问题：为什么正则化可以防止过拟合？

**由于过拟合本质是过多的特征被启用导致的，导致模型泛化性变差，所以防止过拟合要降低特征的数量，可以通过使w个数减少，问题就变成让W向量中项的个数最小化，方法就是让w变成或趋近于0，因为向量中0元素对应的x是没有任何权重的。

问题：什么是L2正则化？

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦
正则化背后的概念是引入额外的信息（偏差）来对极端参数权重做出惩罚。最常用的正则化形式被称为L2正则化，有时也称作L2收缩或权重衰减
特征缩放之所以重要，其中一个原因就是正则化。为了使得正则化起作用，需要确保所有特征保持统一
使用正则化方法时，我们只需在逻辑斯蒂回归的代价函数中加入正则化项，以降低回归系数带来的副作用
通过正则化系数，保持权值较小时，我们就可以控制模型与训练数据的拟合程度

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

通过正则化解决过拟合问题