理解机器学习中的正则化与模型复杂度

引言

本篇文章将通过支持向量机(SVM)这个主题来探讨机器学习中的一些关键概念,包括软间隔、结构风险最小化、经验风险最小化、以及如何从不同角度理解正则化。我们还会讨论正则化项对模型复杂度的影响,并解释为什么在某些情况下,即使只有一类数据,损失函数也能确定出一条准确的直线。

第一章:什么是软间隔和SVM

首先,我们要了解的是,在学习SVM的时候,它与感知机的主要区别在于引入了软间隔的概念。软间隔允许一些样本点可以在决策边界内侧,从而使得模型更加鲁棒。这一特性对于处理非线性可分的数据集非常有用。此外,SVM似乎只能在数据集相同维度下进行选择,而感知机和SVM都是线性模型,但它们的备选空间似乎不太一样。感觉SVM的可能性比感知机高了一个维度。这可能是因为SVM自带了一个L2正则化项,导致选择的空间减少了。现在我们可以暂时把正则化这一项给挡起来,只看前面的经验损失项,具体分析合叶损失函数。

第二章:结构风险最小化 vs 经验风险最小化


接下来,我们会看到SVM是如何关联到结构风险最小化的概念上的。结构风险最小化考虑到了模型复杂度的问题,而不仅仅是基于训练数据的经验误差。相比之下,经验风险最小化仅仅追求降低训练集上的错误率,这可能导致过拟合现象的发生。因此,当我们的目标是最小化E_out时,我们需要采取更为合理的策略——即结构风险最小化,它不仅关注训练集的表现,还试图控制模型的泛化能力。结构风险包含了经验风险和模型复杂度两部分。经验风险是指在训练集里的偏差程度,而模型复杂度与VC维有关,VC维度越高代表着被选的选项越多,模型复杂度越大。

第三章:正则化的四个角度

为了更好地理解正则化的作用,我们可以从四个方面来看待它:

  1. 权重衰减的角度:限制模型参数(如权重)的增长,以防止过拟合。
  2. 贝叶斯概率的角度:将先验知识融入到模型中,例如L1和L2正则化可以看作是对模型复杂程度的一种度量。
  3. VC维度的角度:利用VC维数衡量模型的能力,帮助我们选择合适的模型复杂度。
  4. 模型复杂度的角度:直接评估模型本身的复杂性,并据此调整其性能。

第四章:正则化项的重要性

现在让我们更深入地探讨一下正则化项。当我们仅有经验损失函数时,可能有无数条直线符合要求;但是,一旦加入正则化项,比如W²这样的抛物线形式,随着W值的增加,整体损失会递增,而不是一直保持为零。这意味着即使面对单一类别数据,系统也可以找到唯一最优解。此外,正则化项有助于缩小w和b组合的选择范围,从而减少过拟合的可能性。在没有正则化项的情况下,可以选择的方案很多,最后能挑出无数多种来,但加上它之后,备选方案就减少了,最后只能选中一个来。

第五章:SVM中的三个条件

最后,回顾一下SVM定义中的三个重要条件:

  • 几何距离最大化
  • 分类正确
  • 函数输出等于1(这是额外增加的一个约束)

这三个条件共同作用,确保了即便是在只有一个类别的情况下,损失函数也能够确定出唯一的最优分割线。不过需要注意的是,具体的损失函数组成部分并不总是能明确划分给这三个条件中的某一个,但它们确实一起工作来实现最佳分类效果。如果去掉这个额外的要求,那么在只有一类数据的情况下,损失函数可能没有办法确定出唯一的直线。但是一旦加上这个约束,就可以确定出一条直线。这有助于理解为什么损失函数在只有一类数据时也能确定出一条直线。

第六章:正则化项对损失函数的影响

正则化项的引入改变了损失函数的结果。单纯只有合叶损失函数的时候,求它的最小值能选出来的直线还是挺多的。但是只要加上正则化项,那结果就不一样了。简单做分析一下就知道,前面这部分取到某个位置之后,损失函数的取值已经是零了,达到最小值。但如果w和b继续再朝这个方向移动的话,那就会形成约束。因为W的平方是一个抛物线,它是有最小值的。如果超过这个最小值,w继续增加的话,那整体来说它就不是最小值了,而是会递增越来越大。所以说加上正则化项以后,就算只有一类数据,也不会说是有无数的直线符合要求,而是只有一个。在只有一类数据的情况下,如果没有正则化项,可能没有办法确定出唯一的直线。但是加上它就能把它确定出来。

结论

综上所述,通过引入正则化项,我们可以有效地管理模型复杂度,避免过拟合问题,同时提高模型的泛化能力。


以上是基于王木头视频内容整理而成的博客。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容