理解机器学习中的正则化与模型复杂度

引言

本篇文章将通过支持向量机（SVM）这个主题来探讨机器学习中的一些关键概念，包括软间隔、结构风险最小化、经验风险最小化、以及如何从不同角度理解正则化。我们还会讨论正则化项对模型复杂度的影响，并解释为什么在某些情况下，即使只有一类数据，损失函数也能确定出一条准确的直线。

第一章：什么是软间隔和SVM

首先，我们要了解的是，在学习SVM的时候，它与感知机的主要区别在于引入了软间隔的概念。软间隔允许一些样本点可以在决策边界内侧，从而使得模型更加鲁棒。这一特性对于处理非线性可分的数据集非常有用。此外，SVM似乎只能在数据集相同维度下进行选择，而感知机和SVM都是线性模型，但它们的备选空间似乎不太一样。感觉SVM的可能性比感知机高了一个维度。这可能是因为SVM自带了一个L2正则化项，导致选择的空间减少了。现在我们可以暂时把正则化这一项给挡起来，只看前面的经验损失项，具体分析合叶损失函数。

第二章：结构风险最小化 vs 经验风险最小化

接下来，我们会看到SVM是如何关联到结构风险最小化的概念上的。结构风险最小化考虑到了模型复杂度的问题，而不仅仅是基于训练数据的经验误差。相比之下，经验风险最小化仅仅追求降低训练集上的错误率，这可能导致过拟合现象的发生。因此，当我们的目标是最小化E_out时，我们需要采取更为合理的策略——即结构风险最小化，它不仅关注训练集的表现，还试图控制模型的泛化能力。结构风险包含了经验风险和模型复杂度两部分。经验风险是指在训练集里的偏差程度，而模型复杂度与VC维有关，VC维度越高代表着被选的选项越多，模型复杂度越大。

第三章：正则化的四个角度

为了更好地理解正则化的作用，我们可以从四个方面来看待它：

权重衰减的角度：限制模型参数（如权重）的增长，以防止过拟合。
贝叶斯概率的角度：将先验知识融入到模型中，例如L1和L2正则化可以看作是对模型复杂程度的一种度量。
VC维度的角度：利用VC维数衡量模型的能力，帮助我们选择合适的模型复杂度。
模型复杂度的角度：直接评估模型本身的复杂性，并据此调整其性能。

第四章：正则化项的重要性

现在让我们更深入地探讨一下正则化项。当我们仅有经验损失函数时，可能有无数条直线符合要求；但是，一旦加入正则化项，比如W²这样的抛物线形式，随着W值的增加，整体损失会递增，而不是一直保持为零。这意味着即使面对单一类别数据，系统也可以找到唯一最优解。此外，正则化项有助于缩小w和b组合的选择范围，从而减少过拟合的可能性。在没有正则化项的情况下，可以选择的方案很多，最后能挑出无数多种来，但加上它之后，备选方案就减少了，最后只能选中一个来。

第五章：SVM中的三个条件

最后，回顾一下SVM定义中的三个重要条件：

几何距离最大化
分类正确
函数输出等于1（这是额外增加的一个约束）

这三个条件共同作用，确保了即便是在只有一个类别的情况下，损失函数也能够确定出唯一的最优分割线。不过需要注意的是，具体的损失函数组成部分并不总是能明确划分给这三个条件中的某一个，但它们确实一起工作来实现最佳分类效果。如果去掉这个额外的要求，那么在只有一类数据的情况下，损失函数可能没有办法确定出唯一的直线。但是一旦加上这个约束，就可以确定出一条直线。这有助于理解为什么损失函数在只有一类数据时也能确定出一条直线。

第六章：正则化项对损失函数的影响

正则化项的引入改变了损失函数的结果。单纯只有合叶损失函数的时候，求它的最小值能选出来的直线还是挺多的。但是只要加上正则化项，那结果就不一样了。简单做分析一下就知道，前面这部分取到某个位置之后，损失函数的取值已经是零了，达到最小值。但如果w和b继续再朝这个方向移动的话，那就会形成约束。因为W的平方是一个抛物线，它是有最小值的。如果超过这个最小值，w继续增加的话，那整体来说它就不是最小值了，而是会递增越来越大。所以说加上正则化项以后，就算只有一类数据，也不会说是有无数的直线符合要求，而是只有一个。在只有一类数据的情况下，如果没有正则化项，可能没有办法确定出唯一的直线。但是加上它就能把它确定出来。

结论

综上所述，通过引入正则化项，我们可以有效地管理模型复杂度，避免过拟合问题，同时提高模型的泛化能力。

以上是基于王木头视频内容整理而成的博客。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,254评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,875评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,682评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,896评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,015评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,152评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,208评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,962评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,388评论 1赞 304
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,700评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,867评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,551评论 4赞 335
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,186评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,901评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,142评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,689评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,757评论 2赞 351