机器学习-正则化

正则化

正则的目的，是为了减小过拟合。
正则可以减小过拟合？
首先，过拟合是因为过分拟合训练数据，使得模型过于复杂，模型过于复杂往往表示模型参数过多。

正则1.jpg

如上图
我们以多项式回归模型拟合一组数据
红色曲线是拟合函数
$h(x)=w^0+w_1x+w_2x^2+...+w_Mx^M$
四个子图演示了回归模型从欠拟合到过拟合的变化。
图4可以帮助我们更好的理解过拟合，为了完全拟合训练数据，过分地调整了模型，使得模型本身复杂而曲折，稍微偏离训练数据点就会带来很大的震荡(这也是高variance的一个原因)，而且，为了使曲线弯曲到如此程度，其导数也应该很大，这就导致参数w会很大，否则难以带来函数剧烈的弯曲。这也告诉我们，好的模型应该是尽量平滑的，好的分类超平面也应该是尽量平滑的，带有剧烈曲折的拟合，往往会导致过拟合。

我们发现，过拟合时，往往代表参数过多，模型曲折往往代表参数过大。那我们就可以限定参数w的规模。这就是正则化。
正则通常是在损失函数后面加上正则项。如下：
$min \sum_{i=1}^{N}L(y_i,h(x_i))+\alpha r(w)$
$r(w)=\sum_{j=1}^{M}|w_j|$
即为 L1正则
$r(w)=\sum_{j=1}^{M}|w_j|^2$
即为L2正则
常用的就是这两种正则项
$\alpha>=0$ 为正则化系数，其值越大，越不易过拟合，模型越简单。

L1正则与L2正则

两者都会校正过拟合，虽然看起来差不多，但往往会体现出巨大的差异。
L2正则会使w都变小而趋近于0
L1正则会更容易令部分w=0，从而使模型变稀疏，可以起到特征选择的作用
注意L2正则连续可导，L1在0处不可导。
就 $y=|x|$ 与 $y=|x|^2=x^2$ 两个函数来看，其图像一个呈V型一个呈U型。随着 $\alpha$ 的增大，V越来越窄而尖锐，U越来越窄而底部稍缓，远没有V尖锐。
一个很重要的问题是为什么L1正则会更容易让w=0？
直观解释
L1正则直观解释
我们考虑
$min \sum_{i=1}^{N}L(y_i,h(x_i))+\alpha |w|$
$min \sum_{i=1}^{N}L(y_i,h(x_i))+\alpha w^2$
L1可用来筛选特征，是因为用L1更容易让某些w变为0，即他可以让某些w=0的时候，整体损失最低，即最低点。

所谓最优的wi，即上述曲线在w=wi处取得最小值或极小值。而欲让模型稀疏，即特征变少就要尽可能令wi=0
式子前部分的L是可导的凸函数，而L2也是连续可导，即式子2是连续可导的，若要在w=0处取得最小值则式子2的在0处的导数也应该=0
即 $\frac{\partial L}{\partial w}| _{w=0}=0$

这个要求相对苛刻。
对于L1正则，在w=0处不可导，我们只要在w=0处对式子1取得最小值即可。
则式子1 $L+\alpha |w|$ 就像是除了w=0处，其他地方均对L拉高。所以只要 $\alpha$ 增大到一定程度，基本都可以让L在其他地方的值都高过w=0处的值。
你可能会疑问，L2也会有同样的效果。但L1更快。
因为在w=0~1处（往往w也是在这个范围）在这里L2<<L1,且越接近0，L2越远小于L1，这就导致需要更大的 $\alpha$ (可能就是平方)才能达到和L1相同的效果。
但我们也知道，过大的 $\alpha$ 会令模型欠拟合，所以一味增大也是不可取的。这样对比来看，L1是会比L2更容易获得稀疏的模型。

两种 regularization 能不能把最优的 x 变成 0，取决于原先的费用函数在 0 点处的导数。如果本来导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 x 也不会变成 0。而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。
链接

最优化解释
L1正则数学解释
数学解释需要理解的根本是把一个无约束的最优化问题转变成了带约束的最优化问题。
$min \sum_{i=1}^{N}L(y_i,h(x_i))+\alpha r(w)$
是无约束的，即w可以取任意值
而这个问题可以转化为带约束的问题：
$min \sum_{i=1}^{N}L(y_i,h(x_i))$
$s.t.: r(w)<=\eta$
而这个转化直接可以从图像上表示出来：

正则2.jpg

蓝色同心圆代表L的等高线，橘黄区域代表符合约束条件的w区域。可见菱形比圆形更容易相交于轴线上，而轴线上代表有一个w分量=0
由此可知，L0.5正则会更容易获得稀疏解，因为L0.5比菱形更内凹

参考

csdn
正则化
 正则-知乎

最后编辑于：2022.05.16 17:00:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,367评论 6赞 512
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,959评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,750评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,226评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,252评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,975评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,592评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,497评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,027评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,147评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,274评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,953评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,623评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,143评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,260评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,607评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,271评论 2赞 358

机器学习-正则化

正则化

L1正则与L2正则

参考

推荐阅读更多精彩内容