正则化


一句话概括:正则化(Regularization)是机器学习中一种常用策略,目的是降低模型复杂度,减小过拟合,通过在原目标损失函数中添加惩罚项,对复杂度高的模型进行惩罚来达到目的。常见的正则化方法有L1和L2正则。


我们经常听到有人把L1正则化、L2正则化与Lasso回归,岭回归(Ridge)相互混淆,其实有些许误解:L1、L2正则化并不等于Lasso回归、岭回归:
线性回归+L1正则化 = Lasso回归


线性回归+L2回归 = 岭回归

注意:这里其实是用了拉格朗日法,本质上是对损失函数引入了一个约束条件,即s.t.|w1+w2+..+wn|<=C 以及s.t.(w12+w22+..+wn^2)<=C

为什么可以减小过拟合?

添加了正则化后的损失函数可以写成下面的形式:


这里X,y是训练样本和标签,w是权重系数。J为目标函数,Ω即为损失函数,其中:


可以看出,加入了正则项相当于在损失函数中添加了惩罚项。因此可以理解为正则化是对模型参数做了约束,这样做的好处是可以防止参数波动剧烈,从而导致模型过拟合。
注意:通过下图我们可以看出,添加了正则化后的函数最优点不在Wlin了,而在新的W*,这也解释了为什么L1L2正则化可以减小过拟合:全局最优点偏移了并不是坏事,全局最优点仅仅是训练集上的全局最优解,如果完全拟合它,那就会产生过拟合,也就是数据仅在训练集上表现完美,在测试集上一塌糊涂。

为什么L1正则化可以产生稀疏回归系数,从而达到特征提取效果?

L1正则化相当于为参数定义了一个菱形的解空间。L2正则化相当于为参数定义了一个圆形的解空间。


L1

L2

对于L1正则化,如果原问题的目标函数最优解不是恰好落在棱形解空间内,那就一定是落在棱形解空间的边界上,而L1“棱角分明”的解空间显然更容易与目标函数等高线的角点碰撞,角点的参数值为0,从而产生稀疏解。

  • 从导数的角度解读L1、L2正则化
    将L1和L2正则化的导数画在图上:




    于是会发现,在梯度更新时,不管 L1 的大小是多少(只要不是0)梯度都是1或者-1,所以每次更新时,它都是稳步向0前进。



    而看 L2 的话,就会发现它的梯度会越靠近0,就变得越小。

    也就是说加了 L1 正则的话基本上经过一定步数后很可能变为0,而 L2 几乎不可能,因为在值小的时候其梯度也会变小。于是也就造成了 L1 输出稀疏的特性。

Lasso回归、Ridge回归与拉普拉斯分布、高斯分布的关系(从贝叶斯角度看L1与L2正则)?

正则化项即惩罚函数,该项对模型进行惩罚,从而避免单纯最小二乘问题的过拟合问题(正则化最初是为了解决多元线性回归中最小二乘的过拟合问题而提出的)。从贝叶斯角度出发,贝叶斯认为参数不是一个给定的值,而是一个随机变量,服从一个分布正则化本质上是一种先验信息,整个问题从贝叶斯观点看来是一种贝叶斯最大后验估计,其中正则化项对应其中的先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计,将它取对数,即进行极大似然估计,你就会发现问题立马变成了损失函数+正则化项的最优化问题形式。
从贝叶斯角度出发,L1正则相当于对损失函数添加了拉普拉斯先验,L2正则相当于对损失函数添加了高斯先验

什么是KKT条件?

总结

Lasso,全称是least absolute shrinkage and selection operator,译为最小绝对值收敛选择算子
L1和L2各有其优缺点和适用场景:首先二者都可以减小模型复杂度,防止过拟合。
L1优点:

  • L1正则化可以产生稀疏的特征,将不重要的特征置为0,可以说是一个天然的特征选择器。

L1缺点:

  • L1正则化计算起来复杂,特别是在非稀疏向量上的计算效率很低。因为绝对值的导数是不连续的,我们的最小二乘法,梯度下降法,牛顿法与拟牛顿法对它统统失效了
    通常的解决办法是①坐标轴下降法 ②最小角回归法,具体可以参考刘建平老师的博客
    这里简单谈一下,梯度下降是利用目标函数的导数来确定搜索方向的,该梯度方向可能不与任何坐标轴平行。而坐标轴下降法法是利用当前坐标方向进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值。

L2优点:

  • 相比L1正则化,L2正则化会倾向于产生更多的特征,而这些特征的值都会接近于0。同时,相比于L1正则化,L2正则化实现简单,计算起来方便。

L2缺点:

  • L2的缺点也就是L1的优点:无法获得稀疏的模型。

最后,在实际生产中,可能大家用L2更频繁一些,因为它计算方便:可以通过求导直接得到损失函数求最小值时的参数情况。此外,L2一定只有一条最好的预测线,而L1因为其性质可能有多个最优解。
最后,我想说的是,其实正则化不止有L1和L2两种,常用的还有Dropout、BN也算正则化,其中dropout指在向前传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型的泛化性更强,因为它不会太依赖某些局部的特征;在进行推理(预测)的时候,这时不采用dropout,所有神经元都参与进来。本质上,dropout其实相当于集成学习。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351