机器学习与正则化

在学习器训练过程中经常会遇到过拟合的情况,模型记录噪声和不相关特征,在新数据面前训练效果不佳。这样的学习器没有从训练数据中学习真正有意义的模式,而只是记录了它所看到的一切,解决此问题的一种解决方法是正则化[4]。

一、正则化概念

1、基础概念

正则化一般具有如下形式[1]

min \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)

其中第一项为经验风险,第二项为正则化项(regularizer)也称为惩罚项(penalty term),\lambda为调整两者之间关系的系数。

正则化的作用是选择经验风险和模型复杂度同时较小的模型。正则化项一般是模型复杂度单调递增函数,模型越复杂,值越大。给模型的参数加上一定的正则约束,这样在优化目标函数的同时能够避免权值过大带来过拟合的风险。

正则化是模型防止过拟合的核心技术之一。

2、可控参数lambda

正则项系数lambda,调整经验误差项和正则项之间的系数。

当lamba=0时,相当于公式没有正则项,模型全力讨好第一项,将经验误差进行最小化,往往也是最容易发生过拟合的时候。随着lamba的增大,正则化项在模型中的话语权越来越大,对模型复杂性的惩罚因子也越来越厉害。

3、公式地位

该公式是有监督学习的核心原理,是机器学习中最核心、最关键、最能概述监督学习的核心思想原理。

会发现80%的单一机器学习模型都是这个公式可以解释的,无非是对经验风险、正则化项变着法换样子而已。

扩展第一项的经验风险,探究常见的机器学习模型与对应经验风险关系【暂放】

二、常见的正则化项

正则化项的可选择比较多的,比较常见的是L1、L2正则项

1、L1正则化[2]

采用L1范数的正则化又称为lasso,比如在sklearn.linear_mode下的Lasso,LassoCV, LassoLarsCV就是线性回归与L1正则项的组合,LassoCV, LassoLarsCV使用交叉验证等方式获得最优的lambda

使用L1范数作为正则化项,下面公式称为lasso

min_w \sum_{i=1}^m(y_i-w^Tx_i)^2+\lambda||w||_1

可用于特征选择,降低特征维度

2、L2正则化[2]

使用L2范数作为正则化项,下面公式称为ridge

min_w \sum_{i=1}^m(y_i-w^Tx_i)^2+\lambda||w||_2

L2是正则化中的天选之子,在各种防止过拟合和正则化处理过程中,L2正则化可谓风头无两

由于偏导方面的优势,L2正则化项的复杂度比L1要好。

3、Elastic-Net正则化

Elastic-Net正则化是岭回归和Lasso回归的组合,Zou和 Hastie (2005) 引入了 Elastic Net 正则化,可以通过参数\rho调节L1正则化和L2正则化的权重

J(\theta)=\frac{1}{2}\sum_{i}^{m}(y^{(i)}-\theta ^Tx^{(i)})^2+\lambda (\rho\sum_{j}^{n}|\theta_j|+(1-\rho)\sum_{j}^{n}\theta_j^2)

补充:范数

范数可以理解为距离度量的方法。

向量空间中的向量都是有大小的,这个大小如何度量,就是用范数来度量的,不同的范数都可以来度量这个大小,就好比米和尺都可以来度量远近一样

L_{p}=\sqrt[p]{\sum_i^nx_i^p}

当p=1时就是L1范数,p=2时就是L2范数

参考资料

[1] 李航《统计学习方法》

[2] 周志华《机器学习》

[3] L1正则化引起稀疏解的多种解释:https://zhuanlan.zhihu.com/p/50142573

[4] L1正则化的稀疏性:https://vimsky.com/article/3852.html

[5] 深度学习中的正则化:https://github.com/MingchaoZhu/DeepLearning/blob/master/7%20%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E6%AD%A3%E5%88%99%E5%8C%96.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342