机器学习入门(九)——正则化:L1正则、L2正则

        在系列(八)中提到了机器学习最重要就是降低模型的方差,即解决过拟合的问题,其中最重要的一种方法就是模型正则化,通常有L1正则和L2正则。

演示代码见:https://github.com/eqdward/ML_Algorithms/blob/master/L1_L2_Regulation

1.0 模型正则化

        模型正则化(Regularization),就是通过对算法模型的修正(即降低复杂度),限制参数(即自变量)的规模(数量和幂次数),减少泛化误差(方差)而不是训练误差(偏差)。例如当使用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候就需要使用正则化,降低模型的复杂度。

        实践中,过于复杂的模型不一定能够模拟结果的真实生成过程,甚至也不包括近似过程。这意味着在建模时就控制模型的复杂程度并不是一个有效的方法,或者说不能很好的找到合适的模型,所以通常做法是构建一个适当正则化的大型(复杂)模型

      正则化的策略包括:通过对模型建立约束和惩罚,使模型偏好与简单化的表达(奥卡姆剃刀原理的应用),即模型复杂则对其处罚。其他形式的正则化如集成的方法,即结合多个假说解释训练数据。

2.0 L1正则化和LASSO回归

        L1正则化就是在损失函数中加了L1范数这一项,而使用L1正则化的模型叫做LASSO回归,中文常叫套索回归。

2.1 LASSO回归

        以线性回归为例:线性回归中为了确定最终的模型参数采用的是求损失函数最小,为了避免数据数量增加带来的方差增大选择了均方差MSE作为损失函数,如下式:J(\theta)= \sum_{1}^m (y^{(i)} - \theta _0 - \theta _1X_1^i - \theta _2X_2^i...- \theta _nX_n^i)^2=MSE(y,X;\theta )

        由于数据集本身的大小是固定的,那么当模型过于复杂时,会导致\theta的绝对值变大,因此为了限制\theta的增大,在损失函数后加入正则化(惩罚项),如下所示:

J(\theta)= MSE(y,X;\theta )+\alpha \sum_{i=1}^n\vert \theta _{i}  \vert

       这样的话,要使损失函数尽可能小就要综合考虑两项,第一项就是均方差MSE,第二项是系数\theta_{i} 的绝对值,这样就要求在二者之间寻求一个平衡,这就是一种模型正则化的基本原理。该种形式的正则化就是L1正则化,而这也的回归模型被称为“LASSO回归”(Least Absolute Shrinkage and Selection Operator Regression)。

        在这里有几个细节需要注意:

        (1)系数\theta_{i} 的取值范围是1~n,即不包含\theta_{0} 。这是因为\theta_{0} 不是任何一个参数的系数,只是截距。反映到图形上就是反映了曲线的高低位置,而不决定曲线的趋势,所以模型正则化时不需要考虑。

        (2)正则化项前面的系数\alpha 叫做超参数,含义是让系数\theta_{i} 尽可能小的程度占整个优化损失函数程度的多少,也可以理解为惩罚项的惩罚力度。

2.2 LASSO回归与稀疏性

         LASSO回归的全称是Least Absolute Shrinkage and Selection Operator Regression。这里的selection operator说明LASSO回归包含了特征选择功能。具体来说,就是LASSO回归可以使得模型系数\theta_{i} 具有稀疏性,即得到的系数矩阵是一个稀疏矩阵。

        (注:稀疏性和稀疏矩阵,简单说就是存在很多0。系数结果为系数矩阵,表明只有少数特征(系数为非0)对模型有作用,其他(系数为0)特征即使去掉可以认为对模型没有影响,此时就可以只关注系数是非零值的特征。)

        LASSO回归相当于对模型进行了一次特征选择,只留下一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。

3.0 L2正则化和RIDGE回归

        L1正则化的惩罚项采用了求\theta_{i} 绝对值加和的形式\sum_{i=1}^n\vert \theta _{i}  \vert  ,其实可以看做是系数矩阵距离空间原点的曼哈顿距离。既然有曼哈顿距离,自然也有欧式距离\sum_{i=1}^n(\theta _{i} )^2,这就是L2正则化的形式。使用L2正则化的模型叫做RIDGE回归,中文名叫岭回归。L2正则化形式如下:

J(\theta)= MSE(y,X;\theta )+\alpha \sum_{i=1}^n(\theta _{i} )^2

        需要注意的是,L2与L1的差异性在于不会使系数矩阵稀疏化L2正则化能够让系数比较小(接近0),但是比较平滑(不等于0),因此不具有稀疏性。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容