L1,L2 用于正则化还有结构风险

引用: https://blog.csdn.net/red_stone1/article/details/80755144
https://zhuanlan.zhihu.com/p/25707761
https://blog.csdn.net/red_stone1/article/details/80755144
https://www.cnblogs.com/jclian91/p/9824310.html


数学基础:

什么是范数?

x_p=(\sum_{i=1}^{n}|xi|^p)^{\frac{1}{p}}

  • L0范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。(NP难问题,一般用L1替代)

  • L1范数

当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。

  • L2范数

当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。

拟合.png

L1,L2 范式作结构风险的公式化表示:

虽然蓝色方程的误差要比红色大, 但是蓝色的复杂度更低。那怎么降低函数的复杂度呢?因为\theta4越大越复杂拟合的效果也就越好,所以加入(\theta^2)或者(\theta),如果\theta变大(模型变复杂)则函数值会偏大,为了降低函数值,需要在模型复杂度与拟合相似度之间妥协。

y_\theta=\theta_1+\theta_2x+\theta_3x^2+\theta_4x^3为例:

  • L2 Regularization:

J(\theta)=[y_\theta(x)-y]^2+[\theta_1^2+\theta_2^2+\theta_3^2+\theta_4^2]

  • L1 Regularization:

J(\theta)=[y_\theta(x)-y]^2+[|\theta_1|+|\theta_2|+|\theta_3|+|\theta_4|]


L1与L2 范式作为结构风险的目标函数求解可视化

y_\theta=\theta_1+\theta_2x为例,黄色的线是结构风险函数值,蓝色的线是损失函数值,我们的目标是使两者之和最小。但是为什么损失函数是个椭圆呢?因为最优点(X,Y)一般只有一个,然后修改y=ax+b的a或b之后损失函数值必然变大,那么在这个最优点的外围环上肯定能达到一个恒等环。

线性函数拟合.png

因为我们L1方法 \theta1+\theta2 在斜线上是不变的,L2方法 \theta1^2+\theta2^2 在曲面上是不变的。所以结构风险函数也不变,完全看损失函数来确定最优解。从数学上讲,两者相切的时候,结构风险函数最小,也就是说在该损失函数值等高线内,结构风险函数与损失函数之和最小。但是不是说最外围(最内层)的一定是最优解,其他层的相交解也有可能是最优解。

损失函数与结构风险函数的等高线.png
  • 为什么损失函数是一个椭圆曲面?

因为在这个例子中,刻画线性函数的时候,损失函数采用的是\sum_{i=0}^{i=n}(w_1*x_i+w_2-y_i)^2=某个定值 所以结果是一个关于xi,yi的椭圆曲线函数。


从L1,L2的异同上来看取舍:

1. 从损失函数上来看

L2损失函数 L1损失函数
不是非常的鲁棒(robust) 鲁棒
稳定解 不稳定解
总是一个解 可能多个解

不稳定解:由下图可见,在出现噪音点的时候,L1的偏移比L2的偏移明显很多,说明在不同批次训练时候的解并不稳定。

图片.png

2. 正则化方面

L2正则化 L1正则化
计算效率高(因为有解析解) 在非稀疏情形下计算效率低
非稀疏输出 稀疏输出
无特征选择 内置特征选择

稀疏性指的是一个矩阵(或向量)中只有少数的项是非零的。

为什么稀疏?

左侧L1右侧L2.png

因为曲面损失函数与线性结构风险函数的特点,导致L1下曲面与直线的交点可能落在x轴或者y轴上,从而导致或者有一定的概率为0。但是L2下曲面与曲面的交点为x轴或者y轴的概率基本为9,所以L1正则化的解有稀疏性(较L2有更多解为0)


最后的统一表达形式:
J(\theta)=[y_\theta(x)-y]^2+\lambda\sum\theta_i^p


对正则化参数\lambda的理解:

正则化的目的是限制参数过多或者过大,避免模型更加复杂。为了达到这一目的,最直观的方法就是限制 w 的个数,但是这类条件属于 NP-hard 问题,求解非常困难。所以,一般的做法是寻找更宽松的限定条件:
\lambda\sum_{i=0}^{i=n}w_i^2<=C
对 w 的平方和做数值上界限定,即所有w 的平方和不超过参数 C。这时候,我们的目标就转换为:最小化训练样本误差 Ein,但是要遵循 w 平方和小于 C 的条件。


  • \lambda对过拟合与欠拟合的影响

\lambda过小,所以W1,W2必须变大弥补损失,但是此时的损失函数急剧收缩,从而导致拟合效果非常好,导致过拟合。当然惩罚项\lambda设置较大的话,W1,W2也就越稀疏,趋于0。

λ很小,w1和w2很大.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容