L1，L2 用于正则化还有结构风险

引用： https://blog.csdn.net/red_stone1/article/details/80755144
https://zhuanlan.zhihu.com/p/25707761
https://blog.csdn.net/red_stone1/article/details/80755144
https://www.cnblogs.com/jclian91/p/9824310.html

数学基础：

什么是范数？

$x_p=(\sum_{i=1}^{n}|xi|^p)^{\frac{1}{p}}$

L0范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0。（NP难问题，一般用L1替代）

L1范数

当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。

L2范数

当p=2时，是L2范数，表示某个向量中所有元素平方和再开根，也就是欧几里得距离公式。

拟合.png

L1，L2 范式作结构风险的公式化表示：

虽然蓝色方程的误差要比红色大, 但是蓝色的复杂度更低。那怎么降低函数的复杂度呢？因为 $\theta4$ 越大越复杂拟合的效果也就越好，所以加入( $\theta^2$ )或者( $\theta$ )，如果 $\theta$ 变大（模型变复杂）则函数值会偏大，为了降低函数值，需要在模型复杂度与拟合相似度之间妥协。

以 $y_\theta=\theta_1+\theta_2x+\theta_3x^2+\theta_4x^3$ 为例：

L2 Regularization：

$J(\theta)=[y_\theta(x)-y]^2+[\theta_1^2+\theta_2^2+\theta_3^2+\theta_4^2]$

L1 Regularization：

$J(\theta)=[y_\theta(x)-y]^2+[|\theta_1|+|\theta_2|+|\theta_3|+|\theta_4|]$

L1与L2 范式作为结构风险的目标函数求解可视化

以 $y_\theta=\theta_1+\theta_2x$ 为例，黄色的线是结构风险函数值，蓝色的线是损失函数值，我们的目标是使两者之和最小。但是为什么损失函数是个椭圆呢？因为最优点（X,Y）一般只有一个，然后修改y=ax+b的a或b之后损失函数值必然变大，那么在这个最优点的外围环上肯定能达到一个恒等环。

线性函数拟合.png

因为我们L1方法 $\theta1$ + $\theta2$ 在斜线上是不变的，L2方法 $\theta1^2$ + $\theta2^2$ 在曲面上是不变的。所以结构风险函数也不变，完全看损失函数来确定最优解。从数学上讲，两者相切的时候，结构风险函数最小，也就是说在该损失函数值等高线内，结构风险函数与损失函数之和最小。但是不是说最外围（最内层）的一定是最优解，其他层的相交解也有可能是最优解。

损失函数与结构风险函数的等高线.png

为什么损失函数是一个椭圆曲面？

因为在这个例子中，刻画线性函数的时候，损失函数采用的是 $\sum_{i=0}^{i=n}(w_1*x_i+w_2-y_i)^2$ =某个定值 所以结果是一个关于xi，yi的椭圆曲线函数。

从L1，L2的异同上来看取舍：

1. 从损失函数上来看

L2损失函数	L1损失函数
不是非常的鲁棒（robust）	鲁棒
稳定解	不稳定解
总是一个解	可能多个解

不稳定解：由下图可见，在出现噪音点的时候，L1的偏移比L2的偏移明显很多，说明在不同批次训练时候的解并不稳定。

图片.png

2. 正则化方面

L2正则化	L1正则化
计算效率高（因为有解析解）	在非稀疏情形下计算效率低
非稀疏输出	稀疏输出
无特征选择	内置特征选择

稀疏性指的是一个矩阵（或向量）中只有少数的项是非零的。

为什么稀疏？

左侧L1右侧L2.png

因为曲面损失函数与线性结构风险函数的特点，导致L1下曲面与直线的交点可能落在x轴或者y轴上，从而导致或者有一定的概率为0。但是L2下曲面与曲面的交点为x轴或者y轴的概率基本为9，所以L1正则化的解有稀疏性（较L2有更多解为0）

最后的统一表达形式：
$J(\theta)=[y_\theta(x)-y]^2+\lambda\sum\theta_i^p$

对正则化参数 $\lambda$ 的理解：

正则化的目的是限制参数过多或者过大，避免模型更加复杂。为了达到这一目的，最直观的方法就是限制 w 的个数，但是这类条件属于 NP-hard 问题，求解非常困难。所以，一般的做法是寻找更宽松的限定条件：
$\lambda\sum_{i=0}^{i=n}w_i^2<=C$
对 w 的平方和做数值上界限定，即所有w 的平方和不超过参数 C。这时候，我们的目标就转换为：最小化训练样本误差 Ein，但是要遵循 w 平方和小于 C 的条件。

$\lambda$ 对过拟合与欠拟合的影响

$\lambda$ 过小，所以W1，W2必须变大弥补损失，但是此时的损失函数急剧收缩，从而导致拟合效果非常好，导致过拟合。当然惩罚项 $\lambda$ 设置较大的话，W1，W2也就越稀疏，趋于0。

λ很小，w1和w2很大.png

最后编辑于：2020.08.21 10:52:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,546评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,224评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,911评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,737评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,753评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,598评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,338评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,249评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,696评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,888评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,013评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,731评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,348评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,929评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,048评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,203评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,960评论 2赞 355

L1，L2 用于正则化还有结构风险

1. 从损失函数上来看

2. 正则化方面

推荐阅读更多精彩内容