登录注册写文章

L1和L2正则

L1和L2正则

1.从公式上理解

loss function角度

L1和L2都是将权重作为惩罚加到Loss function里，L1正则是加了参数的一范数之和，L2正则是加了参数的二范数之和。

约束条件的角度

对权重进行约束，L1是约束参数的绝对值，L2约束参数的平方。

贝叶斯角度

假设权重满足一定的分布，L1是假设权重符合拉普拉斯分布，L2是假设权重符合高斯分布。

2. 效果上的区别

相同点：
都通过降低模型复杂度来避免过拟合。
不同点：
L1能产生稀疏解，去掉一些冗余特征和相关性比较大的特征，有特征选择的效果。适用于特征之间有关联的情况；
L2能让所有参数都缩小，但是不会降为0。适用于特征之间没有关联的情况。

3. L1能产生稀疏解的原因:

L1将所有小于 $\frac{\lambda}{2}$ 的参数置为0，L2是起到一个缩放的效果。
有两种推导方法:

从贝叶斯的角度，L1正则是权重符合拉普拉斯分布，L2正则是符合高斯分布
参考资料1
求解析解，令梯度为0，看权重的计算公式。用到了泰勒公式
手推过程
参考资料2

采用L1，而不是L0的原因: 凸优化问题、便于求解

【参考资料】

最后编辑于：2019.07.05 10:02:16

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2赞3赞

赞赏

手机看全文