L1和L2正则

1.从公式上理解

loss function角度

L1和L2都是将权重作为惩罚加到Loss function里,L1正则是加了参数的一范数之和,L2正则是加了参数的二范数之和。

约束条件的角度

对权重进行约束,L1是约束参数的绝对值,L2约束参数的平方。

贝叶斯角度

假设权重满足一定的分布,L1是假设权重符合拉普拉斯分布,L2是假设权重符合高斯分布。

2. 效果上的区别

相同点:
都通过降低模型复杂度来避免过拟合。
不同点:
L1能产生稀疏解,去掉一些冗余特征和相关性比较大的特征,有特征选择的效果。适用于特征之间有关联的情况;
L2能让所有参数都缩小,但是不会降为0。适用于特征之间没有关联的情况。

3. L1能产生稀疏解的原因:

L1将所有小于\frac{\lambda}{2}的参数置为0,L2是起到一个缩放的效果。
有两种推导方法:

  1. 从贝叶斯的角度,L1正则是权重符合拉普拉斯分布,L2正则是符合高斯分布
    参考资料1
  2. 求解析解,令梯度为0,看权重的计算公式。用到了泰勒公式
    手推过程
    参考资料2
  • 采用L1,而不是L0的原因: 凸优化问题、便于求解

【参考资料】

  1. 最大似然估计和最小二乘法怎么理解
  2. L1正则化及其推导
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。