1.从公式上理解
loss function角度
L1和L2都是将权重作为惩罚加到Loss function里,L1正则是加了参数的一范数之和,L2正则是加了参数的二范数之和。
约束条件的角度
对权重进行约束,L1是约束参数的绝对值,L2约束参数的平方。
贝叶斯角度
假设权重满足一定的分布,L1是假设权重符合拉普拉斯分布,L2是假设权重符合高斯分布。
2. 效果上的区别
相同点:
都通过降低模型复杂度来避免过拟合。
不同点:
L1能产生稀疏解,去掉一些冗余特征和相关性比较大的特征,有特征选择的效果。适用于特征之间有关联的情况;
L2能让所有参数都缩小,但是不会降为0。适用于特征之间没有关联的情况。
3. L1能产生稀疏解的原因:
L1将所有小于的参数置为0,L2是起到一个缩放的效果。
有两种推导方法:
- 从贝叶斯的角度,L1正则是权重符合拉普拉斯分布,L2正则是符合高斯分布
参考资料1 - 求解析解,令梯度为0,看权重的计算公式。用到了泰勒公式
手推过程
参考资料2
- 采用L1,而不是L0的原因: 凸优化问题、便于求解
【参考资料】