7 深度学习中的正则化

1 参数泛数惩罚

1.1. $L^2$ 参数正则化
通常被称为权重衰减的 $L^2$ 参数泛数惩罚。这个正则化策略通过向目标函数添加一个正则项 $Ω(θ)=\frac{1}{2}||w||_2^2$ ，使权重更接近原点。
只有在显著减小目标函数方向上的参数会保留的相对完好。对于无助于目标函数见效的方向（对应Hessian矩阵较小的特征值）上改变参数不会显著增加梯度，这种不重要方向上对应的分量会在训练过程中因正则化而衰减掉。
$L^2$ 正则化能让学习算法感知到具有较高方差的输入x，因此与输出目标的协方差较小(也就是相关性不大)的特征的权重将会收缩。
1.2. $L^1$ 参数正则化
$L^1$ 为各个参数的绝对值之和，其定义如下： $Ω(θ)=||w||_1=\sum_i|w_i|$
相比 $L^2$ 正则化， $L^1$ 正则化会产生更稀疏的解。此处稀疏性是指的是最优值中的一些参数为0。由 $L^1$ 正则化导出的稀疏性质已经被广泛地用于特征选择机制。

2 作为约束的范数惩罚

在4.4节中，构造广义的拉格朗日函数来最小化带约束的函数，即在原始的目标函数上添加一系列的惩罚项，如果我们想约束 $Ω(θ)$ 小于k，则拉格朗日函数可以写成：

lagrange with kkt

要优化(调整)的参数：θ和α，θ也就是 $w$ ，α是权重衰减系数，α在 $Ω(θ)$ >k时必须增加，在 $Ω(θ)$ <k时必须减小。所有正值的α都鼓励 $Ω(θ)$ 收缩。最优值 $a^*$ 也鼓励 $Ω(θ)$ 收缩，但不会强到使得 $Ω(θ)$ 小于k。

如果 $Ω$ 是一个 $L^2$ 范数，则权重被限制在一个 $L^2$ 球里面；如果 $Ω$ 是一个 $L^1$ 范数，则权重被限制在一个 $L^1$ 范数限制的区域中。

显式约束和投影：
对于每一个不同的α，都寻找与此对应的k，文中的方法时：先计算 $J(θ)$ 的下降步，然后将θ投影到满足 $Ω(θ)<k$ 的最近点。
好处：1.惩罚可能会导致目标函数非凸，从而陷入局部极小值。2.重投影的显示约束使优化过程增加了一定的稳定性。

Frobenius范数：

最后编辑于：2018.09.14 08:42:55

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

7 深度学习中的正则化