7 深度学习中的正则化

1 参数泛数惩罚

1.1. L^2参数正则化
通常被称为权重衰减的 L^2参数泛数惩罚。这个正则化策略通过向目标函数添加一个正则项Ω(θ)=\frac{1}{2}||w||_2^2,使权重更接近原点。
只有在显著减小目标函数方向上的参数会保留的相对完好。对于无助于目标函数见效的方向(对应Hessian矩阵较小的特征值)上改变参数不会显著增加梯度,这种不重要方向上对应的分量会在训练过程中因正则化而衰减掉。
L^2正则化能让学习算法感知到具有较高方差的输入x,因此与输出目标的协方差较小(也就是相关性不大)的特征的权重将会收缩。
1.2.L^1参数正则化
L^1为各个参数的绝对值之和,其定义如下:Ω(θ)=||w||_1=\sum_i|w_i|
相比L^2正则化,L^1正则化会产生更稀疏的解。此处稀疏性是指的是最优值中的一些参数为0。由L^1正则化导出的稀疏性质已经被广泛地用于特征选择机制。

2 作为约束的范数惩罚

在4.4节中,构造广义的拉格朗日函数来最小化带约束的函数,即在原始的目标函数上添加一系列的惩罚项,如果我们想约束Ω(θ)小于k,则拉格朗日函数可以写成:

lagrange with kkt

要优化(调整)的参数:θ和α,θ也就是w,α是权重衰减系数,α在Ω(θ)>k时必须增加,在Ω(θ)<k时必须减小。所有正值的α都鼓励Ω(θ)收缩。最优值a^*也鼓励Ω(θ)收缩,但不会强到使得Ω(θ)小于k。

如果Ω是一个L^2范数,则权重被限制在一个L^2球里面;如果Ω是一个L^1范数,则权重被限制在一个L^1范数限制的区域中。

显式约束和投影:
对于每一个不同的α,都寻找与此对应的k,文中的方法时:先计算J(θ)的下降步,然后将θ投影到满足Ω(θ)<k的最近点。
好处:1.惩罚可能会导致目标函数非凸,从而陷入局部极小值。2.重投影的显示约束使优化过程增加了一定的稳定性。

Frobenius范数:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容