浅析L2参数正则化的数学含义

(L2正则化就是在原目标函数J中添加一个二次正则项(即下式等号右边第二项)(为简化分析,本文假设偏置项全为零,那么参数仅剩权重):

记原目标函数J的最优点是:

,则原目标函数J可在该点用二次多项式近为:

其中H表示J的Hessian矩阵,可以看到上式没有一阶项,这是因为原目标函数在最优点的一阶导等于零。同理,正则化后的目标函数在该点二阶近似的表达式是:

记正则化后的目标函数的最优点是:

图片发自简书App

应该满足,正则化后的目标函数在该点的一阶导数等于零,即以上二次近似式在最优点的一阶导等于零:

因此,L2正则化之后的最优点是:

上式表达了L2正则化前后最优点之间的关系,但物理意义还不是很明显。注意到H矩阵是实对称矩阵,可以分解为一个对角矩阵和一组特征向量构成的标准正交基:

将上式带入上上式,得到:

由上式,可以看出:L2正则化相当于沿着H矩阵特征向量所定义的方向对原最优点进行缩放,缩放因子为:

可见特征值越大,缩放影响越小;特征值越小,缩放影响越大。那么这个缩放有什么意义呢?意义是:在显著减小目标函数的方向(对应较大的特征值)保留原参数;在无助于目标函数减小的方向(对应较小的特征值)上,尽量将相应的参数往0上靠近(即衰减掉)。这么处理,就将训练(参数寻优)的范围缩小了,不仅有效提升了训练效率,还避免了在小特征上耗费过多代价造成过拟合。

参考

《深度学习》Ian Goodfellow等著,赵申剑等译.人民邮电出版社

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容