(L2正则化就是在原目标函数J中添加一个二次正则项(即下式等号右边第二项)(为简化分析,本文假设偏置项全为零,那么参数仅剩权重):
记原目标函数J的最优点是:
,则原目标函数J可在该点用二次多项式近为:
其中H表示J的Hessian矩阵,可以看到上式没有一阶项,这是因为原目标函数在最优点的一阶导等于零。同理,正则化后的目标函数在该点二阶近似的表达式是:
记正则化后的目标函数的最优点是:
应该满足,正则化后的目标函数在该点的一阶导数等于零,即以上二次近似式在最优点的一阶导等于零:
因此,L2正则化之后的最优点是:
上式表达了L2正则化前后最优点之间的关系,但物理意义还不是很明显。注意到H矩阵是实对称矩阵,可以分解为一个对角矩阵和一组特征向量构成的标准正交基:
将上式带入上上式,得到:
由上式,可以看出:L2正则化相当于沿着H矩阵特征向量所定义的方向对原最优点进行缩放,缩放因子为:
可见特征值越大,缩放影响越小;特征值越小,缩放影响越大。那么这个缩放有什么意义呢?意义是:在显著减小目标函数的方向(对应较大的特征值)保留原参数;在无助于目标函数减小的方向(对应较小的特征值)上,尽量将相应的参数往0上靠近(即衰减掉)。这么处理,就将训练(参数寻优)的范围缩小了,不仅有效提升了训练效率,还避免了在小特征上耗费过多代价造成过拟合。
参考:
《深度学习》Ian Goodfellow等著,赵申剑等译.人民邮电出版社