L1、L2正则推导

    本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。

    正则化是机器学习中常用解决过拟合,减低模型复杂程度的技术。方法比较简单就是在损失函数后添加惩罚项L1、L2,两种正则化的效果也不太一样。它们的公式如下:

一、L1、L2的推导

        1、利用拉格朗日

                最小化损失函数的本质是找到模型权重系数w,即最小化如下函数:

最小化损失函数

                我们的目的是为了减少模型复杂程度,我们可以从什么方向考虑呢?我们都知道减少特征能够降低模型的复杂度,减少特征可以通过让模型的特征系数w为0,来达到减少特征的目的。因此,我们可以让W向量中某些元素为0或者说控制W中非零元素的个数,控制数量添加约束条件即可:

加入约束条件

                0范数表示非零元素的数量,由于0范数不宜求解,实际中常使用1范数代替0分数求解;或者2范数,二范数可以使得W中的元素很小,接近0。即公式如下:

                加入条件后,利用拉格朗日将带约束条件的函数转为不带约束项的优化问题。

                其中,a大于0,最小化L(w,a)也就等价于:

        2、利用拉普拉斯分布和高斯分布

         模型权重w可以看成是一个随机变量,符合某种分布,根据最大后验概率估计。

       后面的P(w)可以看成一个先验和条件,取对数得:

       对于后面的先验条件logP(w),假设w符合高斯分布,则:

     同理,假设w符合拉普拉斯分布:

      可以看到,在高斯分布和拉普拉斯分布的前提下,logP(w)的效果等价于损失函数中添加了L2、L1正则。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容