1、正则化定义
在使用神经网络时,为了增加模型的泛化能力,防止模型只在训练集上有效、在测试集上不够有效。正则化是为了防止过拟合, 进而增强泛化能力。用白话文转义,泛化误差(generalization error)= 测试误差(test error)。也可以说是为了使得训练数据训练的模型在测试集上的表现更加优异。
为什么泛化能力不行呢?
描述的数据内容和属性越丰富详实则约束越多,识别的泛化性就差,代表的事物就少。(注意力不集中)
2、正则化惩罚项
正则化惩罚项是机器学习和深度学习中用于防止模型过拟合、提高泛化能力的一种重要技术。通过在损失函数中添加额外的惩罚项,正则化可以限制模型参数(和数据复杂度密切相关)的大小,从而简化模型,降低其复杂度。
那么为什么加上了正则化项能在一定程度上避免过拟合呢?
损失函数产生的损失在学术上称为“经验风险”,后半部分正则化惩罚项产生的损失(加入的正则化项的部分)叫做“结构风险”。所谓的“经验风险”就是指由于拟合结果和样本标签之间的残差总和所产生的经验性差距所带来的风险----毕竟差距越大,拟合失效的可能性就越大(数据越复杂模型越容易过拟合);“结构风险”就是刚才提到的模型不够“简洁”带来的风险,为使模型简洁泛化性能好。
3、正则化的方法
L1正则化:L1正则化通过添加模型参数绝对值的和作为惩罚项,使得一些参数变为零,从而实现特征选择的效果。
整个模型中的所有权重w的绝对值加起来除以样本数量,其中是一个惩罚的权重,可以称为正则化系数或者惩罚系数,表示对惩罚的重视程度。如果很重视结构风险,即不希望结构风险太大,我们就加大,迫使整个损失函数向着权值w减小的方向移动,换句话说,w的值越多、越大,整个因子的值就越大,也就是越不简洁
公式简化:|W|
L2正则化:L2正则化,也称为权重衰减,通过添加模型参数平方的和作为惩罚项,使得参数值更加接近原点,但不会变为零,有助于减小参数值,避免过大的权重导致过拟合。
做平方求和在除以n
公式简化:|w2|
惩罚系数λ为超参数