正则性衡量了函数光滑的程度,正则性越高,函数越光滑。(光滑衡量了函数的可导性,如果一个函数是光滑函数,则该函数无穷可导,即任意n阶可导)。
正则化的作用:
(1)防止过拟合
(2)正则化项的引入其实是利用了先验知识,体现了人对问题的解的认知程度或者对解的估计。
(3)有助于处理 条件数(condition number)不好的情况下矩阵求逆很困难的问题。
(4)正则化项的引入平衡了偏差(bias)与方差(variance)、拟合能力与泛化能力、经验风险(平均损失函数)与结构风险(损失函数+正则化项)
(5)正则化产生了稀疏性(Sparsity),减少了特征向量个数,降低了模型的复杂度。正则化符合奥卡姆剃刀原理,奥卡姆剃刀原理应用于模型选择时采用以下想法:在所有可能选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。(参考http://www.cnblogs.com/Rosanna/p/3946596.html)
【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释:https://blog.csdn.net/red_stone1/article/details/80755144?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-1