为解决过拟合问题,加入正则化项或者规则项,对模型的复杂程度进行惩罚,让模型更加简单。
规则化函数Ω(w)通常可以选择L1、L2范数。
λ 在这里我们称做正则化参数。它是用来平衡拟合训练的目标和保持参数值较小的目标。一方面我们想要训练的模型能更好地拟合训练数据,希望模型能够很好的适应训练集;另一方面是我们想要保持参数值较小,模型较为简单。
规则项/正则化项
L0范数:非零元素的个数。在实际应用中,由于L0范数本身不容易有一个好的数学表示形式,给出上面问题的形式化表示是一个很难的问题,所以在实际情况中,L0的最优问题会被放宽到L1或L2下的最优化。
L1范数:非零元素的绝对值之和,对应的是常说的曼哈顿距离、最小绝对误差等。线性回归的L1范数正则化对应的是Lasso回归。L1范数可以使得一些系数变小,甚至还是一些绝对值较小的系数直接变为0,因此特别适用于参数数目缩减与参数的选择。
L2范数:向量元素的平方和再开平方,对应的是常说的欧氏距离。线性回归的L2范数正则化对应的是Ridge回归(岭回归。)Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但和Lasso回归比,这会使得模型的特征留的特别多,模型解释性差。
总结:
L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。L1、L2都可以防止过拟合,只不过手段不同:L1是舍弃掉一些不重要的特征,L2是控制所有特征的权重。
之所以要实现稀疏,是因为一方面要去掉那些没有较大影响的特征,起到特征选择的作用;另一方面也是为了让模型更加容易解释。
另,正则化还可以解决特征数量大于样本数量的问题。
如果你只有较少的样本,导致特征数量大于样本数量,那么矩阵 XTX 将是不可逆矩阵或奇异(singluar)矩阵,或者用另一种说法是这个矩阵是退化(degenerate)的,那么我们就没有办法使用正规方程来求出 θ 。
幸运的是,正规化也为我们解决了这个问题,具体的说只要正则参数是严格大于零,实际上,可以证明如下矩阵:
将是可逆的。因此,使用正则还可以照顾任何 XTX 不可逆的问题。
参考文献: