吴恩达机器学习——正则化

7.1过拟合的问题

过拟合问题简单来说就是泛化能力差：所建的机器学习模型在训练样本中准确率很高，在验证数据集中准确率低——也就是说模型难以推广到新的数据。
下图是一个回归问题的例子：

第一个模型是一个线性模型，欠拟合，不能很好地适应我们的训练集；第三个模型是一个四次方的模型，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。我们可以看出，若给出一个新的值使之预测，它将表现的很差，是过拟合，虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好；而中间的模型似乎最合适，它能很好地给出一条判定边界。
分类问题中也存在这样的问题：

就以多项式理解，𝑥 的次数越高，拟合的越好，但相应的预测的能力就可能变差。

问题是，如果我们发现了过拟合问题，应该如何处理？
1.丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一
些模型选择的算法来帮忙（例如 PCA）
2.正则化。保留所有的特征，但是减少参数的大小（magnitude）

该章节主要是从以上两点入手讨论，其实也还有其他方法如数据增强、多模型结合（集成学习思想）、dropout等，在这里主要介绍章节内的两点。

7.2代价函数

上面的回归问题中如果我们的模型是：
$h_\theta (x)=\theta _0+\theta _1x_1+\theta _2{x_2}^2+\theta _3{x_3}^3 +\theta _4{x_4}^4$

我们可以从之前的事例中看出，正是那些高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。(主要思想就是增大系数来减小它们的贡献）

所以我们要做的就是在一定程度上减小这些参数𝜃 的值，这就是正则化的基本方法。我
们决定要减少𝜃3和𝜃4的大小，我们要做的便是修改代价函数，在其中𝜃3和𝜃4 设置一点惩罚。
这样做的话，我们在尝试最小化代价时也需要将这个惩罚纳入考虑中，并最终导致选择较小
一些的𝜃3和𝜃4。

修改后的代价函数如下：
$min\frac{1}{2m}[\sum\nolimits_{i=1}^m(h_\theta (x^{(i)})-y^{(i)} ] )^2+{1000\theta _3}^2+{10000\theta _4}^2]$
这里𝜃3、𝜃4的系数是随便给的，目的是使𝜃3、𝜃4变小——所以，通过这样的代价函数选择出的𝜃3和𝜃4 对预测结果的影响就比之前要小许多。

但是，假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有的特征进行惩罚，
并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的
能防止过拟合问题的假设：

$J(\theta )=\frac{1}{2m}[\sum\nolimits_{i=1}^m(h_\theta (x^{(i)})-y^{(i)} ] )^2+\lambda \sum\nolimits_{j=1}^n\theta _j^2]$
其中𝜆又称为正则化参数（Regularization Parameter）。
注：根据惯例，我们不对𝜃0 进行惩罚。而且这只会引起很小的变化，所以可以基本上不管太深入。

经过正则化处理的模型与原模型的可能对比如下图所示：

如果选择的正则化参数 λ 过大，则会把所有的参数都最小化了，导致模型变成 ℎ𝜃(𝑥) =𝜃0，
也就是上图中红色直线所示的情况，造成欠拟合。这显然不是我们想要的。

而增加的一项 $\lambda \sum\nolimits_{j=1}^n\theta _j^2$ ，引入正则化参数𝜆的目的是为了平衡
“很好地适应训练集”与“保持参数值较小”这两个目的。
所以对于正则化线性回归，我们要取一个合理的 𝜆 的值。因为如果我们令 𝜆 的值很大的话，为了使
Cost Function 尽可能的小，所有的 𝜃 的值（不包括𝜃0）都会在一定程度上减小。
但若 λ 的值太大了，那么𝜃（不包括𝜃0）都会趋近于 0，这样我们所得到的只能是一条
平行于𝑥轴的直线。

回顾一下代价函数，为了使用正则化，让我们把这些概念应用到到线性回归和逻辑回归中去，
那么我们就可以让他们避免过度拟合了。

7.3正则化线性回归

对于线性回归的求解，我们之前推导了两种学习算法：一种基于梯度下降，一种基于正规方程。

正则化线性回归的代价函数为：

$J(\theta )=\frac{1}{2m}[\sum\nolimits_{i=1}^m(h_\theta (x^{(i)})-y^{(i)} ] )^2+\lambda \sum\nolimits_{j=1}^n\theta _j^2]$
如果我们要使用梯度下降法令这个代价函数最小化，因为我们未对进行正则化，所以梯
度下降算法将分两种情形：
𝑅𝑒𝑝𝑒𝑎𝑡 𝑢𝑛𝑡𝑖𝑙 𝑐𝑜𝑛𝑣𝑒𝑟𝑔𝑒𝑛𝑐𝑒{
$\theta _0:=\theta _0-a\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_0^{(i)})$
$\theta _j:=\theta _j-a[\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda }{m} \theta _j]$
}
𝑅𝑒𝑝𝑒𝑎t
对上面的算法中𝑗 = 1,2, . . . , 𝑛 时的更新式子进行调整可得：
$\theta _j:=\theta _j(1-a\frac{\lambda }{m}) -a\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_j^{(i)}$

可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的
基础上令𝜃值减少了一个额外的值。（在原有的𝜃 j上乘上一个小于它的数来把参数压缩了）
我们同样也可以利用正规方程来求解正则化线性回归模型，方法如下所示：

图中的矩阵尺寸为 (𝑛 + 1) ∗ (𝑛 + 1)。

注：
正规化也可以解决奇异方程（退化方程）问题——具体来说，只要正则参数使严格大于0的，实际上可以证明
上面的涉及到的矩阵（这里指上面的正规方程括号里面的部分）就不是奇异的，换而言之，它是可逆的。

7.4正则化的逻辑回归模型

针对逻辑回归问题，我们在之前的课程已经学习过两种优化算法：我们首先学习了使用梯度下降法来优化代价函数𝐽(𝜃)，接下来学习了更高级的优化算法像Conjugate gradient、BFGS(变尺度法)、L-BFGS(限制变尺度法)，这些高级优化算法需要
我们自己设计代价函数𝐽(𝜃)。

自己计算导数同样对于逻辑回归，我们也给代价函数增加一个正则化的表达式，得到代价函数：

J(\theta )=\frac{1}{m} \sum_{i=1}^m[-y^{(i)}log(h_\theta (x^{(i)}))-(1-y^{(i)})log(1-h^\theta (x^{(i)}))]+\frac{\lambda }{2m} \sum_{j=1}^n{\theta _j}^2

Python 代码：
import numpy as np
def costReg(theta, X, y, learningRate):
 theta = np.matrix(theta)
 X = np.matrix(X)
 y = np.matrix(y)
 first = np.multiply(-y, np.log(sigmoid(X*theta.T)))
 second = np.multiply((1 - y), np.log(1 - sigmoid(X*theta.T)))
 reg = (learningRate / (2 * len(X))* np.sum(np.power(theta[:,1:the
ta.shape[1]],2))
 return np.sum(first - second) / (len(X)) + reg

要最小化该代价函数，通过求导，得出梯度下降算法为：
𝑅𝑒𝑝𝑒𝑎𝑡 𝑢𝑛𝑡𝑖𝑙 𝑐𝑜𝑛𝑣𝑒𝑟𝑔𝑒𝑛𝑐𝑒{
$\theta _0:=\theta _0-a\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_0^{(i)})$
$\theta _j:=\theta _j-a[\frac{1}{m} \sum\nolimits_{i=1}^m (h_\theta (x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda }{m} \theta _j]$
𝑓𝑜𝑟 𝑗 = 1,2, . . . 𝑛
}

注：看上去同线性回归一样，但是知道 $h_\theta (x)=g(\theta ^TX)$ ，所以与线性回归不同。

在Octave 中，我们依旧可以用 fminuc 函数来求解代价函数最小化的参数，值得注意的
是参数𝜃0的更新规则与其他情况不同。
注意：

虽然正则化的逻辑回归中的梯度下降和正则化的线性回归中的表达式看起来一样，
但由于两者的ℎ𝜃(𝑥)不同所以还是有很大差别。

这里给出的是正则

𝜃0不参与其中的任何一个正则化。>

吴恩达机器学习——正则化