【机器学习】入门笔记系列（7） | 评估机器学习算法

如果你喜欢本文的话，不妨点赞、分享或者关注公共号「数据搬瓦工」，上面会同步更新文章。

如何有错误之处，还望大家指点，我将及时修改。

本文重点讲解「评估机器学习算法」

一、评估学习算法

1.1 调试算法的方法

假设你已经实现了正则化线性回归模型去预测房价。然而，当你用新的测试数据集去测试你的模型，你发现预测结果与真实值有很大误差。接下来你应该怎么做？

这里有以下几种调试方法：

使用更多的训练样本(get more training examples)；
减少特征数(try smaller sets of features)；
增加特征数(try getting additional features)；
增加多项式特征，如 $x_1^{2},x_2^{2},x_2x_1...$ ；
减小正则化参数 $\lambda$ ；
增加正则化参数 $\lambda$

注意，不要盲目随机选择一种调试方法，否则会造成时间上的浪费且得不到效果。下面会介绍评价模型的方法并选择合适的调试方法。

1.2 评估假设(Evaluating a Hypothesis)

为了能有效地评估假设, 先要将数据集分成两个部分：训练集(training set)，测试集(test set)。通常，将 70% 数据集划分为训练集，30% 的数据集划分为测试集。注意，在数据集分割的时候, 最好先打乱数据的顺序, 以免数据集本身的顺序对我们的评估造成影响。

训练集和测试集的划分

模型训练、测试过程如下：

使用训练集去最小化 $J_{train}(\theta)$ 和学习参数 $\theta$ ；
代入测试集计算测试误差 $J_{test}(\theta)$ 。

测试误差 $J_{test}(\theta)$ 计算

对于回归问题， $J_{test}(\theta)$ 的计算与回归模型的待机函数计算公式一样，但 $J_{test}(\theta)$ 不需要正则化处理；

而对于分类问题，测试误差是统计错误分类的比例，其计算方法如下：

分类问题的测试误差计算

1.3 模型选择：交叉验证(Cross Validation, CV)

即使一个模型对训练集拟合效果很好，也不能说明它是一个好模型。比如过拟合情况，它对训练集拟合效果好，但泛化能力差对新数据预测结果差。

那么，如何量化表示模型的泛化能力 / 泛化误差？

你可能会想着采用测试误差作为泛化误差。但这不是一个好方法。请看下面的例子。

当你有以下 10 个模型假设可供选择，

我们将数据集划分为训练集和测试集；
对每一个模型假设，用训练集最小化 $J_{train}(\theta^{(i)})$ 并学习参数 $\theta^{(i)}$ ；
然后计算每一个模型假设的测试误差 $J_{test}(\theta^{(i)})$ ；
然后选择最小的 $J_{test}(\theta^{(i)})$ 作为最终的模型假设，比如 $J_{test}(\theta^{(5)})$ 最小，选择假设 $h_\theta(x) = \theta_0 + ... + \theta_5x^5$ ；
模型的泛化误差等于测试误差。

样本二分法模型选择

乍一眼看过去，这种方法是没问题的。实际上，用测试误差代表泛化误差是不合理的。

用测试误差代表泛化误差是不合理的。选中的模型是基于这几个模型假设中最小的测试误差 $min~J_{test}(\theta)$ 。而又将测试误差作为模型的泛化误差，其实是对模型的泛化误差过于乐观的估计。

交叉验证法(CV)

解决上述问题的方法，就是再增加一个集合：验证集(Cross Validation Set)，作为中间的过渡层。具体的数据集划分方法如下：

训练集（一般占 60%）；
验证集（一般占 20%）；
测试集（一般占 20%）。

模型选择就变为：

我们将数据集划分为训练集、验证集和测试集；
对每一个模型假设，用训练集最小化 $J(\theta^{(i)})$ 并学习参数 $\theta^{(i)}$ ；
然后计算每一个模型假设的验证误差 $J_{cv}(\theta^{(i)})$ ；
然后选择最小的 $J_{cv}(\theta^{(i)})$ 作为最终的模型假设，比如 $J_{cv}(\theta^{(5)})$ 最小，选择假设 $h_\theta(x) = \theta_0 + ... + \theta_5x^5$ ；
然后计算选中假设的测试误差 $J_{test}(\theta^{(5)})$ ，且模型的泛化误差等于测试误差。

验证集作为中间层用于选择模型，而测试误差不再作为选择模型的标准。此时，测试误差作为泛化误差更为合理。

PS：学习参数 $\theta^{(i)}$ 时，即计算 $J(\theta^{(i)})$ 需要正则化；而计算 $J_{train}(\theta^{(i)}),J_{cv}(\theta^{(i)}),J_{test}(\theta^{(i)})$ 不需要正则化。用下面代码理解：

计算方式

[theta] = trainLinearReg(X, y, lambda); # 学习参数 theta，需要正则化
J_train(i) = linearRegCostFunction( X, y, theta, 0); # 训练集误差，不需要正则化，故函数最后一个参数是lambda = 0
J_cv(i) = linearRegCostFunction( Xval, yval, theta, 0); # 验证误差，不需要正则化，故函数最后一个参数是lambda = 0

二、诊断欠拟合(underfitting) / 过拟合(overfitting)

2.1 判断欠拟合 / 过拟合

欠拟合（又称为高偏差,high bias）和过拟合（又称为高方差,high variance），这两种情况表现形式如下图所示。欠拟合是模型对训练集拟合效果太差，过拟合时模型对训练集拟合效果太好导致泛化能力太差。

欠拟合和过拟合

结合上面所讲的交叉验证法，学习如何判断欠拟合 / 过拟合：

欠拟合： $J_{train}(\theta)$ 与 $J_{cv}(\theta)$ 值都很大；
过拟合： $J_{train}(\theta)$ 值很小，且 $J_{cv}(\theta) >> J_{train}(\theta)$

2.2 正则化与欠拟合 / 过拟合

正则化也会对模型产生影响，如下图所示。

过大的正则化参数，会导致受惩罚的参数 $\theta_1,...,\theta_n$ 变得过小且趋近于 0 ， $h_\theta(x) \approx \theta_0$ ，最后导致欠拟合；过小的正则化参数，可能会导致过拟合。

总之，正则化参数 $\lambda$ 过大，可能会欠拟合； $\lambda$ 过小，可能会过拟合。

正则化参数产生的欠拟合 / 过拟合

如何选择合适的正则化参数 $\lambda$ ？步骤如下：

创建待选 λ 列表，如 $\lambda \epsilon \{0, 0.01, 0.02, 0.04, 0.08, 0.16, 0.32,...\}$ ；
遍历所有 λ 并将每一个 λ 代入中模型中，学习参数 $\theta$ ；
再使用得到的参数 $\theta$ ，计算每个模型的验证误差 $J_{cv}(\theta)$ ；
选择验证误差最小的模型假设，其 λ 值就是该模型合适的正则化参数。

举个例子，模型假设如下图所示。

创建待选正则化参数列表{0,0.01,0.02,...,10}；
对应每一个 λ 最小化模型的代价函数得到参数 $\theta^{(i)}$ ，一个 λ 对应一个参数 $\theta$ ；
对应计算出各自的验证误差 $J_{cv}(\theta^{(i)})$ ；
选最小验证误差，假设是 λ =0.08 时验证误差最小。故此 λ =0.08 是该模型较为合适的正则化参数。

选择合适的正则化参数

三、学习曲线

学习曲线可以帮助我们判断模型处于欠拟合或者过拟合。学习曲线是误差关于训练集大小的函数。

当训练集很小的时候，如训练集只有 1或者2或者3个数据时，模型很容易拟合，此时训练误差 $J_{train}(\theta)$ 就很小，但模型此时泛化能力差，故此时验证误差 $J_{cv}(\theta)$ 就很大；但随着训练集增大，模型拟合效果越来越差，而泛化能力增强，此时 $J_{train}(\theta)$ 增大， $J_{cv}(\theta)$ 减小；

关键的地方来了

如果模型处于欠拟合状态，本身拟合效果不好，随着训练集增加到一定程度再增加时， $J_{cv}(\theta)$ 无法有效降低，并且最后 $J_{cv}(\theta) \approx J_{train}(\theta)$ ；

如果模型处于过拟合状态， $J_{cv}(\theta) >> J_{train}(\theta)$ 。但随着训练集增加，两者的差距逐渐减小，且能有效降低 $J_{cv}(\theta)$ 。

最后，下图展示欠拟合 / 过拟合情况的学习曲线。当这曲线都是理想化，实际中存在大量噪声。但总体曲线的趋势跟上图曲线一样。

总结：通过逐步增加训练集，绘制学习曲线来判断增加数据集是否对模型有用。

总结

调试方法和适用情况

调试方案	适用情况
使用更多的训练样本	模型处于过拟合
减少特征数	模型处于过拟合
增加特征数	模型处于欠拟合
增加多项式特征	模型处于欠拟合
减小正则化参数	模型处于欠拟合
增加正则化参数	模型处于过拟合

欠拟合 / 过拟合的判断：通过逐步增加训练集，绘制学习曲线来判断增加数据集是否对模型有用。

欠拟合 / 过拟合的特征：

欠拟合： $J_{train}(\theta)$ 与 $J_{cv}(\theta)$ 值都很大；
过拟合： $J_{train}(\theta)$ 值很小，且 $J_{cv}(\theta) >> J_{train}(\theta)$

补充

最后，看看神经网络和欠拟合 / 过拟合。“较小”的神经网络（隐藏层少或者神经元少）计算资源消耗较小, 但是容易出现欠拟合的问题；而“较大”的神经网络计算资源消耗较大, 但是容易出现过拟合的问题

通常使用越大型的神经网络性能越好。如果出现过拟合问题，使用正则化参数 $\lambda$ 进行修正。

而隐藏层的层数选择可以通过使用上述的交叉验证法。

【机器学习】入门笔记系列（7） | 评估机器学习算法