【机器学习】入门笔记系列(7) | 评估机器学习算法

如果你喜欢本文的话,不妨点赞、分享或者关注公共号「数据搬瓦工」,上面会同步更新文章。

如何有错误之处,还望大家指点,我将及时修改。

本文重点讲解「评估机器学习算法」


一、评估学习算法

1.1 调试算法的方法

假设你已经实现了正则化线性回归模型去预测房价。然而,当你用新的测试数据集去测试你的模型,你发现预测结果与真实值有很大误差。接下来你应该怎么做?

这里有以下几种调试方法:

  1. 使用更多的训练样本(get more training examples);
  2. 减少特征数(try smaller sets of features);
  3. 增加特征数(try getting additional features);
  4. 增加多项式特征,如 x_1^{2},x_2^{2},x_2x_1...
  5. 减小正则化参数 \lambda
  6. 增加正则化参数 \lambda

注意,不要盲目随机选择一种调试方法,否则会造成时间上的浪费且得不到效果。下面会介绍评价模型的方法并选择合适的调试方法。

1.2 评估假设(Evaluating a Hypothesis)

为了能有效地评估假设, 先要将数据集分成两个部分:训练集(training set),测试集(test set)。通常,将 70% 数据集划分为训练集,30% 的数据集划分为测试集。注意,在数据集分割的时候, 最好先打乱数据的顺序, 以免数据集本身的顺序对我们的评估造成影响。

训练集和测试集的划分

模型训练、测试过程如下:

  1. 使用训练集去最小化 J_{train}(\theta) 和学习参数 \theta
  2. 代入测试集计算测试误差 J_{test}(\theta)

测试误差 J_{test}(\theta) 计算

对于回归问题,J_{test}(\theta) 的计算与回归模型的待机函数计算公式一样,但 J_{test}(\theta) 不需要正则化处理;

而对于分类问题,测试误差是统计错误分类的比例,其计算方法如下:

分类问题的测试误差计算

1.3 模型选择:交叉验证(Cross Validation, CV)

即使一个模型对训练集拟合效果很好,也不能说明它是一个好模型。比如过拟合情况,它对训练集拟合效果好,但泛化能力差对新数据预测结果差。

那么, 如何量化表示模型的泛化能力 / 泛化误差?

你可能会想着采用测试误差作为泛化误差。但这不是一个好方法。请看下面的例子。

当你有以下 10 个模型假设可供选择,

  1. 我们将数据集划分为训练集和测试集;
  2. 对每一个模型假设,用训练集最小化 J_{train}(\theta^{(i)}) 并学习参数 \theta^{(i)}
  3. 然后计算每一个模型假设的测试误差 J_{test}(\theta^{(i)})
  4. 然后选择最小的 J_{test}(\theta^{(i)}) 作为最终的模型假设,比如 J_{test}(\theta^{(5)}) 最小,选择假设 h_\theta(x) = \theta_0 + ... + \theta_5x^5
  5. 模型的泛化误差等于测试误差。
样本二分法模型选择

乍一眼看过去,这种方法是没问题的。实际上,用测试误差代表泛化误差是不合理的。

用测试误差代表泛化误差是不合理的。选中的模型是基于这几个模型假设中最小的测试误差 min~J_{test}(\theta) 。而又将测试误差作为模型的泛化误差,其实是对模型的泛化误差过于乐观的估计。

交叉验证法(CV)

解决上述问题的方法,就是再增加一个集合:验证集(Cross Validation Set),作为中间的过渡层。具体的数据集划分方法如下:

  1. 训练集(一般占 60%);
  2. 验证集(一般占 20%);
  3. 测试集(一般占 20%)。

模型选择就变为:

  1. 我们将数据集划分为训练集、验证集和测试集;
  2. 对每一个模型假设,用训练集最小化 J(\theta^{(i)}) 并学习参数 \theta^{(i)}
  3. 然后计算每一个模型假设的验证误差 J_{cv}(\theta^{(i)})
  4. 然后选择最小的 J_{cv}(\theta^{(i)}) 作为最终的模型假设,比如 J_{cv}(\theta^{(5)}) 最小,选择假设 h_\theta(x) = \theta_0 + ... + \theta_5x^5
  5. 然后计算选中假设的测试误差 J_{test}(\theta^{(5)}),且模型的泛化误差等于测试误差。

验证集作为中间层用于选择模型,而测试误差不再作为选择模型的标准。此时,测试误差作为泛化误差更为合理。

PS:学习参数 \theta^{(i)} 时,即计算 J(\theta^{(i)}) 需要正则化;而计算 J_{train}(\theta^{(i)}),J_{cv}(\theta^{(i)}),J_{test}(\theta^{(i)}) 不需要正则化。用下面代码理解:

计算方式
[theta] = trainLinearReg(X, y, lambda); # 学习参数 theta,需要正则化
J_train(i) = linearRegCostFunction( X, y, theta, 0); # 训练集误差,不需要正则化,故函数最后一个参数是lambda = 0
J_cv(i) = linearRegCostFunction( Xval, yval, theta, 0); # 验证误差,不需要正则化,故函数最后一个参数是lambda = 0

二、诊断欠拟合(underfitting) / 过拟合(overfitting)

2.1 判断欠拟合 / 过拟合

欠拟合(又称为高偏差,high bias)和过拟合(又称为高方差,high variance),这两种情况表现形式如下图所示。欠拟合是模型对训练集拟合效果太差,过拟合时模型对训练集拟合效果太好导致泛化能力太差。

欠拟合和过拟合

结合上面所讲的交叉验证法,学习如何判断欠拟合 / 过拟合:

欠拟合:J_{train}(\theta)J_{cv}(\theta) 值都很大;
过拟合:J_{train}(\theta) 值很小,且 J_{cv}(\theta) >> J_{train}(\theta)

2.2 正则化与欠拟合 / 过拟合

正则化也会对模型产生影响,如下图所示。

过大的正则化参数,会导致受惩罚的参数 \theta_1,...,\theta_n 变得过小且趋近于 0 ,h_\theta(x) \approx \theta_0,最后导致欠拟合;过小的正则化参数,可能会导致过拟合。

总之,正则化参数 \lambda 过大,可能会欠拟合;\lambda 过小,可能会过拟合。

正则化参数产生的欠拟合 / 过拟合

如何选择合适的正则化参数 \lambda?步骤如下:

  1. 创建待选 λ 列表,如 \lambda \epsilon \{0, 0.01, 0.02, 0.04, 0.08, 0.16, 0.32,...\}
  2. 遍历所有 λ 并将每一个 λ 代入中模型中,学习参数 \theta
  3. 再使用得到的参数 \theta,计算每个模型的验证误差 J_{cv}(\theta)
  4. 选择验证误差最小的模型假设,其 λ 值就是该模型合适的正则化参数。

举个例子,模型假设如下图所示。

  1. 创建待选正则化参数列表{0,0.01,0.02,...,10};
  2. 对应每一个 λ 最小化模型的代价函数得到参数 \theta^{(i)},一个 λ 对应一个参数 \theta
  3. 对应计算出各自的验证误差 J_{cv}(\theta^{(i)})
  4. 选最小验证误差,假设是 λ =0.08 时验证误差最小。故此 λ =0.08 是该模型较为合适的正则化参数。
选择合适的正则化参数

三、学习曲线

学习曲线可以帮助我们判断模型处于欠拟合或者过拟合。学习曲线是误差关于训练集大小的函数。

当训练集很小的时候,如训练集只有 1或者2或者3个数据时,模型很容易拟合,此时训练误差 J_{train}(\theta) 就很小,但模型此时泛化能力差,故此时验证误差 J_{cv}(\theta) 就很大;但随着训练集增大,模型拟合效果越来越差,而泛化能力增强,此时 J_{train}(\theta) 增大,J_{cv}(\theta) 减小;

关键的地方来了

如果模型处于欠拟合状态,本身拟合效果不好,随着训练集增加到一定程度再增加时,J_{cv}(\theta) 无法有效降低,并且最后 J_{cv}(\theta) \approx J_{train}(\theta)

如果模型处于过拟合状态,J_{cv}(\theta) >> J_{train}(\theta)。但随着训练集增加,两者的差距逐渐减小,且能有效降低 J_{cv}(\theta)

最后,下图展示欠拟合 / 过拟合情况的学习曲线。当这曲线都是理想化,实际中存在大量噪声。但总体曲线的趋势跟上图曲线一样。

总结:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。

总结

调试方法和适用情况

调试方案 适用情况
使用更多的训练样本 模型处于过拟合
减少特征数 模型处于过拟合
增加特征数 模型处于欠拟合
增加多项式特征 模型处于欠拟合
减小正则化参数 模型处于欠拟合
增加正则化参数 模型处于过拟合

欠拟合 / 过拟合的判断:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。

欠拟合 / 过拟合的特征:

欠拟合:J_{train}(\theta)J_{cv}(\theta) 值都很大;
过拟合:J_{train}(\theta) 值很小,且 J_{cv}(\theta) >> J_{train}(\theta)

补充

最后,看看神经网络和欠拟合 / 过拟合。“较小”的神经网络(隐藏层少或者神经元少)计算资源消耗较小, 但是容易出现欠拟合的问题;而“较大”的神经网络计算资源消耗较大, 但是容易出现过拟合的问题

通常使用越大型的神经网络性能越好。如果出现过拟合问题,使用正则化参数 \lambda 进行修正。

而隐藏层的层数选择可以通过使用上述的交叉验证法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容