学习笔记-机器学习-(7)机器学习应用建议

吴恩达-机器学习课程--10: Advice for applying Machine Learning的学习总结:

当我们发现建立的模型预测错误率很高时,通常会采取以下措施:

Get more training data

Try a smaller set a features

Try getting additional features

Adding polynomial features

Building your own, new, better features

Try decreasing or increasing λ

我们可以运用机器学习的诊断法来判断为了改进算法性能需要做哪些改变,不过诊断法也需要花费一定的时间。

评估预测模型:

将数据集7/3分,分为训练集和测试集,训练集训练模型,测试集测试误差

训练集
测试集

例如逻辑回归算法的误差测试如下:

逻辑回归算法误差测试

可以计算误分类率也就是分类错误的比率:

错误情况
误分类率计算

模型选择:

不同次数多项式模型

把数据集分为三部分

1 - Training set (60%) - m

2 - Cross validation set(CV) (20%) m_{cv} --交叉验证集

3 - Test set(20%) m_{test}

使用训练集训练不同模型参数θ,再用交叉验证集验证所有模型的误差,选择误差最小的那个模型(比如五次)。最后用测试集来测试模型。

诊断高偏差or高方差

算法表现不理想可能是出现了以下两种情况种的一种:

高偏差(high bias)--欠拟合

高方差(hign variance)--过拟合

画出下图可做诊断,x轴为多项式次数,y轴为误差。次数越大越拟合训练集,但因为过拟合,在验证集中表现不好。易知训练集和验证集的误差和次数的关系如图中所示。

诊断图

所以训练集和验证集的误差都高,则发生了欠拟合的情况

训练集误差低而验证集误差高,则发生了过拟合情况

正则化对高偏差/高方差的影响:

以线性回归的正则化为例:

线性回归的正则化

如果λ选取过大,则可能出现欠拟合情况

如果λ选取过小,趋于0,那基本等于没有正则化,可能出现过拟合情况

如何选择合适的λ值呢

--用递增的λ,带入模型测试:

递增的λ

易知训练集和验证集的误差率与λ选取的关系图:


误差率与λ值的关系

学习曲线:

画出学习曲线可以帮助我们检查算法的情况,例如训练集大小与训练集和验证集误差的关系:

训练集m小,模型能很好的拟合数据集,J_{train} 误差极小,而模型泛化能力差,J_{cv} 误差极大。

m增大,模型不能很好的拟合所有训练集了,J_{train} 误差增大,而训练集越大越能训练出合适的模型,泛化能力越好,J_{cv} 误差减小。

练集大小与误差关系

如果出现欠拟合情况,学习曲线如下图:

欠拟合误差曲线

J_{train} J_{cv} 的误差趋于水平,接近且都很高,此时增加数据集对改进算法没有帮助。

如果出现过拟合情况,学习曲线如下图:

过拟合误差曲线

训练集和验证集误差相距很大。当训练集m增大,J_{train} J_{cv} 的误差率会靠近,增加数据集对改进算法可能有帮助。

回到最开始,当我们发现建立的模型预测错误率很高时,通过学习曲线判断情况,选择合适的方式提高算法性能:

Get more examples --> helps to fix high variance

Smaller set of features --> fixes high variance 

Try adding additional features --> fixes high bias (because hypothesis is too simple, make hypothesis more specific)

Add polynomial terms --> fixes high bias

Decreasing λ --> fixes high bias

Increases λ --> fixes high variance

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,590评论 6 517
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 95,157评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 169,301评论 0 362
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 60,078评论 1 300
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 69,082评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,682评论 1 312
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,155评论 3 422
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,098评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,638评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,701评论 3 342
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,852评论 1 353
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,520评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,181评论 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,674评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,788评论 1 274
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,279评论 3 379
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,851评论 2 361