4月1号GBDT调参的实验报告

一 实验目的:

通过调参进一步熟悉GBDT的模型特性,方便下一步优化模型做回归的效能

二 实验内容:

1.观察弱学习器个数(也就是决策树的个数)与GBDT模型预测的预测偏差(预测值与真实值的均方差MSE)以及模型运行速度的关系

2.观察学习速率大小(也就是步长)与GBDT模型的预测偏差以及模型运行速度的关系

3.观察子采样大小与GBDT模型的预测偏差以及模型运行速度的关系

4.观察决策树最大深度大小与GBDT模型的预测偏差以及模型运行速度的关系

三 实验过程:

4月1号再次调参时并没有采取网上的每每两个参数同时调整来进行调参,而是每次只调整一个参数,符合控制变量的思想,这样以来,不再需要手动一个一个调整,定义了函数,用for循环的方式遍历给定的参数值,然后为了直观的体现出参数变化与GBDT模型性能的关系,这里取了两个指标:

(1)predict erorr :预测偏差 (这里不再像上次那样取好几个回归指标,而是均方差MSE)

(2)latency :模型运行的时间(反应了模型的速度性能)

这两个指标足以表现出一个模型基本的性能。

1.n_estimator,(弱学习器,决策树)的个数对模型的影响



如图我们可以看到,学习器的个数也很大程度的影响着模型的复杂度,

GBDT运行的时长与学习器的个数增长呈正相关

GBDT的预测偏差在一定范围内会随着学习器的增多而显著减少,而在数量过多之后渐渐趋于平稳

2.learning_rate(学习速率)大小对模型的影响




如图我们可以看到,GBDT模型在这个数据集上,模型的运行速度在学习速率(步长)小于0.2之前有两个极大值点,意思是

GBDT的模型的运行速度在一定0.2~0.3之间某个点最大,而后学习速率的增大甚至会缓慢减小GBDT的运行速率,在取得最大速率之前突变起伏,所以在调参时要反复尝试,才能找到模型运行速度的最大值点,

恰好,GBDT的预测偏差最小时也是模型运行速度最快时,也就是

存在一个学习速率使得预测准确率和模型运行速度同时达到最大值

3.subsample(子采样)对模型的影响


子采样的概念:当样本全部使用,则没有子采样,即取值为1。

我们可以看到,GBDT模型在运行中预测偏差出现了两个极小值,分别是子采样值为0.6和1,在0.6之前,子采样的数值太小,只有一小部分样本去做GBDT模型拟合,增加了样本拟合的偏差,所以子采样的值不能太小。

但是在0.6~0.8的样本去拟合GBDT模型的时候,预测偏差反而上升了。这个问题暂时还没想到答案。

但是相比较其他参数而言,MSE均方差的变化范围其实不太大,这点我们可通过观察这几幅图的纵坐标轴来得出。

至于模型的运行速度,又恰好在子采样0.6时最慢,

在0.6~0.8区间内,模型的预测偏差与模型的运行速度同时增大。

4.决策树最大深度max_depth对模型的影响



我们可以看到决策树深度这个值增大,而模型的误差随之增大,当然可能是采用的数据集不够大,我们进一步观察一下决策树深度这个值小于1时的表现,值小于一的意思是百分比,即每颗决策树的深度小于1.


当这个值过小时,每个学习器,也就是每颗决策树的深度都太小,基本上什么都没有学到,所欲预测误差非常大,而运行时间也非常小

在这个数据集中,当这个值等于1时,预测偏差取最小,当然当数据集非常大,数据维度非常多时,据说增大这个值是有很好的效果。


四 实验总结:

1.本次实验取了6个参数,但是另外两个min_samples_split,min_samples_leaf,这两个弱学习器(决策树)参数的调整对模型影响几乎没有。

对此暂时没有清楚原因。需要加强对决策树原理的进一步学习。

2.本次实验暴露出对GBDT原理的理解还很浅,无法把算法的流程和算法的公式与某些参数的关系理清楚,比如子采样和学习速率这两个值,

尚未理解这两个值为什么对预测误差有突变产生。

3.一个模型的评价指标当然不仅仅是速度和预测偏差两个,所以本次实验只是对GBDT算法进行了一个简单的测试评估。

4.现有资料上对GBDT用于数据做回归时,说的数据集大还是小,数据维度多还是少,并没有给出明确的界限,所以还存在一个很模糊问题。

本次采用的数据集是sklearn上的波士顿房价回归数据集,样本600行,12个维度。应该算是小数据集了。所以此次GBDT的表现,应该算是

GBDT在数据量小维度少的数据集上的表现。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容