GBDT模型总结(GB,DT,调参)

一.集成学习方法:参考:https://www.jianshu.com/p/6c0a286020cb

二.GB的理解(就是用梯度下降的方法来解Boosting,所以叫GB,目标是求出boost的函数组合的最优解)

1.首先理解梯度下降

a.求解目标函数J(theta)的最优解,本质上是一轮一轮的求解w

b.这句话是对比理解的关键:

2.对比理解多轮迭代后的函数最优解

根据上述的梯度下降法的思路,对于模型的损失函数L(y,F(X)),为了能够求解出最优的函数F∗(X),首先,设置初始值为:

               F0(X)=f0(X)

以函数F(X)作为一个整体,对于每一个样本X(i),都存在对应的函数值F(X(i))。与梯度下降法的更新过程一致,假设经过M代,得到最优的函数F∗(X)为

以函数F(X)作为一个整体,对于每一个样本X(i),都存在对应的函数值F(X(i))。与梯度下降法的更新过程一致,假设经过M代,得到最优的函数F∗(X)为:

这里要和梯度下降对比下,这里是反向思考:因为梯度下降是通过梯度下降的方法求出w参数值,最后就是经过了M轮迭代求出最优解w*.  这里的w是参数,同样的思想对比到函数F(x)上,将F(x)视为整体类似于w,最后通过多轮迭代求出F*(x)最优解

3.理解GB

由上图所示的Boosting方法中,最终的预测结果为b个学习器结果的合并:

由于上述是一个求解梯度的过程,因此也称为基于梯度的Boost方法,其具体过程如下所示


Loss函数选择,一般有对数和指数损失函数

也可参看https://pan.baidu.com/s/1slP4J1r,通过上面的算法,就能够求出boost的函数组合的最优解

三.理解DT

决策树,树生成算法(ID3,C4.5,CART)

CART(回归树:[启发式方法(即随机选择第j个变量和它的取值进行划分),遍历特征和各个特征的取值](最小二乘法,计算平方误差最小化来选择最终位置),分类树:[Gini系数])。

四.使用模型(总体分为Boost & CART分类树相关参数的调节)

sklearn地址:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#

中文辅助:http://blog.sina.com.cn/s/blog_62970c250102xg5j.html

loss:loss function to be optimized. ‘deviance’ refers to deviance (= logistic regression) for classification with probabilistic outputs. For loss ‘exponential’ gradient boosting recovers the AdaBoost algorithm.(损失函数的选择:GradientBoostingClassifier类的损失函数有对数似然损失函数"deviance"和指数损失函数"exponential"两个选项。默认值是对数似然损失函数"deviance")

learning_rate:learning rate shrinks the contribution of each tree by learning_rate. There is a trade-off between learning_rate and n_estimators.(我理解是各个基础模型,在梯度下降训练时的步长)

n_estimators:The number of boosting stages to perform. Gradient boosting is fairly robust to over-fitting so a large number usually results in better performance.(基础模型的数量,过多容易过拟合,在实际的调参过程中,常常将它和参数learning_rate一起来考虑)

max_depth:maximum depth of the individual regression estimators. The maximum depth limits the number of nodes in the tree. Tune this parameter for best performance; the best value depends on the interaction of the input variables(CART分类树的树深度,默认为3,如果样本量少不用设置,如果样本量大建议调整)

min_samples_split:The minimum number of samples required to split an internal node(树中各节点最小数量,如果大于这个值就需要继续划分子树)

min_samples_leaf:The minimum number of samples required to be at a leaf node(叶子节点最小数量,如果大于这个数就会和兄弟节点一起被剪支)

subsample:基础模型在训练的时候使用的样本数量,默认为1,全样本。如果样本量比较大,可以考虑部分样本

max_features:基础模型训练时候使用的feature数量

verbose:这个参数可以看每轮训练的结果

使用Kaggle上的Titanic项目(可以参考:https://www.jianshu.com/writer#/notebooks/28365911/notes/32040639),通过调参,最终输出模型的得分是9.652

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容

  • 前言 最近在理清一些很必要的也很基础的东西,记录一下,结合网上和文献,自己也有些易化使之更轻松理解,如有错误,请不...
    mrlevo520阅读 54,610评论 8 78
  • About 个人同时在简书和自制个人博客两个地方同时更新文章,有兴趣的话可以来我的博客玩呀,一般而言排版会好不少。...
    DeamoV阅读 2,954评论 0 1
  • 随机森林,首先先简单介绍一下集成学习方法和决策树算法。 Bagging和Boosting 概念及区别 Baggin...
    知若行阅读 4,470评论 0 1
  • 春风碧玉万千条似帘似瀑起春潮晓岸枝折江边月晚溪絮飞销魂桥章台莫言夸身瘦世间谁敢斗妖娆影透轻烟穿泥燕青丝垂饵钓金鳌
    浅风淡淡云阅读 551评论 4 28
  • “2008年的美国经济危机荣登世界头条,罗斯福新政又涉及美国惜日次贷危机。这个知识点一定会考,同学们一定要背好,高...
    Snail佳佳老师阅读 496评论 14 18