三个臭皮匠赛过诸葛亮----集成学习算法

转自:https://www.cnblogs.com/wxquare/p/5440664.html有删改

姓名:梁祥        学号:17021210935

【嵌牛导读】:泛化能力是机器学习关注的一个根本问题,其表征了学习系统对新事件的适用性,一般来说泛化能力越强越好。集成方法是构建一种对单个分类器进行集成的学习算法,将各分类器的分类结果以一定的方式集成起来实现对新数据点的分类。其中,单个分类器是独立的且不要求分类精度很高。通过这种方式,大大提高了集成系统的泛化性能。

【嵌牛鼻子】:集成学习,Bagging,Boosting 

【嵌牛提问】:集成学习算法主要有哪些分类?使用的时候应该注意些什么?

【嵌牛正文】:

集成学习(Ensemble Learning)是一种机器学习范式,它使用多个(通常是同质的)学习器来解决同一个问题。它的思想非常简单,集合多个模型的能力,达到“三个臭皮匠,赛过诸葛亮”的效果。

集成学习的结构

这里我把集成学习分为两个大类,第一大类称为模型融合,模型融合其实是个再学习的过程。第一步是训练出多个不同的强学习器,然后考虑如何将这多个学习器组合起来,更进一步提高性能。第二大类称为机器学习元算法,这类算法本身就是多模型组合的结果,只是元算法中的基算法(base_algorithm一般会比较弱),称为弱模型的组合,例如RF、GDBT。

一、模型融合

实际中,我们总可以根据实际问题,训练出多个功能强大学习器,为了进一步提高学习器的能力,可以尝试将这些学习组合起来,这个过程就是模型融合。一般来说模型能在一定程度上提高性能,有时使模型的预测能力更加强大,有时增加模型的泛化能力,显而易见的坏处是多模型的学习加上再学习的过程会增加计算的代价。模型融合在竞赛中十分常见,屡试不爽,融合方法恰当,一般能提高成绩。

1.1 常用的获得不同模型的方法

a. 由于不同的训练模型得到不同的模型,例如处理分类的LR、SVM、RF等

b. 由于同一训练模型调节不同参数获得不同的模型,例如GDBT中迭代次数,每个树的复杂度等

c. 有些算法本身就有一定的随机性,如PLA

d. 由于训练数据不同得到不同的模型,如交叉验证、随机抽样

。。。上面这些生成不同模型可以组合生成更多不同的模型,比较常用的是最前面的两个

1.2 模型融合的方法

通过验证(validation)的方式,从第一步中训练出的多个模型中挑选最佳的模型,作为最终的模型。这种方式必须要验证,不同使Ein最小,否则很容易过拟合。

统一融合(Uniform blending),分类时使用一人一票的投票方式,回归时使用多个模型的平均值。这种方式的优点是一般泛化能力会得到加强,但是只能保证比那些模型中最差的模型要好,不能保证能得到比那些不同模型中的最好的模型要好

线性融合(Linear blending),二次学习,使用线性模型将第一步中学习到的学习器组合起来,用得好可以提高模型性能,但是要注意有过拟合的风险。

堆融合(Any blending、stacking),任何其它非线性模型将那些学习器组合起来,有过拟合的风险,注意验证。

模型融合在实际中十分常见,下面是台大在2011KDDCup获得冠军时使用的模型融合方法,先用了any blending (stacking)处于领先群的位置,最后的linear blend使得台大获得冠军。

二、机器学习元算法

机器学习元算法分为两类:Averaging methods 和Boosting methods

Averaging methods 核心是引入随机(对样本、特征属性随机取样)学习产生多个独立的模型,然后平均所有模型的预测值。一般而言,这种方法,会减小方差(variance),不太会过拟合。主要包括bagging、RF。

Boosting methods 逐步加强方法,该方法集合学习多个模型,提高模型的准确率。不同的是,它是基于前面模型的训练结果(误差),生成新的模型,从而减小偏差(bias)。一般而言,这种方法会比上者的准确率高一点,但是也不是绝对的。它的缺点是有过拟合的风险,另外,由于它每个模型是“序列化”(有前后关系)产生的,不易并行化。它的代表是AdaBoost、GDBT。

2.1 Bagging

Bagging 在原始样本中随机抽样获取子集,用随机抽样的子集训练基学习器(base_estimator),然后对每个基学习器的结果求平均,最终得到的预测值。随机获取样本子集的方法有很多中,最常用的是有放回抽样的booststrap,也可以是不放回的抽样。基学习器可以是相同的模型,也可以是不同的,一般使用的是同一种基学习器,最常用的是DT决策树。由于bagging提供了一种降低方差(variance)的方式,所以一般会使用比较强、复杂的基学习器模型(e.g.fully developed decision trees),作为对比在boosting方法中会使用非常弱的基学习器模型(e.g. shallow decision trees)。在sklearn中实现了基于bagging的分类和回归方法,主要设置参数为基学习器的类型、迭代次数(子模型的个数)、获取训练子集的方式。由于bagging训练每个模型可以并行,还可以设置n_jobs训练模型使用的多少个cpu核。

2.2 随机森林(RF)

RF在实际中使用非常频繁,其本质上可bagging并无不同,只是RF更具体一些。一般而言可以将RF理解为bagging和DT(CART)的结合。RF中基学习器使用的是CART树,由于算法本身能降低方差(variance),所以会选择完全生长的CART树。抽样方法使用bootstrap,除此之外,RF认为随机程度越高,算法的效果越好。所以RF中还经常随机选取样本的特征属性、甚至于将样本的特征属性通过映射矩阵映射到随机的子空间来增大子模型的随机性、多样性。RF预测的结果为子树结果的平均值。RF具有很好的降噪性,相比单棵的CART树,RF模型边界更加平滑,置信区间也比较大。一般而言,RF中,树越多模型越稳定。

2.3 AdaBoost

AdaBoost 是一种Boosting方法,与Bagging不同的是,Adaboost中不同的子模型必须是串行训练获得的,每个新的子模型都是根据已训练出的模型性能来进行训练的,而且Boosting算法中基学习器为弱学习。弱学习器可以理解为只比随机猜测好一点,在二分类情况下,错误率略低0.5即可,实际中常使用 small decision trees。AdaBoost中每个训练样本都有一个权重,这些权重构成了一个向量W,初始值都为为W_i=1/N。Adaboost中每次迭代生成新的子模型使用的训练数据都相同,但是样本的权重会不一样。AdaBoost会根据当前的错误率,增大错误样本权重,减小正确样本权重的原则更新每个样本的权重。不断重复训练和调整权重,直到训练错误率或弱学习器的个数满足用户指定的值为止。Adaboost的最终结果为每个弱学习器加权的结果。使用sklearn中的Adaboot时,主要调节的参数有n_estimator(多少棵树)、max_depth(每棵树的深度。复杂度)或者min_samples_leaf(最少的叶子节点)。

2.4 GDBT

GDBT也是一种Boosting方法,每个子模型是根据已训练出的学习器的性能(残差)训练出来的,子模型是串行训练获得,不易并行化。GDBT使用非常广泛的,能分类,能回归预测。GDBT基于残差学习的算,没有AdaBoost中的样本权重的概念。GDBT结合了梯度迭代和回归树,准确率非常高,但是也有过拟合的风险。GDBT中迭代的残差的梯度,残差就是目前结合所有得到的训练器预测的结果与实际值的差值,不理解可以参考另一篇博客,里面有一个实例介绍如何基于残差来学习预测人的年龄。GDBT的使用也非常的简单,主要调节的参数有确定需要多少棵树(n_estimator)、每棵树的复杂度(max_depth,max_leaf_node)、损失函数(loss)以及学习率(learning_rating)。为了防止过拟合一般学习率会选小一点的(<0.1),learning_rate会影响n_estimator,需要权衡,选择最佳的组合参数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容