集成学习
第8章集成学习。这个章节是全书最为重要章节之一,在比赛中用集成学习的方法去提高模型的性能是必备的一项技术,在工程中,当实际问题对计算实时性要求不高的场合,集成学习也被广泛应用于生产中用于提升模型的泛化能力。可以说本章的所有内容都是重要内容,请大家认真对待学习。
第一节学习内容任务名称:西瓜书8.1/8.2/8.3任务详解:
1 本小节学习内容主要包括两大部分,一部分是boosting,另外一部分是bagging与随机森林,这两部分的集成思想是有区别的,请大家重点关注一下这两种集成方法的主要区别是什么?
答: 1 是 Bagging的一个扩展变体,RF是以决策树为基学习器构建Bagging 集成的基础上,进一步在决策树的训练过程中引入随机属性选择。
2 RF中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛华性能可通过个体学习器之间差异度的增加而进一步提升。
3 RF 训练效率 优于Bagging, 因为在个体决策树的构建过程中,Bagging 使用的是确定型决策树,在选择划分属性时要对结点的所有属性进行考察,而随机森林使用的是随即型 的决策树则只考察一个属性子集。
2 其中,我们所熟知的XGBoost和lightGBM就是基于boosting技术进行构建的,准确来说是基于GBDT算法构建的,而西瓜书中对于boosting的介绍,不是很详细,这里我强烈建议大家去一下李航老师的统计学习方法的第8章,值得我们去认真阅读推敲。
https://blog.csdn.net/qq_28487595/article/details/88352387
作业链接: https://github.com/Microsoft/LightGBM/blob/master/examples/python-guide/simple_example.py