Philosophy:
通过在不同数据子集的学习,得到简单的规则,让后通过合并简单规则,生成最终的规则。
集成学习为什么要在数据子集而不是大数据上学习?
只有在数据子集上才能学到简单的规则,而在大数据上则不能。
如何挑选数据子集?
均匀采样。
如何集成?
例如:求Mean;
解释 Bagging
Bagging (也叫 bootstrap aggregation)是集成学习的特殊版本,也就是mean的思想,先采集不同的数据子集,然后在各个子集上
学习弱分类器,求多个弱分类器的平均预测值。一般不建议在高bias的baseline模型上使用bagging.
解释 Boosting
不再均匀地选择训练数据,而是通过考虑数据的分布D,选择“困难”的数据(类比我们人类学习的时候,主要精力学不会的知识,已经学会的知识就花更少的精力。)Voting过程也不是简单地平均,而是通过某种标准进行weighted mean
什么是weak learner?
只要比随机猜测好,就是weak learner.
请解释什么是Adaboost?
Adaboost是采用boosting思想的一种具体的算法。其特色是一种线性加权模型。如下图:每个弱分类器对数据集中有各自的样本权重,最终几个弱分类器按照“某一系数”进行线性加权,形成最后的非线性决策平面。这个过程其实有两种加权:1.样本权重; 2.分类器权重。
Adaboost算法中最终集成公式中的alpha系数的公式中为什么采用ln自然对数?
我也没搞懂,这里只是沿用书本中的公式,需要进一步查阅paper进行相关理论的学习。