Bagging 和 Boosting 的区别

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

Bagging：使用均匀取样，每个样例的权重相等。

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

Bagging：各个预测函数可以并行生成。

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

因此，Gradient Boosting Trees 的中间树不是相互独立的，因为前一棵树的结果影响下一棵树。Random Forest 的中间树相互独立，因此可以并行生成这些树。

在这两种算法中，我们使用随机特征集来生成中间树。

Gradient Boosting Trees 并不总比 Random Forest 好，依赖于数据。

作者：红色石头

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。