What is the differenc between boost, ensemble, bootstrap and bagging?

Boosting

is the idea of training iteratively the same “weak” classifier, so that at each iteration, the i-th classifier is supposed to correct the mistakes made by the previous classifier (i-1). It is done by weighting more the misclassified observations.

The final classifier is calculated by a weighted mean of all the “weak” classifiers, the weights being close to the accuracies calculated for each classifier.

Ensembling

is quite general and encompasses simple methods like Averaging, and

more complicated ones like Boosting, Bagging, Stacking, etc.

Bootstrapping

means taking a sample of a population by drawing with replacement. It

is one of the main ideas behind Bagging (which stands for Bootstrap

AGGregatING).

Bagging means training the same classifier on

different subsets (that may be overlapping) of one dataset. You do so

with bootstrap.


(  二  )原文地址:    http://blog.sina.com.cn/s/blog_5dd2e9270100c8ko.html

bootstrps bagging boosting这几个概念经常用到,现仔细学习了一下:

他们都属于集成学习方法,(如:Bagging,Boosting,Stacking),将训练的学习器集成在一起,原理来源于PAC学习模型(ProbablyApproximately CorrectK)。Kearns和Valiant指出,在PAC学习模型中,若存在一

个多项式级的学习算法来识别一组概念,并且识别正确率很高,那么这组概念是强可学习的;而如果学习算法识别一组概念的正确率仅比随机猜测略好,那么这组概念是弱可学习的。他们提出了弱学习算法与强学习算法的等价性问题,即是否可以将弱学习算法提升成强学习算法。如果两者等价,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。

bootstraps:名字来自成语“pull up by your ownbootstraps”,意思是依靠你自己的资源,它是一种有放回的抽样方法,学习中还发现有种叫jackknife的方法,它是每一次移除一个样本。

bagging:bootstrapaggregating的缩写。让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练倒组成,初始训练例在某轮训练集中可以出现多次或根本不出现训练之后可得到一个预测函数序列h.,⋯⋯h

最终的预测函数H对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。

–(训练R个分类器fi,分类器之间其他相同就是参数不同。其中fi是通过从训练集合中(N篇文档)随机取(取后放回)N次文档构成的训练集合训练得到的。–对于新文档d,用这R个分类器去分类,得到的最多的那个类别作为d的最终类别.)

boosting:其中主要的是AdaBoost(AdaptiveBoosting)。初始化时对每一个训练例赋相等的权重1/n,然后用该学算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较大的权重,也就是让学习算法在后续的学习中集中对比较难的训练铡进行学习,从而得到一个预测函数序列h一⋯h其中h.也有一定的权重,预测效果好的预测函数权重较大,反之较小。最终的预测函数H对分类问题采用有权重的投票方式,对回归问题采用加权平均的方法对新示例进行判别。(类似Bagging方法,但是训练是串行进行的,第k个分类器训练时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率).

Bagging与Boosting的区别:在于Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而Boostlng的训练集的选择是独立的,各轮训练集的选择与前面各轮的学习结果有关;Bagging的各个预测函数没有权重,而Boosting是有权重的;Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成。对于象神经网络这样极为耗时的学习方法。Bagging可通过并行训练节省大量时间开销。bagging和boosting都可以有效地提高分类的准确性。在大多数数据集中,boosting的准确性比bagging高。在有些数据集中,boosting会引起退化。---Overfit

文本分类中使用的投票方法(Voting,也叫组合分类器)就是一种典型的集成机器学习方法。它通过组合多个弱分类器来得到一个强分类器,包括Bagging和Boosting两种方式,二者的主要区别是取样方式不同。Bagging采用均匀取样,而Boosting根据错误率来取样,因此Boosting的分类精度要优于Bagging。投票分类方法虽然分类精度较高,但训练时间较长。Boosting思想的一种改进型AdaBoost方法在邮件过滤、文本分类方面都有很好的性能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 母亲节前一天,给妈妈发了一张自拍,说是礼物。妈妈回复,谢谢宝贝,再不要减肥了。 我妈妈是家庭主妇,没有见过很多世面...
    小毛爱下厨阅读 169评论 0 0
  • 本次上课内容: HFH U4L2 本次作业: 灰色练习册: Workbook - P50. activity A....
    TimmySHENX阅读 312评论 0 0
  • 逆寒流而暖人间,二月春晖了不得; 避人情而行万里,江山如画吾亦然。
    13kate阅读 270评论 0 0
  • 我要习惯 不能时刻去干扰他人的空间 想约周狗蛋出来可是没钱啦 我好烦 在家里的人生是颓废的 啥事都不想做昏昏沉沉的...
    萌石专阅读 149评论 0 0
  • 引言:谁又能轻易的遗忘,青春里不小心受的伤? 【一】 那家洗衣店,我是无意中看到的。在一个很偏僻的巷子里,巷子口那...
    奇吉下樰阅读 192评论 0 0