bagging: 基于数据随机重抽样的分类器构建方法
自举汇聚法(bootstrap aggregating),也叫做bagging方法,是从原始数据集选择S次(有放回的抽取)后得到S个新数据集的一种技术。新数据集和原始数据集的大小相等(维数和列数都相等)。每个数据集都是通过在原始数据集中随机选择一个来进行替换而得到的。
在S个数据集建好之后,将某个机器学习算法分别作用域每个数据集就可以得到S个分类器。当我们对新数据进行分类时,就可以应用S个分类器进行分类。与此同时,选择分类器投票结果最多的类别作为最后的分类结果。
目前,有一种改进的bagging方法,如随机森林(RF,随机森林不同的是,它对列也进行采样),它在一定程度上可以防止过拟合,也是对决策树的一种改进。
boosting是一种与bagging很类似的技术。不论是boosting还是bagging当中,当使用的多个分类器的类型都是一致的。但是在前者当中,不同的分类器是通过串行训练而获得的,每个新分类器都根据已训练出的分类器的性能来进行训练。boosting是通过训练集中关注被已有分类器错分的那些数据来获得新的分类器。
boosting方法有多个版本,当前最流行便属于AdaBoost。