集成学习为什么好?

集成为什么比单个学习器要好?针对不同的集成方法、不同的基学习器有不同的证明方法。我们就以一个最简单栗子加以说明。

以二分类问题为场景,假设我们在一个数据集上设法训练出了若干个弱学习器,这些弱学习器的泛化错误率均为ε且相互独立。

补充两点:① 使用同一数据集训练的学习器错误率不可能互相独立,但仍有办法使它们尽量和而不同;② ε至少要小于0.5,不然这个学习器还不如随机猜测。

然后我们用一种最简单的集成方法:使用三个基学习器,对预测样本的类别进行多数表决。那么这个集成模型的错误率是多少呢?是至少两个学习器都判错的概率,公式如下(高中数学):

集成后的错误率

只需证明下面这个公式,就可以证明集成后确实比单个学习器表现好

当ε<0.5时这个不等式是成立的,证明略

只要基学习器的错误率低于随机猜测,并且基学习器不是完全相同的,集成起来就会有更好的表现。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容