集成学习的两个基本问题

第一个问题:如何产生好而不同的基学习器?

在2-1中证明集成后错误率降低的一个前提是,基学习器的错误率相互独立。假设我们在同一个样本集上用同一套参数训出若干个基学习器,理论上这些个学习器是一毛一样的。大白话来说就是在进行样本预测时,一对都对,一错都错,这样集成起来就也不会有神马改进作用了。

所以我们希望学习器之间尽可能的相互独立,或者叫好而不同。这样在进行样本预测时,有些能预测对,有些能预测错,但因为错误率都是低于0.5的,所以概率学上来说预测对的总是占多数,这样我们通过投票表决就能大大改善模型的预测作用了。

第二个问题:基学习器如何生成?以及生成后以什么方式组合在一起?

前面举得栗子是一种最简单的生成方式,相当于各个基学习器的生成没什么关系,各生成各的,但这是相对简单的方式,还有更复杂的。

如何组合在一起,投票表决是一种最简单的方式,但还是那句话,有更复杂的方式。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • sklearn、XGBoost、LightGBM的文档阅读小记 文章导航 目录 1.sklearn集成方法 1.1...
    nightwish夜愿阅读 12,693评论 1 49
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,549评论 4 65
  • 因为经历了苦难,所以活着的人要竭尽全力活得美丽,因为经历了战争,所以要更加珍惜美丽人生。 ---题记 具有丰富想象...
    Princelene阅读 289评论 0 3
  • 我不知道自己还能干什么 今天早上,我彻底的崩溃了,不,是最近一直崩溃,特别容易掉眼泪!而最终爆发的导火索是老公早上...
    遇上菲阅读 289评论 3 1
  • 这是我第一次写影评,决定写《阿德尔曼夫妇》这部中间部分情节颠覆我三观的法国电影。 其实我不知道如何准确的来描写这部...
    莎士比亚_b588阅读 1,740评论 0 0