随机森林算法梳理

  1. 集成学习概念
    集成学习就是组合多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成学习通过构建并结合多个学习器来完成学习任务。只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的。

  2. 个体学习器概念
    个体学习器是继承学习的基本组成单元。相当于决策树之于随机森林。

  3. boosting bagging

  • Bagging是bootstrap aggregating的简写,是一种有放回的抽样方法,并行的模式,可以减小方差。得到若干个数据集,每个数据集上训练一个模型。对于分类问题而言,若干模型投票确定;回归问题,求平均。随机森林用的是bagging思想。
  • Boosting:是一种可以用来减小监督学习中偏差的机器学习算法,串行的模式。常用的有:Adaboost通过提高判错样本的权重进行训练,不断关注判错样本。GBDT在训练过程中,不断降低模型上一时刻的残差,最终逼近真实值。常用的基分类器是决策树,即每一棵新建的树都是对之前所有树的残差的拟合。
  1. 结合策略(平均法,投票法,学习法)
  • 平均法:简单平均:对结果求平均值;加权平均:对结果求加权平均值。
  • 投票法:绝对多数投票法(超一半);相对多数投票法(最多的);加权投票法。
  • 学习法:将结果通过另外的学习器得到最终结果。比如Stacking。
  1. 随机森林思想
    在决策树的基础上,通过对数据有放回的抽样得到不同的数据集分别训练不同的决策树,在节点分裂时也随机随机选择特征进行分裂,得到多个结果,对结果进行汇总得到最后的结果。

  2. 随机森林的推广
    Isolation Forest

  3. 优缺点

  • 优点:
    简单。
    不用做特征选择。
    高度可并行化,对于大样本数据在训练速度上有优势。
    可随机选择节点划分特征,可在高样本特征维度下保持高效的训练速度。
    在训练后,可以得到各个特征对于输出的重要性,有特征选择的作用。
    随机采样加特征随机选择可以使得结果泛化能力强。
    对特征缺失不敏感。
  • 缺点:
    当特征的选择情况多时,会影响模型的结果。
    当数据中存在的噪声较大时可能会过拟合。
  1. sklearn参数
    Sklearn.ensemble.RandomForestClassifier对随机森林的分类算法进行了实现,以下是经常调整的超参数:
    n_estimators:随机森林中基分类器的数量
    criterion:节点分裂标准
    max_depth:建树的最大深度
    min_samples_leaf:叶子节点所需最小样本数
    max_leaf_nodes:最大叶子节点数,控制树的宽度

    具体应用场景中,超参数的选择很重要,往往通过网格搜索、贝叶斯搜索等找到最优参数组合。

  2. 应用场景

  • 大数据量
  • 多维度特征
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 1. 集成学习概念 集成学习的是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结...
    两个橘子阅读 1,507评论 0 0
  • 1.集成学习的概念 集成学习通过建立几个模型组合的来解决单一预测问题,有时也被称作多分类系统(multi-clas...
    Acapella_Zhang阅读 2,869评论 0 4
  • 一夜寒风起, 醒看长安雪落, 雪至此而盛。 盼踏雪寻梅, 围炉夜话, 煮雪烹茶。
    七井森阅读 159评论 0 0
  • 课程思考 从课上获得的不多,课下没付出,怎么学好。 这么课有什么用,它是一个方向吗? 这么课...
    幻影翔阅读 223评论 0 0
  • 喵妈EMilie阅读 214评论 0 0