02 集成学习 - 特征重要度、Extra Tree、TRTE、IForest、随机森林总结

01 集成学习 - 概述、Bagging - 随机森林、袋外错误率

五、特征重要度

作为单个的决策树模型,在模型建立时实际上是寻找到某个特征合适的分割点。这个信息可以作为衡量所有特征重要性的一个指标。

基本思路如下:
如果一个特征被选为分割点的次数越多,那么这个特征的重要性就越强。这个理念可以被推广到集成算法中,只要将每棵树的特征重要性进行简单的平均即可。


分别根据特征1和特征4进行分割,显然x1出现的次数最多,这里不考虑先分割和后分割的情况,只考虑每次分割属性出现的次数。

计算得:
x1的特征重要度:出现在2棵树上,两棵树一共分裂了6次,x1出现了3次。
x1特征重要度 = 3/6 = 1/2
x2的特征重要度= 4/6 = 2/3
x3的特征重要度= 3/6 = 1/2
x4的特征重要度: 出现在1棵树上,一个树分裂了3次,x4出现了1次。
x4的特征重要度= 1/3

根据特征重要度进行特征选择。


六、随机森林RF推广算法

随机森林推广算法的作用不是在于做预测。

RF推广算法在实际应用中占有比较好的特性,应用比较广泛,主要应用在:分类、回归、特征转换、异常点检测等。常见的RF变种算法如下:Extra Tree、Totally Random Tree Embedding(TRTE)、Isolation Forest

1、Extra Tree

Extra Tree是随机森林(RF)的一个变种,原理基本和随机森林一样,区别如下:
1、RF会随机采样来作为子决策树的训练集,而Extra Tree每个子决策树采用原始数据集训练。
2、RF在选择划分特征点的时候会和传统决策树一样,会基于信息增益、信息增益率、基尼系数、均方差等原则来选择最优的特征值。Extra Tree则是随机选择一个特征值来划分决策树。

由于Extra Tree是随机选择特征点进行划分,所以最后得到的决策树规模会大于RF生成的决策树,Extra Tree决策树的方差会减少,泛化能力比RF更强。

2、Totally Random Tree Embedding(TRTE)

TRTE 是一种非监督的数据转化方式。将低维的数据集映射到高维,从而让高维的数据更好得用于分类回归模型。

TRTE的算法的转化过程类似于RF算法,建立T个决策树来拟合数据。当决策树构建完成之后,数据集里的每个数据在T个决策树中叶子节点的位置就固定下来了,将位置信息转换为向量即完成了算法的转换。

有3棵决策树,每棵树都有五个叶子节点: □-□-□-□-□
一个数据 x
划分落入树1的第三个子节点:□-□-■-□-□ => 00100
划分落入树2的第一个子节点:■-□-□-□-□ => 10000
划分落入树3的第五个子节点:□-□-□-□-■ => 00001
数据x的特征映射码:(0,0,1,0,0, 1,0,0,0,0, 0,0,0,0,1)

样本根据TRTE进行转化特征,最后可能得到更高维的数据,也可能得到更低维的数据,如词袋法中的特征有2000个,做完TRTE后只剩下几百个。

经过TRTE转化后的编码可以用于无监督的分类操作,将相似的特征码聚类到一起,最后完成分类的操作。

3、Isolation Forest (IForest)

IForest是一种异常点检测算法,使用类似RF的方式来检测异常点。
IForest和RF的区别在于:
1、在随机采样的过程中,一般只需要少量的数据。
2、在进行决策树的构建过程中,IForest会随机选择一个划分特征,并对划分特征随机选择一个划分阈值。
3、IForest的划分深度是比较小的,即max_depth较小。
区分原因:目的是异常点检测,所以只要能够区分出异常即可,不需要大量的数据;此外在异常点检测过程中,一般也不需要太大规模的决策树。

下面说说 IForest为什么可以做异常点判断。

对于异常点的判断:将测试样本x拟合到T棵决策树上,计算每棵树上该样本的叶子节点的深度ht(x),从而计算出平均深度h(x);然后就可以使用下列公式计算样本点x的异常概率值,p(x,m)的取值范围为[0,1],越接近1,说明异常点概率越大。

ζ是欧拉常数,m为样本个数

分析: 欧拉常数 ζ ≈ 0.57721566490153286060651209。当样本个数m确定的时候,c(m) 是一个定值。所以影响异常点出现的概率-p(x,m)的值,我们只考虑h(x)的取值即可。
h(x)即每棵树上,该样本的叶子节点深度的平均值。h(x)越大说明叶子节点的深度越深,公式右侧 - 2的指数就越小,则说明p(x,m)的值越趋向于0。
结论: 叶子节点的深度越深,异常点的概率越小。树平均深度越浅,说明异常值概率越大。

七、RF随机森林总结

RF的主要优点:
1、训练可以并行化,对于大规模样本的训练具有速度的优势。
2、由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高的训练性能。
3、可以给出各个特征值的重要性列表。
4、由于存在随机抽样,训练出来的模型方差小,泛化能力强。
5、RF实现简单。
6、对于部分特征的丢失不敏感。

RF的缺点:
1、噪音过大的特征上,容易过拟合。
2、取值比较多的划分特征对RF的决策会产生更大的影响,从而有可能影响模型的效果。

03 集成学习 - Boosting - AdaBoost算法原理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容

  • About 个人同时在简书和自制个人博客两个地方同时更新文章,有兴趣的话可以来我的博客玩呀,一般而言排版会好不少。...
    DeamoV阅读 2,948评论 0 1
  • 一、bagging的原理 从上图可以看出,bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机...
    owolf阅读 3,535评论 0 9
  • 假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要...
    城市中迷途小书童阅读 2,479评论 0 1
  • 荐语: 在希腊奥林匹亚阿尔菲斯河岸的岩壁上,至今还刻着古希腊的一段格言:“如果你想聪明,跑步吧;如果你想强壮,跑步...
    明明德撩码阅读 559评论 0 0
  • (storage番外) 传统RAID RAID: redundant array of independent d...
    stanf1l阅读 589评论 0 0