登录注册写文章

决策树与随机森林

决策树与随机森林

分类问题使用信息增益，信息增益率或者基尼系数；每个节点按少数服从多数定值
回归问题使用均方误差；每个节点按均值定值；
叶子节点的熵的加权平均值必然小于父节点，证明信息是越来越明确；
叶节点的加权平均熵最小的特征优先使用；
特征是连续时，随机取若干值，选取最优值划分；
基尼系数可以当成是熵的一阶泰勒展开，或是方差的加和；
随机森林可以不考虑特征间的耦合关系；
随机森林可以进行特征重要都排序；
使用iForest可以检测异常值，一般异常值会很快到达节点，树比较浅，综合多颗树，即可找到异常值；
随机森林与决策树可以预测多输出值；
回归问题使用MSE，因为连续值很难切分；
回归时，任意取值使得叶节点的加权MSE值最小，则为最佳划分；
重要度排序，gini系数变化性取值的，随机更改误差变化最快的为最重要的
决策树也可以给出概率，它代表训练集该类别的比例

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

决策树与随机森林（一）
转自小象学院我的学习笔记 1. 复习信息熵：熵，联合熵、条件熵、互信息 2. 决策树学习算法：信息增益 | ID...
士多啤梨苹果橙_cc15阅读 2,695评论 0赞 1
python与机器学习（二.决策树与随机森林）
香农熵变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。例如，在一个数据集dataset中，da...
眼君阅读 4,929评论 2赞 1

决策树与随机森林
原文决策树是一种树形结构，其中每一个内部节点表示在一个特征（属性）上的测试，每个分支代表一个测试输出，每个叶子节点...
SUNFC阅读 3,240评论 0赞 0
决策树与随机森林（二）
转自小象学院邹博学习笔记 Bootstraping 是一种有放回的抽样方法 Bagging的策略 bootst...
士多啤梨苹果橙_cc15阅读 4,533评论 0赞 0
(原创)志在四方
蓝蓝天空，万里无云；高高楼层，拔地而起；无法直入美丽云霄，那就直入浩瀚晴空。脚下有路，任游四方。
粉色的桃林阅读 1,709评论 0赞 9

赞1赞

赞赏

手机看全文