- 分类问题使用信息增益,信息增益率或者基尼系数;每个节点按少数服从多数定值
- 回归问题使用均方误差;每个节点按均值定值;
- 叶子节点的熵的加权平均值必然小于父节点,证明信息是越来越明确;
- 叶节点的加权平均熵最小的特征优先使用;
- 特征是连续时,随机取若干值,选取最优值划分;
- 基尼系数可以当成是熵的一阶泰勒展开,或是方差的加和;
- 随机森林可以不考虑特征间的耦合关系;
- 随机森林可以进行特征重要都排序;
- 使用iForest可以检测异常值,一般异常值会很快到达节点,树比较浅,综合多颗树,即可找到异常值;
- 随机森林与决策树可以预测多输出值;
- 回归问题使用MSE,因为连续值很难切分;
- 回归时,任意取值使得叶节点的加权MSE值最小,则为最佳划分;
- 重要度排序,gini系数变化性取值的,随机更改误差变化最快的为最重要的
- 决策树也可以给出概率,它代表训练集该类别的比例
决策树与随机森林
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 香农熵 变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。例如,在一个数据集dataset中,da...