决策树

决策树

转自微信公众号：机器学习算法与Python学习

决策树

决策树很重要的一点就是选择一个属性进行分支，因此要注意一下信息增益的计算公式并深入理解它

信息熵公式如下：

其中，n代表有n个分类。

信息增益ID3

信息增益比C4.5 当训练数据集经验上大的时候，信息增益会偏大，为了消除这种影响，引入信息增益比

CART分类树基尼系数

目的是为了增加子集的平均纯度

选中一个属性xi来进行分枝，分枝规则为：如果xi=vx的话，将样本分到树的一个分支；如果不相等则进入另一个分支。很显然，分支中的样本很有可能包括2个类别，分别计算这2个分支的熵H1和H2,计算出分枝后的总信息熵H’=p1*H1+p2*H2.，则此时的信息增益ΔH=H-H’。以信息增益为原则，把所有的属性都测试一边，选择一个使增益最大的属性作为本次分枝属性。

决策树的优点：

计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征；

缺点：

容易过拟合（后续出现了随机森林，减小了过拟合现象）；

最后编辑于：2017.12.09 17:19:53

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

决策树

相关阅读更多精彩内容

友情链接更多精彩内容