第四章决策树

需要掌握的知识前提：信息熵、信息增益、增益率

1. 信息熵(information entropy)

$Ent(D)=-\sum_{i=1}^n(p_{i}*\log_2p_{i} )$ ，之所以加负号，是因为信息熵通常都用来表示越小，确定性越大

2. 信息增益(information gain)

$Gain(D,a)=Ent(D)-\sum_{i=1}^n(\frac{|D_{v}| }{|D|}*Ent(D) )$ ，信息增益越大，意味着用属性a来划分，所获得的纯度越大。ID3 的决策树构建方法，就是每一步选择信息增益最大的属性来划分： $a_{*} =arg\hat{} maxGrain(D,a)$

3. ID3算法的下一代改进 C4.5 用的是增益率(gain ratio)， $\frac{Gain(D,a)}{IV(a)}$ ，

其中IV(a) = $-\sum_{i=1}^n(\frac{|D_{v} |}{|D|}*\log_2 \frac{|D_{v} |}{|D|} )$

4. 无论ID3还是C4.5，对决策树泛化的性能影响有限，作用最大的还是剪枝。

预剪枝：

就是在建树的过程中剪枝，标准就是没构建一个节点，形成一个 '树桩'，用测试集验证一下泛化续班性能，如果泛化性能变好，那么继续，否则剪枝。

后剪枝：

决策树建好之后，再从叶子节点开始，判断是否需要剪枝。后剪枝的泛化效果比预剪枝效果好，但是训练时间会长，并且对机器资源的占用也会高，毕竟需要建好一颗完整的树。

后记：

信息熵、信息增益、增益率要理解，至于建树的过程中，实际不需要每次都去计算，调包即可。

第四章 决策树

推荐阅读更多精彩内容

第四章决策树