第四章 决策树

需要掌握的知识前提:信息熵、信息增益、增益率

1. 信息熵(information entropy)

Ent(D)=-\sum_{i=1}^n(p_{i}*\log_2p_{i} ),之所以加负号,是因为 信息熵通常都用来表示越小,确定性越大

2. 信息增益(information gain)

Gain(D,a)=Ent(D)-\sum_{i=1}^n(\frac{|D_{v}| }{|D|}*Ent(D) ) ,信息增益越大,意味着用属性a来划分,所获得的纯度越大。ID3 的决策树构建方法,就是每一步选择信息增益最大的属性来划分a_{*} =arg\hat{} maxGrain(D,a)

3. ID3算法的下一代改进 C4.5 用的是 增益率(gain ratio),\frac{Gain(D,a)}{IV(a)}

其中IV(a) = -\sum_{i=1}^n(\frac{|D_{v} |}{|D|}*\log_2 \frac{|D_{v} |}{|D|}  )

4. 无论ID3还是C4.5,对决策树泛化的性能影响有限,作用最大的还是剪枝。

预剪枝:

就是在建树的过程中剪枝,标准就是没构建一个节点,形成一个 '树桩',用测试集验证一下泛化续班性能,如果泛化性能变好,那么继续,否则剪枝。

后剪枝:

决策树建好之后,再从叶子节点开始,判断是否需要剪枝。后剪枝的泛化效果比预剪枝效果好,但是训练时间会长,并且对机器资源的占用也会高,毕竟需要建好一颗完整的树。

后记:

信息熵、信息增益、增益率要理解,至于建树的过程中,实际不需要每次都去计算,调包即可。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容