需要掌握的知识前提:信息熵、信息增益、增益率
1. 信息熵(information entropy)
,之所以加负号,是因为 信息熵通常都用来表示越小,确定性越大
2. 信息增益(information gain)
,信息增益越大,意味着用属性a来划分,所获得的纯度越大。ID3 的决策树构建方法,就是每一步选择信息增益最大的属性来划分:
3. ID3算法的下一代改进 C4.5 用的是 增益率(gain ratio),,
其中IV(a) =
4. 无论ID3还是C4.5,对决策树泛化的性能影响有限,作用最大的还是剪枝。
预剪枝:
就是在建树的过程中剪枝,标准就是没构建一个节点,形成一个 '树桩',用测试集验证一下泛化续班性能,如果泛化性能变好,那么继续,否则剪枝。
后剪枝:
决策树建好之后,再从叶子节点开始,判断是否需要剪枝。后剪枝的泛化效果比预剪枝效果好,但是训练时间会长,并且对机器资源的占用也会高,毕竟需要建好一颗完整的树。
后记:
信息熵、信息增益、增益率要理解,至于建树的过程中,实际不需要每次都去计算,调包即可。