1) ID3:使用信息增益
信息增益的弊端
假设ID作为上述实例中的一个特征,对于ID有14个分支,一个分支只有一个值,概率为1
即有些特征,其取值很多,但每个属性对应的样本个数很少,会导致“信息增益”非常大。
2) C4.5: 使用信息增益率
信息增益率
信息增益率 = 信息增益 / 自身熵值, 比如ID特征自己的熵(非常大,自己很不纯),之后信息增益率变很小
3) CART:Gini系数
4) 决策树的评价函数
损失函数C(T) = sum_{t (- leaf}_(N_t * H(t))
其中叶子节点t, t的样本值N_t, 对应的熵H(t), C(t)越小越好
5) C4.5算法:ID3的扩展
6) 决策树处理连续值
将连续型属性离散化,将属性值划分成不同的区间,比较各个分裂点Gain大小
选择连续值的分界点
贪婪法的“二分”数据集,比如十个数据划分则可能需要九个分界点