三种求解方法: ID3、C4.5、CART
ID3:利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树地分枝,完成决策树的构造。
信息熵(entrop)是度量随机变量不确定性的指标,熵越大,变量的不确定性就越大。假定当样本集合D中第k类样本所占的比例为,则D的信息熵为:
Ent(D)的值越小,变量的不确定性越小。当=1时,Ent(D)=0
根据信息熵,可以计算以属性a进行样本划分带来的信息增益:
V为根据属性a划分出的类别数、D为当前样本总数,为类别v样本数
Ent(D):划分前的信息熵 :划分后的信息熵
目标:划分后样本分布不确定性尽可能小,即划分后信息熵小,信息增益大。