决策树,是一棵树,每个节点(除了叶子节点)都是对某个特征的判定(决策),最终到达叶子,叶子可以是某个分类,或者是某个回归函数。
上述就是对是否要接受offer的决策树。
决策树构建的关键就在于把各特征的值生成出来。特征本身是人为选择的。
决策树的构建过程是迭代的。每轮迭代选择不同的特征,将样本数据划分成不同类别。选择特征的目标就是尽可能让一个集合中的样本属于同一类别。
常用的算法有ID3、C4.5、CART。
ID3是以分裂后信息越确定为目标的,算法上以信息增益作为度量(信息增益反映的是给定条件后不确定性被减少的程度),这样导致取值多的特征更容易被选中作为分裂特征。
C4.5改进了ID3的上述不足。它选用的度量(信息增益率)会惩罚取值多的特征。由于它优秀的性能,是机器学习中最常用的算法之一。
CART与ID3以及C4.5的区别是,后两者是分类树,CART不仅可以用来分类,还能用来回归。