Decision Tree (决策树/判定树)是监督学习中的分类算法, 通常预测和分类算法的评估主要体现在:
准确率:预测的准确与否是本算法的核心问题,其在征信系统,商品购买预测等都有应用。
速度:一个好的算法不仅要求具备准确性,其运行速度也是衡量重要标准之一。
强壮行:具备容错等功能和扩展性等。
可规模性:能够应对现实生活中的实际案例
可解释性:运行结果能够说明其含义。
通过信息熵的比较, 选择属性判断节点, 信息增益最大的作为根节点. 关于信息增益的计算需要进一步的理论支持.
在决策树ID3基础上,又进行了算法改进,衍生出 其他算法如:C4.5: (Quinlan) 和Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)。这些算法
其共同点:都是贪心算法,自上而下(Top-down approach)
区别:属性选择度量方法不同: C4.5 (gain ratio,增益比), CART(gini index,基尼指数), ID3 (Information Gain,信息增益)