简介
决策树是一种基本的分类与回归方法,本文主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在学习时,利用训练数据,根据损失函数最小化的原则建立决策树;预测时,对新的数据,利用训练好的决策树模型进行分类。决策树学习通常包括三个步骤,特征选择,决策树生成,决策树修剪。
决策树模型
分类决策树模型是一种描述对实例进行分类的树形结构,树的结点有两种,内部结点代表一个特征和属性,叶节点代表一个类。在新的数据进行测试时,从根结点开始,对实例的某一特征进行测试,根据测试结构,将实例分配到其子结点,如此递归进行下去,直到到达叶结点。叶节点代表的类也就是实例的类。
熵和信息增益
决策树学习的算法通常时一个递归地选择最优特征,并根据该特征对训练数据集进行分割,使得对各个子数据集有一个最好的分类的过程。最优特征的选择是该算法的重点,特征选择在于选取对训练数据具有分类能力的特征。
熵是表示随机变量不确定性的度量,[图片上传失败...(image-7777cb-1561688746764)]=\frac{P(x)}{Q(x)})