1.决策树定义
❶通过对训练样本的学习,建立分类规则,然后依据分类规则,对新样本数据进行分类预测。
❷属于有监督学习
❸优缺点。优点:决策树易于理解和实现、决策树可以处理数值型和非数值型数据(连续和种类字段)。缺点:如果各类别样本数量差别较大,数据增益偏向量大的特征(此种情况模型质量较低);容易过拟合;忽略了属性间的相关性。
2.决策树的理解
❶决策树的过程案例_相亲决策树,见下图所示。
决策树类似于流程图过程,从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,如此递归对实例进行测试并分配,最终到达叶子节点,即该实例被分到节节点的类中。

❷决策树算法相关概念
信息熵:信息熵表示随机变量的不确定度。对于一组数据来讲,数据越随机,信息熵越大,不确定性越低,信息熵越小。
条件熵:条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性
信息增益:以某特征划分数据集前后的熵的差值
信息增益率:特征A对训练数据集D的信息增益比定义为:其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比
基尼系数:基尼系数(Gini),也被称为基尼不纯度,表示在样本集合中一个随机选中的样本被分错的概率。