第5章决策树

内容

一、决策树内容简介

二、决策树的模型与学习

三、特征选择

四、决策树生成

五、决策树剪枝

六、CART算法

#############################################################################

一、决策树内容简介

1.决策树是一种基本的分类与回归算法。

2.优点：模型具有可读性和分类速度快。

3.学习时，利用训练数据，根据损失函数最小化原则建立决策树模型；

预测时，对新的数据利用决策树模型进行分类。

4.决策树的学习3个步骤：特征选择、决策树生成、决策树修剪。

二、决策树的模型与学习

1. 决策树由结点和有向边组成，其中结点有两种类型。类型一内部节点：表示特征和属性；类型二叶节点：表示一个类别。

2.决策树可以看做是if-then规则的集合。

3.决策树的一条路径对应于划分中的一个单元（就是一个类）。

4.决策树的本质上是从训练数据集中归纳出一组分类规则。

5.决策树学习的目标：一个与训练数据矛盾较小的决策树同时具有很好的泛化能力，模型不仅对训练数据有很好的拟合，而且对未来的数据也有很好的拟合。

6.决策树学习的策略：以损失函数为目标函数的最小化。当损失函数确定后，学习问题就变成在损失函数意义下选择最优决策树的问题。

三、特征选择

1.特征选择在于选取对训练数据具有分类能力的特征。通常特征选择的准则是信息增益和信息增益比。

2. 熵：表示随机变量不确定性的度量，熵的值越大，随机变量的不确定性越大。

公式表示：

熵随概率的变化曲线：

3. 条件熵：H（Y|X）表示在已知随机变量X的条件下随机变量Y的不确定性。

公式表示：

4.当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵和条件熵分别称为经验熵和经验条件熵。

*5.信息增益

注:信息增益表示由于特征A而使得对数据集D的分类的不确定性减少的程度。

6.信息增益的算法

7.信息增益比

四、决策树生成

1.ID3通过信息增益选择特征建立决策树；

2.C4.5通过信息增益比选择特征建立决策树；

五、决策树的剪枝

1.为什么要剪枝？

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的决策树对训练数据的分类很准确，但是对未知的测试数据确没有那么准确。这样会出现过拟合的现象。剪枝是为了降低决策树的复杂度，对生成的树进行简化。

2.什么是过拟合？

原因在于在学习决策树模型的过程中，过多的考虑如何提高对训练数据的正确分类，从而构建出复杂的决策树。

3.怎样进行剪枝？

决策树的剪枝通过极小化决策树整体的损失函数或者代价函数来实现。因为损失函数里包含惩罚项，可以降低决策树的复杂度，来达到剪枝的目的。

4.决策树的损失函数：

经验熵：

损失函数的变形：

4.决策树的剪枝算法（参看书66页）

六、CART算法

1.CART算法的全称分类与回归树（classification and regression tree）,是广泛的决策树学习方法。CART同样由特征选择、树的生成、剪枝组成。

2.CART算法由以下两部组成：

（1）决策树的生成：基于训练数据集生成决策树，生成的决策树要尽量大；

（2）决策树的剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

3.CART生成

（1）回归树的生成

（2）分类树的生成

a.分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。

b.基尼指数

c.分类树的生成算法

*d.CART剪枝

1.剪枝，形成一个子树序列。

2.在剪枝得到的子树序列T0，T1，T3，...,Tn中通过交叉验证选取最优子树T。

第5章 决策树

内容

推荐阅读更多精彩内容

第5章决策树