- 决策树的工作方式
决策树是一种非参数(不限制数据的结构和类型)的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用于各种数据,在解决各种问题时都有良好的表现,尤其是以树模型为核心的各种集成算法在各个行业和领域都有广泛的应用。决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数据进行分类了。决策树的目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。 - 节点
树是包含n(n>=0)个节点的有穷集,每个元素称为节点。没有父节点的节点称为根节点。若一个节点含有子节点,则这个节点称为其子节点的父节点。 - 模块sklearn.tree
这个模块总共包括5个类:
tree.DecisionTreeClassifier | 分类树 |
---|---|
tree.DecisionTreeRegressor | 回归树 |
tree.export_graphviz | 将生成的决策树导出为DOT格式,画图专用 |
tree.ExtraTreeClassifier | 高随机版本的分类树 |
tree.ExtraTreeRegressor | 高随机版本的回归树 |
- sklearn的基本建模流程
4.1 实例化,建立评估模型对象
4.2 通过模型接口训练模型
4.3 通过模型接口提取需要的信息 -
DecisionTreeClassifier参数和实例
下面是计算集合D的信息熵计算公式:
5.1 DecisionTreeClassifier参数之ciriterion
为了要将数据转化为一棵树,决策树需要找出最佳节点和最佳分枝方法,对分类树来说,衡量这个最佳的指标叫做不纯度。通常来说不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法的核心大多是围绕在对某个不纯度相关指标的优化上。
不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。
ciriterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了2种选择:
1)输入"entropy",使用信息熵(其实sklearn实际计算的是基于信息熵的信息增益,即父节点与子节点的信息熵之差)
2)输入"gini",使用基尼系数
其中D表示包含n个类别的样本集,pk表示第k类样本在D这个样本集中的比例(即频率)。
举例:
划分前D集合包含了100个西瓜,其中48个好瓜,52个坏瓜。根据色泽特征划分黄绿色(好瓜40个,坏瓜30个),青绿色(好瓜8个,坏瓜22个)
第一步:计算样本集D的信息熵
D′的计算是将根据属性划分成的各个数据集的熵值相加之和,不同的是需要在划分后的集合熵值前乘上一个权重,这个权重其实是划分后集合在原来集合D的占比,即D′/D
信息熵比起基尼系数,对不纯度更加敏感,对不纯度的惩罚最强。但是在实际使用中,信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些,因为基尼系数的计算不涉及对数。另外,因为信息熵对不纯度更加敏感,所以当信息熵作为指标时,决策树的生长会更加精细,因此对于高维数据或者噪声很多的数据,信息熵很容易过拟合,基尼系数在这种情况会比较好。
5.2 决策树的基本流程可以简单概括为:
- 计算全部特征的不纯度指标
- 选取不纯度指标最优的特征来分枝
- 在第一个特征的分枝下,计算全部特征的不纯度指标
- 选取不纯度指标最优的特征继续分枝,依此类推,直到没有更多的特征可用或者整体的不纯度指标已经最优,决策树就会停止生长。
决策树在建树时,是靠优化节点来追求一颗优化的树,但最优的节点可以保证最优的树吗?不一定。sklearn会建很多不同的树,从中选取最好的。怎么建不同的树呢?每次分枝时,不使用全部特征,而是随机选取一部分特征,从中选择不纯度相关指标最优的作为分枝用的节点。这样,每次生成的树也就不同了,但是这样生成的模型会不稳定,每次运行会得到不同的结果。但是我们可以使用random_state让每次构建的模型变得一样。
5.3 DecisionTreeClassifier参数之random_state & splitter
random_state用来设置分枝中随机模式的参数,默认为none,在高维度时随机性会表现更明显。输入任意整数,会一直长出同一棵树,让模型稳定下来。
splitter有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。
5.4 剪枝参数
我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。(过拟合指的是在训练集上表现很好,在测试集上却表现糟糕)
为了让决策树有更好的泛化性,我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大,正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略:
5.4.1 max_depth
限制树的最大深度,超过设定深度的树枝全部剪掉。这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。
5.4.2 min_samples_leaf
min_samples_leaf 限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练本,否则分枝就不会发生,或者分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。对于类别不多的分类问题,=1通常就是最佳选择。
5.4.3 min_samples_split
min_samples_split限定,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。
5.4.4 max_features
max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth异曲同工,max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。
5.4.5 min_impurity_decrease
min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本种更新的功能,在0.19版本之前时使用min_impurity_split。
5.4.6 确认最优的剪枝参数
我们要使用确定超参数的曲线来进行判断了,继续使用我们已经训练好的决策树模型clf。超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲线,它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里,我们的模型度量指标就是score。
5.5 目标权重参数
5.5.1 class_weight
完成样本标签平衡的参数。样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例。因此我们要使用class_weight参数对样本标签进行一定的均衡,给少量的标签更多的权重,让模型更偏向少数类,向捕获少数类的方向建模。该参数默认None,此模式表示自动给与数据集中的所有标签相同的权重。
5.5.2 min_weight_fraction_leaf
有了权重之后,样本量就不再是单纯地记录数目,而是受输入的权重影响了,因此这时候剪枝,就需要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。如果样本是加权的,则使用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分。
5.6 红酒数据实例
1)加载红酒数据集
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import pandas as pd
# 加载红酒数据集,查看数据
wine = load_wine()
df = pd.DataFrame(wine.data)
df.columns = wine.feature_names
df
2)查看标签数据
wine.target
3)查看标签名称
wine.target_names
4)划分训练集和测试集,random_state可以使拆分出的训练集、测试集是相同的
X_train,X_test,Y_train,Y_test = train_test_split(df,wine.target,test_size=0.3,random_state=30)
5)建立决策树,训练模型
clf = tree.DecisionTreeClassifier(criterion='entropy',random_state=30,splitter='best')
clf = clf.fit(X_train,Y_train)
predicts = clf.predict(X_test)#对X_test进行预测
score = clf.score(X_test,Y_test) #返回预测的准确度
score
6)导出决策树结构
import graphviz
feature_name = wine.feature_names
dot_data = tree.export_graphviz(clf,
feature_names = feature_name,
class_names = wine.target_names,
filled = True,#填充颜色
rounded = True)#圆型框
graph = graphviz.Source(dot_data)
graph
7)查看每个特征的重要性
[*zip(feature_name,clf.feature_importances_)] #每个特征的重要性