基于决策树的红酒分类可视化

本文中讲解是的利用决策树的方法将sklearn中自带的红酒数据进行划分和可视化显示，学习决策树的几个重要参数。

决策树在sklearn的应用

决策树Decision Tree是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。

解决两个重点问题

如何从数据中找出最佳节点和最佳分枝
如何让决策树停止生长，防止过拟合

sklearn中的决策树

决策树相关的类都在tree模块下面，总共5个

image

建模的基本流程

实例化
拟合fit
计算准确度score

from sklearn import tree              # 导入需要的模块
 
clf = tree.DecisionTreeClassifier()   # 实例化  
clf = clf.fit(X_trian, y_train)       # 用训练数据训练模型
result = clf.score(X_test, t_test)    # 导入测试数据集，从接口中调用需要的信息

image

重要参数

决策树算法中所有的参数为

class sklearn.tree.DecisionTreeClassifier (
    criterion=’gini’, splitter=’best’, max_depth=None,
    min_samples_split=2,min_samples_leaf=1,
    min_weight_fraction_leaf=0.0, max_features=None,
    random_state=None,max_leaf_nodes=None,
    min_impurity_decrease=0.0,min_impurity_split=None,
    class_weight=None, presort=False
)

1.criterion 用来确定不纯度的计算方法有两种，不纯度越低越好

信息熵entropy，实际上是信息增益
基尼系数gini（默认）

image

二者比较
信息熵对不纯度更加敏感
信息熵更慢些，存在对数运算
数据维度大，噪音很大使用基尼系数
当拟合程度不够的时候，使用基尼系数

导入模块和库

import pandas as pd
import matplotlib.pyplot as plt

from sklearn import tree    # tree模块
from sklearn.datasets import load_wine  # 导入红酒数据
from sklearn.model_selection import train_test_split  # TTS模块

数据生成和信息查看

wine = load_wine()   # 实例化红酒数据

array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])

wine.data.shape
# 结果：178个样本，13个属性
(178, 13)
# 3种分类
wine.target  

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

重点：如何将样本数据集和输出标签生成表格形式

pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1)

wine.feature_names   # 13个属性名称

# 结果
['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

wine.target_names  # 标签的3个分类
array(['class_0', 'class_1', 'class_2'], dtype='<U7')

Xtrain, Xtest, ytrain, ytest = train_test_split(wine.data, wine.target, test_size=0.3)   # 随机划分数据
Xtrain.shape
(124, 13)

ytrain
array([1, 1, 0, 1, 1, 2, 1, 1, 1, 2, 0, 0, 2, 0, 1, 0, 0, 0, 1, 1, 1, 0,
       0, 1, 1, 0, 1, 2, 2, 2, 0, 2, 0, 0, 2, 0, 1, 0, 0, 0, 2, 1, 0, 1,
       2, 1, 0, 0, 1, 2, 0, 1, 1, 0, 0, 0, 1, 2, 2, 2, 1, 1, 1, 1, 1, 2,
       0, 0, 0, 2, 0, 1, 0, 0, 0, 1, 0, 2, 2, 1, 1, 2, 0, 2, 2, 2, 1, 0,
       2, 0, 2, 0, 2, 1, 1, 0, 1, 0, 1, 2, 1, 0, 1, 1, 1, 0, 2, 2, 1, 0,
       0, 1, 2, 0, 2, 0, 2, 0, 0, 1, 1, 2, 0, 0])

建模过程

clf = tree.DecisionTreeClassifier(criterion="entropy")  
clf = clf.fit(Xtrain, ytrain)
score = clf.score(Xtest, ytest)    # 返回预测的准确度 
score
0.9259259259259259

import os   # 画图的时候一定要加上路径
os.environ["PATH"] += os.pathsep + 'D:/Tools/graphviz-2.38/release/bin'

画图

feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类',
                '花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz
dot_data = tree.export_graphviz(clf
                               ,feature_names = feature_name
                               ,class_names = ["琴酒","雪莉","贝尔摩德"]
                               ,filled = True    # 是否填充颜色
                               ,rounded = True)  # 框的形状

graph = graphviz.Source(dot_data)
graph

image

结果信息

clf.feature_importances_   # 使用特征的数量的重要性

array([0.02366882, 0.04362795, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.16528255,
       0.        , 0.43075257, 0.33666811])

[*zip(feature_name,clf.feature_importances_)]  # 将使用的特征和名称进行一一对应

[('酒精', 0.023668823820059623),
 ('苹果酸', 0.04362794529024377),
 ('灰', 0.0),
 ('灰的碱性', 0.0),
 ('镁', 0.0),
 ('总酚', 0.0),
 ('类黄酮', 0.0),
 ('非黄烷类酚类', 0.0),
 ('花青素', 0.0),
 ('颜色强度', 0.16528255077367338),
 ('色调', 0.0),
 ('od280/od315稀释葡萄酒', 0.4307525705140722),
 ('脯氨酸', 0.3366681096019511)]

random_state：设置随机模式的参数，默认是None，高维数据表现更明显
splitter：有两个参数供选择
- best：默认，每次选择更重要的属性进行分类
- random：保证选择特征的随机性，树会更深更大，降低对训练数据的拟合

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50   # 设置随机模式，保证结果不变
                                  ,splitter="random"  
                                  )   
clf = clf.fit(Xtrain, ytrain)
score = clf.score(Xtest, ytest)    # 返回预测的准确度

feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类',
                '花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz
dot_data = tree.export_graphviz(clf
                               ,feature_names = feature_name
                               ,class_names = ["琴酒","雪莉","贝尔摩德"]
                               ,filled = True    # 是否填充颜色
                               ,rounded = True)  # 框的形状

graph = graphviz.Source(dot_data)
graph

image

剪枝参数

过拟合：在训练数据集上表现的很好，在测试数据集上却很差

max_depth
限制树的最大深度，超过设定深度的树枝全部剪掉
min_samples_leaf & min_samples_split
min_samples_leaf限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本
min_samples_split限定，一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50   # 设置随机模式，保证结果不变
                                  ,splitter="random"  
                                  # 可以调节3个参数，比较每次的得分大小
                                  ,max_depth=3   
                                  ,min_samples_leaf=10
                                  ,min_samples_split=10
                                  )   
clf = clf.fit(Xtrain, ytrain)

dot_data = tree.export_graphviz(clf
                               ,feature_names = feature_name
                               ,class_names = ["琴酒","雪莉","贝尔摩德"]
                               ,filled = True    # 是否填充颜色
                               ,rounded = True)  # 框的形状

graph = graphviz.Source(dot_data)
graph

image

score = clf.score(Xtest, ytest)    # 返回预测的准确度 
score
0.7777777777777778

max_features
- 限制分枝是考虑的特征个数，超过限制的个数直接舍弃掉
- 限制高维数据的过拟合剪枝参数，方法暴力
min_impurity_decrease
- 限制信息增益的大小
- 小于设置值不会发生分枝

# 学习曲线

test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50   # 设置随机模式，保证结果不变
                                  ,splitter="random"  
                                  ,max_depth=i+1
#                                   ,min_samples_leaf=10
#                                   ,min_samples_split=10
                                  )   
    clf = clf.fit(Xtrain, ytrain)
    score = clf.score(Xtest, ytest)    # 返回预测的准确度 
    test.append(score)
plt.plot(range(1,11), test, color="red", label="max_depth")
plt.legend()
plt.show()

image

重要属性和接口

# 测试样本所在的叶子节点的索引
clf.apply(Xtest)

array([ 6,  7,  6, 18, 18,  6, 12, 16, 16,  9,  7, 16, 18,  7,  5, 12, 14,
       18,  7,  6,  7,  6, 12,  7, 18,  9,  5,  7,  5, 16, 12,  6,  7,  5,
       14, 18,  9, 12,  6,  9,  7,  9, 16, 12, 14, 12,  7,  6, 18,  5, 14,
       18,  7, 12], dtype=int64)

#返回分类测试样本的分类或者回归结果
clf.predict(Xtest)

array([1, 2, 1, 0, 0, 1, 1, 0, 0, 1, 2, 0, 0, 2, 2, 1, 1, 0, 2, 1, 2, 1,
       1, 2, 0, 1, 2, 2, 2, 0, 1, 1, 2, 2, 1, 0, 1, 1, 1, 1, 2, 1, 0, 1,
       1, 1, 2, 1, 0, 2, 1, 0, 2, 1])

一个属性：feature_importances

四个接口：fit，score，apply，predict

最后编辑于：2019.10.04 11:18:12

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,695评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,569评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 168,130评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,648评论 1赞 297
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,655评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,268评论 1赞 309
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,835评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,740评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,286评论 1赞 318
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,375评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,505评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,185评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,873评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,357评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,466评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,921评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,515评论 2赞 359

基于决策树的红酒分类可视化

决策树在sklearn的应用

解决两个重点问题

sklearn中的决策树

建模的基本流程

重要参数

导入模块和库

数据生成和信息查看

重点：如何将样本数据集和输出标签生成表格形式

建模过程

画图

结果信息

剪枝参数

重要属性和接口

推荐阅读更多精彩内容