决策树实例：泰坦尼克号幸存者预测

重点部分

预处理部分
1. 缺失值较多的列进行填补，有一些特征只确实一两个值，可以采取直接删除记录的方法；////////缺失值很少的列可以选择直接进行删除
2. 将分类变量转换为数值型变量：labels = data['列名'].unique().tolist() # ///////////////////unique是返回有哪些出现的(能看到有几种)，再变成一个列表。只要unique不超过十个，都可以用此方式进行分类(前提这些取值没有联系)；
值得再看一遍

代码

1.导入所需的库

import pandas as pd
from sklearn.tree import DecisionTreeClassifier  # 只能处理数字
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

2.导入数据集，探索数据

data = pd.read_csv(r'E:\CODE\pythonProject\other\菜菜系列\sklearn\1.决策树\data.csv', index_col=0)

print(data.info())  # 因为分类器只能处理数字，如果想要将sex...留下，则必须想办法转为数字
print(data.head())  # 显示前n行，默认为5

3.对数据进行预处理

# 删除缺失值过多的列，和观察判断来说和预测的y没有关系的列
data.drop(['Cabin', 'Name', 'Ticket'], inplace=True, axis=1)  # inplace为True是用删除后的表覆盖原表，默认为False, axis=1对列进行删除

# 处理缺失值，对缺失值较多的列进行填补，有一些特征只确实一两个值，可以采取直接删除记录的方法
data['Age'] = data['Age'].fillna(data['Age'].mean())  # fillna为填充缺失值(年龄缺的不多,填均值即可)
data = data.dropna()  # 剩下的数据里面，只有两个缺失值了，直接删掉就行了

# 将分类变量转换为数值型变量

# 将二分类变量转换为数值型变量
# astype能够将一个pandas对象转换为某种类型，和apply(int(x))不同，astype可以将文本类转换为数字，用这个方式可以很便捷地将二分类特征转换为0~1
data['Sex'] = (data['Sex']=='male').astype('int')  # male为1，female为0；astype是将bool值转换为另一个类型(int)

# 将三分类变量转换为数值型变量
labels = data['Embarked'].unique().tolist()  # unique是返回有哪些出现的(能看到有几种)，再变成一个列表。  只要unique不超过十个，都可以用此方式进行分类(前提这些取值没有联系)
data['Embarked'] = data['Embarked'].apply(lambda x: labels.index(x))  # 将数据x转为对应的index

# 查看处理后的数据集
data.head()

4. 提取标签和特征矩阵，分测试集和训练集

x = data.iloc[:, data.columns != 'Survived']  # x为取出所有行，但除去了survived那个标签列
y = data.iloc[:, data.columns == 'Survived']  # y为取出所有行，但只包含survived标签列

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)  # data, target, test_size比例

# 修正测试集和训练集的索引(只要不是有意打乱索引顺序，建议修正)
for i in[x_train, x_test, y_train, y_test]:
    i.index = range(i.shape[0])  # 直接把四个数据集的index改为了0-shape的样式

# 查看分好的训练集和测试集
x_train.head()

5. 导入模型，粗略跑一下查看结果

clf = DecisionTreeClassifier(random_state=25)  # 实例化
clf = clf.fit(x_train, y_train)
score_ = clf.score(x_test, y_test)

print(score_)
score = cross_val_score(clf, x, y, cv=10).mean()  # 交叉验证取平均
print('----------------------------')
print(score)

6. 在不同max_depth下观察模型的拟合状况(调参)

tr = []
te = []
for i in range(10):
    clf=DecisionTreeClassifier(
        random_state=25,
        max_depth=i+1,

        criterion='entropy'
    )

    clf = clf.fit(x_train, y_train)
    score_tr = clf.score(x_train, y_train)
    score_te = cross_val_score(clf, x, y, cv=10).mean()
    tr.append(score_tr)
    te.append(score_te)
print(max(te))
plt.plot(range(1, 11), tr, color='red', label='train')
plt.plot(range(1, 11), te, color='blue', label='test')
plt.xticks(range(1, 11))
plt.legend()
plt.show()
#这里为什么使用“entropy”？因为我们注意到，在最大深度=3的时候，模型拟合不足，在训练集和测试集上的表现接近，但却都不是非常理想，只能够达到83%左右，所以我们要使用entropy。

7. 用网格搜索调整参数(能够帮助我们同时调整多个参数的技术，枚举技术)

# 网格搜索是一个一个参数试过去，非常费时间

import numpy as np
gini_thresholds = np.linspace(0, 0.5, 20)  # 0-0.5之间取20个有顺序排列的数，在这里作gini系数的边界

# 一串参数和这些参数对应的、我们希望网格搜索来搜索参数的取值范围
parameters = {'splitter':('best', 'random'),
              'criterion':('gini', 'entropy'),
              'max_depth':[*range(1, 10)],
              'min_samples_leaf':[*range(1, 50, 5)],
              'min_impurity_decrease':[*np.linspace(0, 0.5, 20)]}
clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(x_train, y_train)
print(GS.best_params_)  # 从我们输入的参数和参数取值的列表中，返回最佳参数组合
print('------------------------------')  
print(GS.best_score_)  # 网格搜索后的模型的评判标准

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,084评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,623评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,450评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,322评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,370评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,274评论 1赞 300
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,126评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,980评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,414评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,599评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,773评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,470评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,080评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,713评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,852评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,865评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,689评论 2赞 354

决策树实例：泰坦尼克号幸存者预测

重点部分

代码

1.导入所需的库

2.导入数据集，探索数据

3.对数据进行预处理

4. 提取标签和特征矩阵，分测试集和训练集

5. 导入模型，粗略跑一下查看结果

6. 在不同max_depth下观察模型的拟合状况(调参)

7. 用网格搜索调整参数(能够帮助我们同时调整多个参数的技术，枚举技术)

推荐阅读更多精彩内容