模型调参——随机森林在乳腺癌数据集上的调参应用

一、数据集

Sklearn自带数据集——乳腺癌数据集

二、模型选择

乳腺癌数据集是二分类模型,选择随机森林模型进行调参

三、调参流程

1)简单建模,观察模型在数据集上具体的表现效果
2)调参——n_estimators
3)调参——max_depth
4)调参——min_samples_leaf
5)调参——min_samples_split
6)调参——max_features
7)调参——criterion
8)确定最佳参数组合

四、调参详解应用步骤

1)导入相关库
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
2)查看数据集概况
data=load_breast_cancer() #实例化
data.info()
data.data.shape
data.target.shape
data.target
3)简单建模,观察模型在数据集上具体的表现效果
rfc=RandomForestClassifier(n_estimators=100,random_state=90)
score_pre=cross_val_score(rfc,data.data,data.target,cv=10).mean()
score_pre

score_pre 分数为 0.9666925935528475

4)调参 n_estimators
scorel=[]
for i in range(1,201,10):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90)
    score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()

运行结果:

通过数据和学习曲线可以发现,当n_estimators=41的时候,阶段性准确率最高,达到0.9684480598046841

接下来缩小范围,继续探索n_estimators在 [35,45] 的表现效果

scorel=[]
for i in range(35,45):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90)
    score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),([*range(35,45)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])
plt.plot(range(35,45,1),scorel)
plt.show()

运行结果:

调整n_estimators效果显著,模型准确率立刻上升了0.0035。接下来就进入网格搜索,我们将使用网格搜索对参数一个个进行调整。窥探如何通过复杂度-泛化误差方法调整参数进而提高模型的准确度。

5)调参max_depth
param_grid={'max_depth':[*np.arange(1,20,1)]}

rfc=RandomForestClassifier(n_estimators=39,random_state=90)
GS=GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_

运行结果:

通过运行结果可以看到,网格搜索给出的最佳参数max_depth是11,此时最佳准确度为0.9718804920913884

但问题来了,相比前面第四步,此时限制max_depth减小,准确率反而降低了。随机森林树模型天生过拟合,降低模型复杂度理应可以提升准确率,但此时降低树的最大深度却使模型准确率降低了,说明模型现在位于图像左边,即泛化误差最低点的左边。。这和数据集本身有关,但也有可能是我们调整的n_estimators对于数据集来说太大,因此将模型拉到泛化误差最低点去了。

当模型位于图像左边时,我们需要的是增加模型复杂度(增加方差,减少偏差)的选项,因此max_depth应该尽量大,min_samples_leaf和min_samples_split都应该尽量小。这几乎是在说明,除了max_features,我们没有任何参数可以调整了,因为max_depth,min_samples_leaf和min_samples_split是剪枝参数,是减小复杂度的参数。在这里,我们可以预言,我们已经非常接近模型的上限,模型很可能没有办法再进步了。

6)调参max_features
grid_param={'max_features':np.arange(5,30)}

rfc=RandomForestClassifier(n_estimators=39,random_state=90)
GS=GridSearchCV(rfc,grid_param,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_

运行结果:

网格搜索给出的最佳参数max_features是5,此时最佳准确度为0.9718804920913884,模型的准确率还是降低了。

网格搜索返回了max_features的最小值,可见max_features升高之后,模型的准确率降低了。这说明,我们把模型往右推,模型的泛化误差增加了。前面用max_depth往左推,现在用max_features往右推,泛化误差都增加,这说明模型本身已经处于泛化误差最低点,已经达到了模型的预测上限,没有参数可以左右的部分了。剩下的那些误差,是噪声决定的,已经没有方差和偏差的舞台了。

五、调整完毕,总结模型最佳参数组合

RandomForestClassifier(n_estimators=39,random_state=90)

调参前模型准确率:0.9666925935528475(96.67%)
调参后模型准确率:0.9719568317345088(97.20%)
模型提升的准确率:0.0052642381816613(+0.53%)

·································································································································································
完整代码:

#导入相关库
from sklearn.datasets import load_breast_cancer     #导入乳腺癌数据集模块
from sklearn.ensemble import RandomForestClassifier #导入集成算法随机森林模块
from sklearn.model_selection import cross_val_score #导入交叉验证模块
from sklearn.model_selection import GridSearchCV    #导入网格搜索模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#数据集概况
data=load_breast_cancer()   #实例化
data.info()                 #数据集概况
data.data.shape             #特征数据集形状
data.target.shape           #标签数据集形状
data.target                 #标签数据


#简单建模,观察模型在数据集上具体的表现效果
rfc=RandomForestClassifier(n_estimators=100,random_state=90)      #实例化
score_pre=cross_val_score(rfc,data.data,data.target,cv=10).mean() #交叉验证
score_pre

#调参n_estimators
scorel=[]
for i in range(1,201,10):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90)  #设置n_estimators[1,201]依次建模评分
    score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
plt.figure(figsize=[20,5])  #绘制学习曲线
plt.plot(range(1,201,10),scorel)
plt.show()

scorel=[]
for i in range(35,45):
    rfc=RandomForestClassifier(n_estimators=i,random_state=90)  #设置n_estimators[35,45]依次建模评分
    score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),([*range(35,45)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])   #绘制学习曲线
plt.plot(range(35,45,1),scorel)
plt.show()

#调参max_depth 网格搜索最佳参数
param_grid={'max_depth':[*np.arange(1,20,1)]} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=39,random_state=90) #实例化
GS=GridSearchCV(rfc,param_grid,cv=10) #网格搜索
GS.fit(data.data,data.target)  #训练模型
GS.best_params_   #最佳参数
GS.best_score_    #最佳分数

#调参max_features 网格搜索最佳参数
grid_param={'max_features':np.arange(5,30)} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=39,random_state=90) #实例化
GS=GridSearchCV(rfc,grid_param,cv=10) #网格搜索
GS.fit(data.data,data.target)  #训练模型
GS.best_params_  #最佳参数
GS.best_score_   #最佳分数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342