一、数据集
Sklearn自带数据集——乳腺癌数据集
二、模型选择
乳腺癌数据集是二分类模型,选择随机森林模型进行调参
三、调参流程
1)简单建模,观察模型在数据集上具体的表现效果
2)调参——n_estimators
3)调参——max_depth
4)调参——min_samples_leaf
5)调参——min_samples_split
6)调参——max_features
7)调参——criterion
8)确定最佳参数组合
四、调参详解应用步骤
1)导入相关库
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
2)查看数据集概况
data=load_breast_cancer() #实例化
data.info()
data.data.shape
data.target.shape
data.target
3)简单建模,观察模型在数据集上具体的表现效果
rfc=RandomForestClassifier(n_estimators=100,random_state=90)
score_pre=cross_val_score(rfc,data.data,data.target,cv=10).mean()
score_pre
score_pre 分数为 0.9666925935528475
4)调参 n_estimators
scorel=[]
for i in range(1,201,10):
rfc=RandomForestClassifier(n_estimators=i,random_state=90)
score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()
运行结果:通过数据和学习曲线可以发现,当n_estimators=41的时候,阶段性准确率最高,达到0.9684480598046841
接下来缩小范围,继续探索n_estimators在 [35,45] 的表现效果
scorel=[]
for i in range(35,45):
rfc=RandomForestClassifier(n_estimators=i,random_state=90)
score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
scorel.append(score)
print(max(scorel),([*range(35,45)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])
plt.plot(range(35,45,1),scorel)
plt.show()
运行结果:调整n_estimators效果显著,模型准确率立刻上升了0.0035。接下来就进入网格搜索,我们将使用网格搜索对参数一个个进行调整。窥探如何通过复杂度-泛化误差方法调整参数进而提高模型的准确度。
5)调参max_depth
param_grid={'max_depth':[*np.arange(1,20,1)]}
rfc=RandomForestClassifier(n_estimators=39,random_state=90)
GS=GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_
运行结果:通过运行结果可以看到,网格搜索给出的最佳参数max_depth是11,此时最佳准确度为0.9718804920913884
但问题来了,相比前面第四步,此时限制max_depth减小,准确率反而降低了。随机森林树模型天生过拟合,降低模型复杂度理应可以提升准确率,但此时降低树的最大深度却使模型准确率降低了,说明模型现在位于图像左边,即泛化误差最低点的左边。。这和数据集本身有关,但也有可能是我们调整的n_estimators对于数据集来说太大,因此将模型拉到泛化误差最低点去了。
当模型位于图像左边时,我们需要的是增加模型复杂度(增加方差,减少偏差)的选项,因此max_depth应该尽量大,min_samples_leaf和min_samples_split都应该尽量小。这几乎是在说明,除了max_features,我们没有任何参数可以调整了,因为max_depth,min_samples_leaf和min_samples_split是剪枝参数,是减小复杂度的参数。在这里,我们可以预言,我们已经非常接近模型的上限,模型很可能没有办法再进步了。
6)调参max_features
grid_param={'max_features':np.arange(5,30)}
rfc=RandomForestClassifier(n_estimators=39,random_state=90)
GS=GridSearchCV(rfc,grid_param,cv=10)
GS.fit(data.data,data.target)
GS.best_params_
GS.best_score_
运行结果:网格搜索给出的最佳参数max_features是5,此时最佳准确度为0.9718804920913884,模型的准确率还是降低了。
网格搜索返回了max_features的最小值,可见max_features升高之后,模型的准确率降低了。这说明,我们把模型往右推,模型的泛化误差增加了。前面用max_depth往左推,现在用max_features往右推,泛化误差都增加,这说明模型本身已经处于泛化误差最低点,已经达到了模型的预测上限,没有参数可以左右的部分了。剩下的那些误差,是噪声决定的,已经没有方差和偏差的舞台了。
五、调整完毕,总结模型最佳参数组合
RandomForestClassifier(n_estimators=39,random_state=90)
调参前模型准确率:0.9666925935528475(96.67%)
调参后模型准确率:0.9719568317345088(97.20%)
模型提升的准确率:0.0052642381816613(+0.53%)
·································································································································································
完整代码:
#导入相关库
from sklearn.datasets import load_breast_cancer #导入乳腺癌数据集模块
from sklearn.ensemble import RandomForestClassifier #导入集成算法随机森林模块
from sklearn.model_selection import cross_val_score #导入交叉验证模块
from sklearn.model_selection import GridSearchCV #导入网格搜索模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#数据集概况
data=load_breast_cancer() #实例化
data.info() #数据集概况
data.data.shape #特征数据集形状
data.target.shape #标签数据集形状
data.target #标签数据
#简单建模,观察模型在数据集上具体的表现效果
rfc=RandomForestClassifier(n_estimators=100,random_state=90) #实例化
score_pre=cross_val_score(rfc,data.data,data.target,cv=10).mean() #交叉验证
score_pre
#调参n_estimators
scorel=[]
for i in range(1,201,10):
rfc=RandomForestClassifier(n_estimators=i,random_state=90) #设置n_estimators[1,201]依次建模评分
score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
plt.figure(figsize=[20,5]) #绘制学习曲线
plt.plot(range(1,201,10),scorel)
plt.show()
scorel=[]
for i in range(35,45):
rfc=RandomForestClassifier(n_estimators=i,random_state=90) #设置n_estimators[35,45]依次建模评分
score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
scorel.append(score)
print(max(scorel),([*range(35,45)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5]) #绘制学习曲线
plt.plot(range(35,45,1),scorel)
plt.show()
#调参max_depth 网格搜索最佳参数
param_grid={'max_depth':[*np.arange(1,20,1)]} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=39,random_state=90) #实例化
GS=GridSearchCV(rfc,param_grid,cv=10) #网格搜索
GS.fit(data.data,data.target) #训练模型
GS.best_params_ #最佳参数
GS.best_score_ #最佳分数
#调参max_features 网格搜索最佳参数
grid_param={'max_features':np.arange(5,30)} #网格搜索设置参数及参数大小范围
rfc=RandomForestClassifier(n_estimators=39,random_state=90) #实例化
GS=GridSearchCV(rfc,grid_param,cv=10) #网格搜索
GS.fit(data.data,data.target) #训练模型
GS.best_params_ #最佳参数
GS.best_score_ #最佳分数