一、具体例子见(jupyter notebook):
E:\cgx硬盘\★Python and AI\(cgx★★)scikit learn 学习笔记\sklearn_cgx\GridSearchCV和RandomizedSearchCV参数搜索\GridSearchCV_and_RandomizedSearchCV.ipynb
二、使用方法简介
sklearn中主要提供了两种搜索模型超参数的方法:
- 网格搜索GridSearchCV:穷举所有参数组合,能确保找到的是最佳参数组合,但速度慢;
- 随机搜索RandomizedSearchCV:随机采样参数组合,速度快,但可能找不到的不是最优参数组合。
可以在搜索最佳参数的同时自动训练得到最佳模型,也可以在得到最佳参数后自己重新训练最佳模型!
本文以GridSearchCV为例进行说明(随机搜索类似):
(1)GridSearchCV() 主要输入参数:
参数 | 描述 |
---|---|
estimator | 要搜索超参数的分类器对象(例如SVC()),并且可以指定传入除需要确定最佳参数之外的其他参数。每一个分类器都需要一个scoring参数,或者score方法; |
param_grid | 待搜索的参数组合,字典或字典list类型(之所以可以用‘字典list’,其意义在于可以对同一个(或一组)参数多次设置搜索范围,见后面例子)。(注意:字典的key必须和estimator里的参数名字相同,比如estimator用的是svc,要搜索svc的参数gamma,那么param_grid里的key就必须用gamma;如果用了管道(pipeline),管道里用户给svc取的名称是’svc_cgx’,那么param_grid里的key就应该是:svc_cgx__gamma,注意用“__(两个)”来分隔。) |
n_jobs | 搜索时的并发数(内核使用数)。=1 只用1个cpu(默认);=2 用2个cpu;=-1 用所有cpu。 |
refit | 默认为True,在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集,得到最佳参数与最佳模型。(这样用户就可以直接用.predict(X_new)进行预测了,不需要再根据搜索到的最佳参数重新训练一遍模型) |
cv | 交叉验证折数,比如cv=5,则搜索的时候每个参数组合的模型性能是由5折交叉验证算出来的均值。 |
scoring | 搜索时模型性能的评价准则,默认为None,None则使用estimator的默认评价准备。也可以自己设置,比如scoring=‘roc_auc’。 |
verbose | 日志冗长度,int:冗长度,0:不输出训练过程,1:偶尔输出,>1:对每个子模型都输出。 |
用一个例子来说明param_grid这个参数为什么可以是:字典或字典list?
# #我们选择 svm.SVC()算法作为估计器,该算法其中有4个输入参数:kernel、C 、degree和 gamma
my_estimator = svm.SVC(probability=True)
# 下面是构建待搜索参数my_param_grid,其结构是一个“字典”或“字典list”:其中字典的key为真实的参数名称,value是该参数的待搜索范围。
my_param_grid = {'kernel':['linear','poly','rbf'], 'C':[1,10,100,1000], 'degree':[2,3], 'gamma':[1,0.1, 0.01, 0.001]} # dict
my_param_grid = [{'kernel':['linear'], 'C':[1,10,100,1000]},
{'kernel':['poly'], 'C':[1,10],'degree':[2,3]},
{'kernel':['rbf'], 'C':[1,10,100,1000], 'gamma':[1,0.1, 0.01, 0.001]}] # dict list
# 定义网格搜索对象
grid = GridSearchCV(estimator=my_estimator,
param_grid=my_param_grid,
refit=True,
cv=10,
n_jobs=-1,
scoring='accuracy')
# 开始网格搜索
grid.fit(X, y)
上例中,待搜索参数的估计器是svm.SVC(),该估计器其中有4个参数是kernel、C 、degree和 gamma,我们准备搜索这四个参数的最佳值,最佳值。
我们在定义my_param_grid时,用了两种方法:
(1)第一种是一个dict,其中kernel有['linear','poly','rbf'] 3个选择,C有[1,10,100,1000] 4个选择,degree有[2,3] 2个选择,gamma有[1,0.1, 0.01, 0.001] 4个选择。因此总共有:3×4×2×4=96种情况,共耗时4.92s。
(2)第二种是一个dict的list,与第一种不同的是,内含有3个dict,其中每个dict可以分别对不同的参数进行搜索范围选择。因此总共有:1×4+1×2×2+1×4×4=24种情况,共耗时0.286s。
由此可见,第二种方法更灵活,效率更高,推荐使用!
(2)GridSearchCV() 主要输出属性:
属性 | 描述 |
---|---|
.best_score_ | 最佳模型.best_estimator的平均交叉验证分数; |
.best_params_ | 返回dict,包含了.best_estimator的最佳参数; |
.best_estimator_ | 在获取的最佳参数.best_params_基础上重新训练的最佳模型,其前提是:输入参数refit = True; |
.n_splits | int,交叉验证拆分的数量(折叠/迭代); |
.cv_results_ | 保存每次搜索的详细信息,通常与pandas一起利用表格形式输出:pd.DataFrame.from_dict(my_grid.cv_results_) |
(3)GridSearchCV() 主要输出方法:
方法 | 描述 |
---|---|
. fit(X, y) | 根据训练数据对目标参数进行网格搜索; |
.predict(X_new) | 直接利用最佳参数训练好的模型对新样本进行预测,其前提是:输入参数refit = True; |
.score(X_test, y_test) | 测试数据在最佳模型上的分数,其前提是:输入参数refit = True; |
.get_params(deep=True/False) | 返回dict,包含了详细的网格搜索参数。 |
三、高阶使用方法
与Pipline的结合使用,见:
https://www.jianshu.com/writer#/notebooks/52233537/notes/117135513
四、其他
我在看其他博客的时候,别人有提到说:“网格搜索这个方法适合于小数据集,一旦数据的量级上去了,就很难得出结果。这个时候可以使用一个快速调优的方法——坐标下降:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力。”
如果没有太多的超参数需要调优,并且 pipeline 运行时间不长,请使用 GridSearchCV;
对于较大的搜索空间和训练缓慢的模型,请使用 HalvingGridSearchCV;
对于非常大的搜索空间和训练缓慢的模型,请使用 HalvingRandomSearchCV。