GridSearchCV()和RandomizedSearchCV()参数搜索

一、具体例子见(jupyter notebook):

E:\cgx硬盘\★Python and AI\(cgx★★)scikit learn 学习笔记\sklearn_cgx\GridSearchCV和RandomizedSearchCV参数搜索\GridSearchCV_and_RandomizedSearchCV.ipynb

二、使用方法简介

sklearn中主要提供了两种搜索模型超参数的方法:

  • 网格搜索GridSearchCV:穷举所有参数组合,能确保找到的是最佳参数组合,但速度慢;
  • 随机搜索RandomizedSearchCV:随机采样参数组合,速度快,但可能找不到的不是最优参数组合。

可以在搜索最佳参数的同时自动训练得到最佳模型,也可以在得到最佳参数后自己重新训练最佳模型!

本文以GridSearchCV为例进行说明(随机搜索类似)

(1)GridSearchCV() 主要输入参数:

参数 描述
estimator 要搜索超参数的分类器对象(例如SVC()),并且可以指定传入除需要确定最佳参数之外的其他参数。每一个分类器都需要一个scoring参数,或者score方法;
param_grid 待搜索的参数组合,字典或字典list类型(之所以可以用‘字典list’,其意义在于可以对同一个(或一组)参数多次设置搜索范围,见后面例子)。(注意:字典的key必须和estimator里的参数名字相同,比如estimator用的是svc,要搜索svc的参数gamma,那么param_grid里的key就必须用gamma;如果用了管道(pipeline),管道里用户给svc取的名称是’svc_cgx’,那么param_grid里的key就应该是:svc_cgx__gamma,注意用“__(两个)”来分隔。)
n_jobs 搜索时的并发数(内核使用数)。=1 只用1个cpu(默认);=2 用2个cpu;=-1 用所有cpu。
refit 默认为True,在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集,得到最佳参数与最佳模型。(这样用户就可以直接用.predict(X_new)进行预测了,不需要再根据搜索到的最佳参数重新训练一遍模型
cv 交叉验证折数,比如cv=5,则搜索的时候每个参数组合的模型性能是由5折交叉验证算出来的均值。
scoring 搜索时模型性能的评价准则,默认为None,None则使用estimator的默认评价准备。也可以自己设置,比如scoring=‘roc_auc’。
verbose 日志冗长度,int:冗长度,0:不输出训练过程,1:偶尔输出,>1:对每个子模型都输出。

用一个例子来说明param_grid这个参数为什么可以是:字典或字典list?

# #我们选择 svm.SVC()算法作为估计器,该算法其中有4个输入参数:kernel、C 、degree和 gamma
my_estimator = svm.SVC(probability=True)

# 下面是构建待搜索参数my_param_grid,其结构是一个“字典”或“字典list”:其中字典的key为真实的参数名称,value是该参数的待搜索范围。
my_param_grid = {'kernel':['linear','poly','rbf'], 'C':[1,10,100,1000], 'degree':[2,3], 'gamma':[1,0.1, 0.01, 0.001]}  # dict
my_param_grid = [{'kernel':['linear'], 'C':[1,10,100,1000]},
                 {'kernel':['poly'], 'C':[1,10],'degree':[2,3]},
                 {'kernel':['rbf'], 'C':[1,10,100,1000], 'gamma':[1,0.1, 0.01, 0.001]}]  # dict list
# 定义网格搜索对象
grid = GridSearchCV(estimator=my_estimator, 
                    param_grid=my_param_grid, 
                    refit=True, 
                    cv=10, 
                    n_jobs=-1, 
                    scoring='accuracy') 
# 开始网格搜索
grid.fit(X, y)

上例中,待搜索参数的估计器是svm.SVC(),该估计器其中有4个参数是kernel、C 、degree和 gamma,我们准备搜索这四个参数的最佳值,最佳值。
我们在定义my_param_grid时,用了两种方法:
(1)第一种是一个dict,其中kernel有['linear','poly','rbf'] 3个选择,C有[1,10,100,1000] 4个选择,degree有[2,3] 2个选择,gamma有[1,0.1, 0.01, 0.001] 4个选择。因此总共有:3×4×2×4=96种情况,共耗时4.92s。
(2)第二种是一个dict的list,与第一种不同的是,内含有3个dict,其中每个dict可以分别对不同的参数进行搜索范围选择。因此总共有:1×4+1×2×2+1×4×4=24种情况,共耗时0.286s。
由此可见,第二种方法更灵活,效率更高,推荐使用!

(2)GridSearchCV() 主要输出属性:

属性 描述
.best_score_ 最佳模型.best_estimator的平均交叉验证分数;
.best_params_ 返回dict,包含了.best_estimator的最佳参数;
.best_estimator_ 在获取的最佳参数.best_params_基础上重新训练的最佳模型,其前提是:输入参数refit = True
.n_splits int,交叉验证拆分的数量(折叠/迭代);
.cv_results_ 保存每次搜索的详细信息,通常与pandas一起利用表格形式输出:pd.DataFrame.from_dict(my_grid.cv_results_)

(3)GridSearchCV() 主要输出方法:

方法 描述
. fit(X, y) 根据训练数据对目标参数进行网格搜索
.predict(X_new) 直接利用最佳参数训练好的模型对新样本进行预测,其前提是:输入参数refit = True
.score(X_test, y_test) 测试数据在最佳模型上的分数,其前提是:输入参数refit = True
.get_params(deep=True/False) 返回dict,包含了详细的网格搜索参数。

三、高阶使用方法

Pipline的结合使用,见:
https://www.jianshu.com/writer#/notebooks/52233537/notes/117135513

四、其他

我在看其他博客的时候,别人有提到说:“网格搜索这个方法适合于小数据集,一旦数据的量级上去了,就很难得出结果。这个时候可以使用一个快速调优的方法——坐标下降:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力。

如果没有太多的超参数需要调优,并且 pipeline 运行时间不长,请使用 GridSearchCV;
对于较大的搜索空间和训练缓慢的模型,请使用 HalvingGridSearchCV;
对于非常大的搜索空间和训练缓慢的模型,请使用 HalvingRandomSearchCV。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352