模型验证方法

模型验证方法一览

名称 模块
通过交叉验证计算得分 model_selection.cross_val_score(estimator, X)
对每个输入点产生交叉验证估计 model_selection.cross_val_predict(estimator, X)
计算并绘制模型的学习率曲线 model_selection.learning_curve(estimator, X, y)
计算并绘制模型的验证曲线 model_selection.validation_curve(estimator, ...)
通过排序评估交叉验证defender重要性 model_selection.permutation_test_score(...)

通过交叉验证计算得分

cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')

参数:

  • estimator: 实现了'fit'函数的学习器
  • X: array-like,需要学习的数据,可以是列表或者2d数组
  • y: 可选的,默认是None,监督学习中样本特征向量的真实目标值
  • scroing: srting,callable or None,可选的,默认是None,
    一个字符串或者一个scorer可调用对象或者函数,必须实现scorer(estimator, X, y)
  • cv: int,交叉验证生成器或者一个迭代器,可选的,默认是None,决定交叉验证划分策略
    cv的可选项有以下的几种
  1. None: 使用默认的3-fold交叉验证
  2. Interger:指定在(Stratified)kfold中使用的‘折’的数量
  3. 可以用作交叉验证生成器的一个对象
  4. 一个能够产生train/test划分的迭代器对象

对于integer/None类型的输入,如果estimator是一个分类器并且y是对应的类标签,则默认使用StratifiedKFold,其他的情况默认使用kfold

返回值:

  • scores:浮点数组, shape=(len(list(cv)),)每一次交叉验证得分弄成一个数组,默认是三次,三个得分。
from sklearn.model_selection import cross_val_score
import numpy as np
from sklearn import datasets, svm

digits = datasets.load_digits()
X = digits.data
y = digits.target

svc = svm.SVC(kernel='linear')  # C 结构因子最小化因子
C_s = np.logspace(-10, 0, 10)
print('参数列表长度:', len(C_s))
scores = list()
scores_std = list()
for C in C_s:
    svc.C = C
    this_scores = cross_val_score(svc, X, y, n_jobs=4)  # 指定并行数量
    scores.append(np.mean(this_scores))
    scores_std.append(np.std(this_scores))
# 绘制交叉验证曲线
import matplotlib.pyplot as plt
plt.figure(1, figsize=(4,3))
plt.clf()
plt.semilogx(C_s, scores)
plt.semilogx(C_s, np.array(scores) + np.array(scores_std) , 'b--')
plt.semilogx(C_s, np.array(scores) - np.array(scores_std) , 'b--')
locs, labels= plt.yticks()
plt.yticks(locs, list(map(lambda x: "%g" %x, locs)))
plt.ylabel('CV score')
plt.xlabel('Parameter C')
plt.ylim(0, 1.1)
plt.show()
image

对每个输入点产生交叉验证估计

cross_val_predict(estimator, X, y=None, groups=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', method='predict')

参数:

  • method 字符串,可选,默认是'predict'

返回值:

  • predictions: ndarray 预测结果

计算并绘制模型的学习率曲线

learning_curve(estimator, X, y, groups=None, train_sizes=array([ 0.1  ,  0.325,  0.55 ,  0.775,  1.   ]), cv=None, scoring=None, exploit_incremental_learning=False, n_jobs=1, pre_dispatch='all', verbose=0)

参数:

  • train_sizes: array-like, shape(n_ticks,), dtype=float or int 用于指定训练样本子集的相对数量或者绝对数量,如果是浮点数,将会被视作整体训练集最大数量的百分比,所以必须在(0,1)之间,如果是int整型,就是绝对的数量,不能超过整体训练集的样本量。对于分类问题,训练子集的大小必须能够保证每个类至少有一个样本。

返回值:

  • train_sizes_abs
  • train_scores
  • test_scores

学习率曲线:

计算指定的学习器模型在不同大小的训练集上经过交叉验证的训练得分和测试得分。

首先,用一个交叉验证生成器划分整体数据集K次,每一次都有一个训练集和测试集,然后从第k次的训练集中拿出若干个数量不断增长的子集,在这些子训练集上训练模型。然后在计算模型在对应的子训练集和测试集上的得分。最后,对于在每种子训练集大小下,将K次训练集和测试集得分分别进行平均。

image

计算并绘制模型的验证曲线

validation_curve(estimator, X, y, param_name, param_range, groups=None, cv=None, scoring=None, n_jobs=1, pre_dispatch='all', verbose=0)

返回值:

  • train_scores array.shape(n_ticks, n_cv_folds)
  • test_scores

验证曲线:

当某个参数不断变化的时候,在每一个取值上计算出的模型在训练集和测试集上得分,在一个不断变化的参数上计算学习器模型的得分。这类似于只有一个参数的网格搜索。但是这个函数也会计算训练集上的得分。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容