如何评估一个机器学习模型

转自http://www.jianshu.com/p/6ffa3df3ec86

为什么需要评估模型

评估训练出的模型是准确预测的关键。训练出的模型是建立在总数据的子集上的,其被称为训练数据,训练结束后该模型将被用于预测其它新数据。

通过训练集产生的模型,利用测试数据来进行模型效果的评估,评估结果以模型评估报告的形式呈现,在报告中通过AUC值、模型准确率、模型召回率等一系列评估指标将帮助判断模型是否可行以及是否满足业务目标。

一方面,如果一个模型完全适应其训练数据,但是在训练数据外的数据集上却不能很好的拟合数据,那么它将会过度拟合

出现这种情况时我们则需要采取一些措施,如:

  • 增加训练数据可以有限的避免过拟合。

  • 减少特征数或使用较少的特征组合,对于按区间离散化的特征,增大划分的区间。

  • 交叉检验,通过交叉检验得到较优的模型参数。

  • 正则化(即保留特征,但是减小特征变量的数量级)。

另一方面,如果模型在训练集表现差,不必说在测试集表现也会同样会很差,这可能是欠拟合导致。

出现这种情况时我们则需要采取一些措施,如:

  • 增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;

  • 尝试非线性模型,比如核SVM 等模型;

    这里有一个可以参考理解的示例:http://www.cnblogs.com/ooon/p/5715918.html

解读模型评估指标

模型评估之 — 混淆矩阵

[图片上传失败...(image-dc98cf-1511234245738)]

TP(实际为正预测为正),FP(实际为负但预测为正),TN(实际为负预测为负),FN(实际为正但预测为负)

通过混淆矩阵我们可以给出各指标的值:

  • 召回率(Recall,TNR):预测对的正例数占真正的正例数的比率计算公式:

    Recall=TP / (TP+FN)

  • 准确率:反映分类器统对整个样本的判定能力,能将正的判定为正,负的判定为负,计算公式:

    Accuracy=(TP+TN) / (TP+FP+TN+FN)

  • 精准率:指的是所得数值与真实值之间的精确程度;预测正确的正例数占预测为正例总量的比率,计算公式:

    Precision=TP / (TP+FP)

  • 阴性预测值:阴性预测值被预测准确的比例,计算公式:

    NPV=TN / (TN+FN)

  • F值:F-score是Precision和Recall加权调和平均数,并假设两者一样重要,计算公式:

    F1 Score=(2RecallPrecision) / (Recall+Precision)

模型评估之 — ROC图和AUC

** ROC曲线说明:**

Sensitivity=正确预测到的正例数/实际正例总数

1-Specificity=正确预测到的负例数/实际负例总数

纵坐标为Sensitivity(True Positive Rate),横坐标为1-Specificity(True Negative Rate),ROC 曲线则是不同阈值下Sensitivity和1-Specificity的轨迹。

阈值:阈值就是一个分界线,用于判定正负例的,在模型预测后我们会给每条预测数据进行打分(0<score<1)。如:指定阈值为0.6,那么评分低于0.6的会被判定为负例(不好的),评分高于0.6的即会判定为正例(好的),随着阈值的减小,判定为正例的样本相应地就会增加。

AUC(Area Under the ROC Curve)指标在模型评估阶段常被用作最重要的评估指标来衡量模型的准确性,横坐标为其中随机分类的模型AUC为0.5,所以模型的AUC基线值大于0.5才有意义。

模型的ROC曲线越远离对角线,说明模型效果越好,ROC曲线下的区域面积即为AUC值,AUC值越接近1模型的效果越好。随着阈值的减小,Sensitivity和1-Specificity也相应增加,所以ROC曲线呈递增态势。

[图片上传失败...(image-8bd495-1511234245737)]

评估指标之 — Lift提升图

Lift =[TP/(TP+FP)] / [(TP+FN)/(TP+FP+FN+TN)] = PV_plus / pi1,它衡量的是,与不利用模型相比,模型的预测能力“变好”了多少,lift(提升指数)越大,模型的运行效果越好。

不利用模型,我们只能利用“正例的比例是(TP+FN)/(TP+FP+FN+TN)”这个样本信息来估计正例的比例(baseline model),而利用模型之后,我们不需要从整个样本中来挑选正例,只需要从我们预测为正例的那个样本的子集TP+FP中挑选正例,这时预测的准确率PV_plus(Precision)为TP/(TP+FP)。

[图片上传失败...(image-adccb2-1511234245736)]

上图的纵坐标是lift,横坐标是正例集百分比。随着阈值的减小,更多的客户就会被归为正例,也就是预测成正例的比例变大。当阈值设得够大,只有一小部分观测值会归为正例,但这一小部分一定是最具有正例特征的观测值集合(用前面银行向客户推荐信用卡的例子来看,这一部分人群对推荐的反应最为活跃),所以在这个设置下,对应的lift值最大。同样,当阈值设定得足够的小,那么几乎所有的观测值都会被归为正例(占比几乎为100%)——这时分类的效果就跟baseline model差不多了,相对应的lift值就接近于1。

ROC曲线和lift曲线都能够评价逻辑回归模型的效果:类似信用评分的场景,希望能够尽可能完全地识别出有违约风险的客户,选择ROC曲线及相应的AUC作为指标;

类似数据库精确营销的场景,希望能够通过对全体消费者的分类而得到具有较高响应率的客户群从而提高投入产出比,选择lift曲线作为指标;

评估指标 — Gain增益图

Gains(增益) 与 Lift (提升)类似:Lift 曲线是不同阈值下Lift和Depth的轨迹,Gain曲线则是不同阈值下PV_plus和Depth的轨迹,而PV_plus=Lift*pi1= TP/TP+FP,所以它们显而易见的区别就在于纵轴刻度的不同。

增益图是描述整体精准率的指标。按照模型预测出的概率从高到低排列,将每一个百分位数内的精准率指标标注在图形区域内,就形成了非累积的增益图。如果对每一个百分位及其之前的精准率求和,并将值标注在图形区域内,则形成累积的增益图。

Gain图

模型评估之 — K-S图

正样本洛伦兹曲线记为f(x),负样本洛伦兹曲线记为g(x),K-S曲线实际上是f(x)与g(x)的差值曲线。K-S曲线的最高点(最大值)定义为KS值,KS值越大,模型分值的区分度越好,KS值为0代表是最没有区分度的随机模型。准确的来说,K-S是用来度量阳性与阴性分类区分程度的。

ps:洛伦兹曲线定义
就是,在一个总体(国家、地区)内,以“最贫穷的人口计算起一直到最富有人口”的人口百分比对应各个人口百分比的收入百分比的点组成的曲线。用来计算基尼系数评价贫富差距的。
通俗点给你讲:
你们街20家,按照财富做个排行,横坐标20个点。第一个点纵坐标就是最穷那家人的财富,第二个点就是最穷的和次穷的财富总和,以此类推。连成线就是洛伦兹曲线了。
(洛伦兹曲线就是排序后的累计概率曲线)

[图片上传失败...(image-788c51-1511234245736)]

其实通常在实际使用的过程中,我们大多数都是通过AUC指标和Recall召回率来判断一个二分类模型的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容