为什么需要评估模型

评估训练出的模型是准确预测的关键。训练出的模型是建立在总数据的子集上的，其被称为训练数据，训练结束后该模型将被用于预测其它新数据。

通过训练集产生的模型，利用测试数据来进行模型效果的评估，评估结果以模型评估报告的形式呈现，在报告中通过AUC值、模型准确率、模型召回率等一系列评估指标将帮助判断模型是否可行以及是否满足业务目标。

一方面，如果一个模型完全适应其训练数据，但是在训练数据外的数据集上却不能很好的拟合数据，那么它将会过度拟合。

出现这种情况时我们则需要采取一些措施，如：

增加训练数据可以有限的避免过拟合。
减少特征数或使用较少的特征组合，对于按区间离散化的特征，增大划分的区间。
交叉检验，通过交叉检验得到较优的模型参数。
正则化（即保留特征，但是减小特征变量的数量级）。

另一方面，如果模型在训练集表现差，不必说在测试集表现也会同样会很差，这可能是欠拟合导致。

出现这种情况时我们则需要采取一些措施，如：

增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间;
尝试非线性模型，比如核SVM 等模型;

这里有一个可以参考理解的示例：http://www.cnblogs.com/ooon/p/5715918.html

解读模型评估指标

模型评估之 — 混淆矩阵

[图片上传失败...(image-dc98cf-1511234245738)]

TP（实际为正预测为正），FP（实际为负但预测为正），TN（实际为负预测为负），FN（实际为正但预测为负）

通过混淆矩阵我们可以给出各指标的值：

召回率（Recall,TNR）：预测对的正例数占真正的正例数的比率计算公式：

Recall=TP / (TP+FN)
准确率：反映分类器统对整个样本的判定能力，能将正的判定为正，负的判定为负，计算公式：

Accuracy=(TP+TN) / (TP+FP+TN+FN)
精准率：指的是所得数值与真实值之间的精确程度；预测正确的正例数占预测为正例总量的比率，计算公式：

Precision=TP / (TP+FP)
阴性预测值：阴性预测值被预测准确的比例，计算公式：

NPV=TN / (TN+FN)
F值：F-score是Precision和Recall加权调和平均数，并假设两者一样重要,计算公式：

F1 Score=(2RecallPrecision) / (Recall+Precision)

模型评估之 — ROC图和AUC

** ROC曲线说明：**

Sensitivity=正确预测到的正例数/实际正例总数

1-Specificity=正确预测到的负例数/实际负例总数

纵坐标为Sensitivity（True Positive Rate），横坐标为1-Specificity（True Negative Rate），ROC 曲线则是不同阈值下Sensitivity和1-Specificity的轨迹。

阈值：阈值就是一个分界线，用于判定正负例的，在模型预测后我们会给每条预测数据进行打分（0<score<1）。如：指定阈值为0.6，那么评分低于0.6的会被判定为负例（不好的），评分高于0.6的即会判定为正例（好的），随着阈值的减小，判定为正例的样本相应地就会增加。

AUC（Area Under the ROC Curve）指标在模型评估阶段常被用作最重要的评估指标来衡量模型的准确性，横坐标为其中随机分类的模型AUC为0.5，所以模型的AUC基线值大于0.5才有意义。

模型的ROC曲线越远离对角线，说明模型效果越好，ROC曲线下的区域面积即为AUC值，AUC值越接近1模型的效果越好。随着阈值的减小，Sensitivity和1-Specificity也相应增加，所以ROC曲线呈递增态势。

[图片上传失败...(image-8bd495-1511234245737)]

评估指标之 — Lift提升图

Lift =[TP/(TP+FP)] / [(TP+FN)/(TP+FP+FN+TN)] = PV_plus / pi1，它衡量的是，与不利用模型相比，模型的预测能力“变好”了多少，lift(提升指数)越大，模型的运行效果越好。

不利用模型，我们只能利用“正例的比例是(TP+FN)/(TP+FP+FN+TN)”这个样本信息来估计正例的比例（baseline model），而利用模型之后，我们不需要从整个样本中来挑选正例，只需要从我们预测为正例的那个样本的子集TP+FP中挑选正例，这时预测的准确率PV_plus(Precision)为TP/(TP+FP)。

[图片上传失败...(image-adccb2-1511234245736)]

上图的纵坐标是lift，横坐标是正例集百分比。随着阈值的减小，更多的客户就会被归为正例，也就是预测成正例的比例变大。当阈值设得够大，只有一小部分观测值会归为正例，但这一小部分一定是最具有正例特征的观测值集合（用前面银行向客户推荐信用卡的例子来看，这一部分人群对推荐的反应最为活跃），所以在这个设置下，对应的lift值最大。同样，当阈值设定得足够的小，那么几乎所有的观测值都会被归为正例（占比几乎为100%）——这时分类的效果就跟baseline model差不多了，相对应的lift值就接近于1。

ROC曲线和lift曲线都能够评价逻辑回归模型的效果：类似信用评分的场景，希望能够尽可能完全地识别出有违约风险的客户，选择ROC曲线及相应的AUC作为指标；

类似数据库精确营销的场景，希望能够通过对全体消费者的分类而得到具有较高响应率的客户群从而提高投入产出比，选择lift曲线作为指标；

评估指标 — Gain增益图

Gains(增益) 与 Lift （提升）类似：Lift 曲线是不同阈值下Lift和Depth的轨迹，Gain曲线则是不同阈值下PV_plus和Depth的轨迹，而PV_plus=Lift*pi1= TP/TP+FP，所以它们显而易见的区别就在于纵轴刻度的不同。

增益图是描述整体精准率的指标。按照模型预测出的概率从高到低排列，将每一个百分位数内的精准率指标标注在图形区域内，就形成了非累积的增益图。如果对每一个百分位及其之前的精准率求和，并将值标注在图形区域内，则形成累积的增益图。

Gain图

模型评估之 — K-S图

正样本洛伦兹曲线记为f(x)，负样本洛伦兹曲线记为g(x)，K-S曲线实际上是f(x)与g(x)的差值曲线。K-S曲线的最高点（最大值）定义为KS值，KS值越大，模型分值的区分度越好，KS值为0代表是最没有区分度的随机模型。准确的来说，K-S是用来度量阳性与阴性分类区分程度的。

ps：洛伦兹曲线定义
就是，在一个总体（国家、地区）内，以“最贫穷的人口计算起一直到最富有人口”的人口百分比对应各个人口百分比的收入百分比的点组成的曲线。用来计算基尼系数评价贫富差距的。
通俗点给你讲：
你们街20家，按照财富做个排行，横坐标20个点。第一个点纵坐标就是最穷那家人的财富，第二个点就是最穷的和次穷的财富总和，以此类推。连成线就是洛伦兹曲线了。
（洛伦兹曲线就是排序后的累计概率曲线）

[图片上传失败...(image-788c51-1511234245736)]

其实通常在实际使用的过程中，我们大多数都是通过AUC指标和Recall召回率来判断一个二分类模型的。

如何评估一个机器学习模型