到现在为止, 我们介绍了一些分类回归的模型, 当然还有许许多多的模型没有介绍, 同时我们到现在还没有对数据有过任何的加工,真实情况下,数据是需要清洗提炼,特征也是需要挖掘和选择的。这些我们暂时先不讨论。我们假设我们拿到的就是比较干净的数据,我们通过合适的模型, 实现了分类或回归, 那我们要如何判断模型的好坏呢?
模型性能的度量
首先我们需要去定义一些标准去衡量我们模型的好坏,比如同一个分类问题,我们拿LR也可以分类,SVM也可以分类,如何去判断模型的好坏,其实需要根据具体的使用场景。但首先,我们肯定需要一些指标去衡量,不同的场景,选择不同的指标即可。这篇会简单介绍一些常用的度量指标。
(1)错误率与精度
分类问题中,错误率就是指被误分类的概率,
精度是指被正确分类的概率, 显然
(2)但如果我们想看分类为正的样本内,真实为正的概率, 那错误率与精度是不能满足需求的,这两个指标有它的局限性,这时候我们引入一个混淆矩阵
由此我们可以新定义一些指标:
精确率 , 预测为正的样本, 真实为正的概率。
召回率 , 多少正样本被预测为了正。
这两个指标往往是一对矛盾的指标,比如全部预测为正, 那召回率就会很高,但精确率就会比较低。除非是一些比较容易的任务。
综合考虑了精确率和召回率,往往作为用来评判模型的好坏的标准。
但是在一些场景下, 精确率和召回率侧重点是不一样的,有时候精确率重要一些,有时候召回率重要一些
这时候可以引入一个权重系数β
度量了召回率对精确率的相对重要性, 的时候,就是,的时候, 召回率更重要, 的时候, 精确率更重要。
(3)接下来是ROC与AUC, 正如之前所介绍的,很多模型是软分类,即给出相应的预测概率, 然后将预测概率和分类阈值(例如0.5)比较, 进行分类。
借助混淆矩阵,我们需要新定义两个指标, 分别是真正例率(TPR)和假正例率(FPR)
这个ROC曲线怎么理解呢,假设我们有N个样本,所有样本都对应着一个概率,将其从大到小排序 。 我们将分类阈值从概率最大值慢慢往下降,
一开始分类阈值无穷大, 则TPR和FPR都是0, 就是原点,然后将分类阈值慢慢下调,先降到p1,再降到p2,依次往下降。每一次下降,都会有一个样本预测从负样本变成正样本,即每次都可以算出当前的TPR和FPR,就可以在图上相应的描点,最后当阈值为的时候, 所有样本都是正的, TPR和FPR都是1了。把所有N+1个点连起来,就是ROC曲线了。ROC曲线的面积,就是AUC。可以拿AUC的大小作为模型评判的好坏。
过拟合与模型选择
我们始终要面临一个模型选择的问题,如果一味追求样本内的预测能力,所选的模型往往会比较复杂,这就是过拟合,过拟合的模型,对于测试集样本会有比较大的测试误差,是我们要避免的。接下来介绍两种模型选择的方法:正则化与交叉验证。
(1)正则化
这个方法我们在线性回归中做过介绍了, 就是给参数增加惩罚系数,惩罚系数越大, 模型就越趋于简单,越不会过拟合,但可能就会导致欠拟合了。
(2)交叉验证
简单的交叉验证:即将训练数据集按比例随机划分成两部分,训练集和测试集, 用训练集训练模型,再根据测试集的结果选择模型
k折交叉验证:讲训练数据切分为k份,每次拿k-1份学习模型,剩下的1份当做测试集, 可以重复进行k次,将每次的结果平均,选择最好的那个模型
留一交叉验证: k折交叉验证的极限情况, 分为N份数据,每次留一个样本作为测试集, 往往是数据比较少的时候用。如果数据多的时候使用,学习时间会很长。
模型的泛化能力
正如上面所讲,我们关心的是模型的泛化能力,样本内精确度很高不一定可信,因为可能是过拟合的, 我们希望模型在预测新样本时,能有很好的能力。
模型的泛化误差,可以分解为偏差,方差和噪声。
(1)偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了模型本身的拟合能力。例如一个二次项回归, 拿一次项拟合,拟合的误差始终会比较大。或者说模型加了太大的惩罚项,模型欠拟合。
(2)方差度量了同样大小的训练集变动导致的模型的变化,刻画了数据扰动的影响。例如一个二次项回归,拿更高次去拟合,在当前样本内可以拟合的很好,但换一个同分布的数据集,结果就会变得很差,因为过拟合了。
(3)噪声刻画了泛化误差的下界,这个比较好理解。
所以要取得好的泛化性能, 需要较小的偏差与较小的方差。(欠拟合是太大的偏差,过拟合是太大的方差)
下一篇开始,会介绍集成学习, 将很多基模型组合成一个模型,可以很好的提升模型的性能。