过拟合
很可能巳经把训练样本自身的一些特点当作了所有潜在样本都
会具有的一般性质,这样就会导致泛化性能下降。
评估方法
通过实验测试来对学习器的泛化误差进行评估并进而做出选择 ,为此, 需使用一个 "测试集" (testing set) 来测试学习器对新样本的判别能力。
留出法
将数据集 D 划分为两个互斥的集合?其中一个集合作为训练集S ,另一个作为测试集 T, 即 D=SUT,S^T=空。
交叉法
自助法
给定包含 m 个样本的数据集 D , 我们对它进行采样产生数据集 D': 每次随机从 D 中挑选一个样本, 将其拷贝放入 D'。
优点:自助法在数据集较小、难以有效划分训练/测试集时很有用。
性能度量
对学习器的泛化性能进行评估,不仅需要有效可行的实验评估方法,还需要有衡量模型泛化能力的评价标准。
错误率(error)
分类错误的样本占样本总数的比例
精度(accuracy)
精度=1-错误率
| 真实情况 | 预测结果 |
| ------| ------ | ------ |
|| 正例 | 反例|
| 正例 | TP(真正例 True Positive) | FN(假反例 False negative) |
| 反例 | FP (假正例)| TN(真反例) |
准确率也叫查准率(precision)
比如:“检索出的信息中有多少比例是用户感兴趣的”
查准率P=TP/(TP+FP)
召回率也叫查全率(recall)
比如:“用户感兴趣的信息有多少比例被检索出来了”。
召回率R=TP/(TP+FN)
查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
ROC 全称是"受试者工作特征" (Receiver Operating Characteristic) 曲线
ROC 曲线的纵轴是"真正例率" (True Positive Rate,简称 TPR),横轴是"假正例率" (False Positive Rate,简称 FPR)
TPR=TP/(TP+FN)
FPR=FP/(TN+FP)
AUC (Area Under ROC Curve)
ROC 曲线下的面积,面积越大,模型性能越好
损失(loss)
AUC=1-损失
比较校验
假设检验
假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。