过拟合和欠拟合。
欠拟合:模型学习能力不够。解决方法:决策树扩展分支、神经网络增加训练轮数。
过拟合:模型学习过了,学到了噪声。过拟合无法避免,只能缓解。解决方法:EarlyStopping、L1、L2正则化。误差
模型在训练集上的误差叫做训练误差/经验误差。
模型在新样本上的误差叫做泛化误差,一般使用测试集误差近似泛化误差。数据集分类
训练集:模型学习的数据。
验证集:模型选择和调参数据。
测试集:模型实际使用时遇到的数据集。数据集划分
一、留出法。直接将数据集划分为互斥的两部分,训练集和测试集。为了保持二者分布的一致性,可以考虑使用分层采样,保持正负样本比例一致。
二、交叉验证法。将数据集划分为k个互斥的子集进行k次训练,每次选择一个子集作为测试集其余作为训练集,最后将k次结果平均。
三、自助法。从D中采样获得D’。每次采取有放回采样一个样本,样本始终不被采的概率约为0.368,采到的样本作为训练集,其余测试集。该方法只适合样本量非常小的情况。-
回归和分类评估指标。
回归问题:均方根误差RMSE、平均绝对误差MAE。
分类问题:准确率、召回率(查全率)、精确率(查准率)、F1、AUC。
-
混淆矩阵
混淆矩阵是分类指标中的AUC和召回率、精确率都会涉及到的知识点。
准确率 Accuracy = (TP + TN) / (TP + FP + FN + TN)
F1 = 2 * Recall * Precision / (Recall + Precision),F1是召回率和精确率的调和平均。
-
ROC曲线
TPR 所有实际为正例的样本中,预测为正例的比例。
FPR 所有实际为负例的样本中,预测为负例的比例。
ROC和AUC是评价分类器好坏的方法。通过给定分类器不同的阈值(0.1,0.2...1),来求出所有的 (FPR, TPR)对,然后在横坐标是FPR,纵坐标是TPR的二维象限上绘制,得到的曲线下面积即AUC,范围[0.5, 1]。