基本概念
真阳性 (True Positive, TP)
模型正确预测为正例的数量。例如,在癌症检测中,病人确实患有癌症且模型预测为“患癌”的情况计为真阳性。
假阳性 (False Positive, FP)
模型错误地将负例预测为正例的数量。例如,病人实际上没有癌症,但模型预测为“患癌”的情况计为假阳性,也称“误报”。
真阴性 (True Negative, TN)
模型正确预测为负例的数量。例如,病人没有癌症且模型预测为“未患癌”的情况计为真阴性。
假阴性 (False Negative, FN)
模型错误地将正例预测为负例的数量。例如,病人确实患有癌症,但模型预测为“未患癌”的情况计为假阴性,也称“漏报”。
评估指标
召回率 (Recall, Sensitivity)
衡量模型能够识别出所有正例的能力。
召回率 = TP / ( TP + FN )
含义: 模型预测为正的比例中,实际正例被捕获的比例。
精确度 (Precision)
衡量模型预测为正例的样本中实际为正例的比例。
精确度 = TP / ( TP + FP )
含义: 模型预测为正的样本有多可信。
F1分数 (F1 Score)
召回率和精确度的加权调和平均值,综合评估模型性能。
F1分数 = (2 × Precision × Recall) / (Precision + Recall)
含义: 平衡模型的召回率和精确度,当二者差距较大时尤为重要。
torchmetrics库中封装了F1分数实现,可以直接调用,简化代码实现。
模型泛化能力
过拟合 (Overfitting): 模型对训练数据学得太好(数据相对模型太少了、或者数据不够全面等),甚至记住了噪声,导致在测试数据上表现差。
特征: 训练集误差很低,但测试集误差高。
解决方法:
- 减少模型复杂度(例如减少层数、神经元数)。
- 增加正则化(如L1、L2正则化)。
- 使用数据增强。
- 增大数据集。
欠拟合 (Underfitting):模型对训练数据学习不足,无法捕捉数据的内在模式。
特征: 训练集和测试集误差都很高。
解决方法:
- 增加模型复杂度(如更多层、更大的网络)。
- 增加训练时间。
- 调整超参数。