经验误差与选择
均方误差一般定义 : E(f;D)=\frac{1}m\sum_{n=1}^{m}(f(x_i)-y_i)^2
错误率:E(f;D)=\frac{1}m\sum_{n=1}^{m}I(f(x_i)\neq y_i)
精度:\begin{aligned} acc(f;D) &=\frac{1}m\sum_{n=1}^{m}I(f(x_i)=y_i) \\&= 1-E(f;D)\end{aligned}
准确率(查准率):从预测结果的角度看,预测正确的占比P=\frac{TP}{TP+FP}
召回率(查全率):从真实情况的角度看,预测正确的占比R=\frac{TP}{TP+FN}
"平衡点" (Break-Event Point,简称BEP)就是这样一个度量,它是" 准确率(查准率)=召回率(查全率)"时的取值,如上图中学习器C 的BEP 是0 . 64,而基于BEP
的比较,可认为学习器A 优于B 。(BEP越大越好)
F1范数:
F1 是基于查准率与查全率的调和平均(harinonic mean)定义的:\frac{1}{F1} = \frac{1}{2}*(\frac{1}{P}+\frac{1}{R})
F1的更一般形式为 F_\beta, 能够表达出对准确率(查准率)和召回率(查全率)的不同偏好:\frac{1}{F_\beta} = \frac{1}{1+\beta^2}*(\frac{1}{P}+\frac{\beta^2}{R})
注:调和平均数更重视极小值的影响
"真正例率" (True Positive Rate,简称TPR): TPR = \frac{TP}{TP+FN}
注:TPR 和召回率一样
"假正例率" (False Positive Rate,简称FPR):FPR = \frac{FP}{TN+FP}