机器学习中性能比较很复杂,没有想象的那么简单:
1.希望比较的是泛化性能,但得到的是测试性能
2.测试集上的性能跟测试集的选择很有大关系
3.机器学习有一定的随机性
假设检验:
“假设”是对学习器泛化错误率分布的某种判断或猜想,可根据测试错误率估推出泛化错误率的分布
误分类样本数符合二项分布,当泛化错误率=样本错误率时,概率最大
二项检验:
在1-a的概率内所能观测到的最大错误率, a的取值一般是0.05或0.1
1-a反映了结论的“置信度”, a为显著度
ε0 = max ε s.t. ε^i*(1-ε)^(m-i) <a
若测试错误率ε<ε0,则得出结论: 在 a 的显著度下 ,或1-a的置信度下, ε<=ε0不能被拒绝
交叉验证t检测
McNemar检验
Friedman检验与Nemenyi后续检验