一、首先要做什么
- 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法。
- 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择。
- 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势。
二、查全率和查准率
查准率(Precision)和查全率(Recall) 我们将算法预测的结果分成四种情况:
- 正确肯定(True Positive,TP):预测为真,实际为真
- 正确否定(True Negative,TN):预测为假,实际为假
- 错误肯定(False Positive,FP):预测为真,实际为假
- 错误否定(False Negative,FN):预测为假,实际为真
查准率=TP/(TP+FP)。
查全率=TP/(TP+FN)。
查全率和查准率之间需要做一个权衡。