怎么去评估一个目标检测器的有效性?这个问题可能在不同的时期有不同的答案。
在早期的检测社区,在检测性能上没有一个广泛被接受的评估标准。例如在早期的行人检测中,“miss rate(漏检率) vs false positives per-window(FPPW)”经常被用来作为度量标准。然而, FPPW测量是有缺陷的,在某些案例下是无法预测整张图像性能的。在2009年,Caltech行人检测基准被创建,从那以后,评估标准就从针对窗口的FPPW变到了针对整张图像的false positives per-image(FPPI)。
在最近几年,目标检测被广泛使用的评估标注是“Average Precision(AP)”,其最初是在VOC2007中被引进的。AP被定义为在不同的召回率下的平均检测准确性,是对一个特定类别下的评估。为了比较所有目标种类的性能,mean AP(mAP)经常被用来作为性能最终的度量,是在所有目标种类上做平均。
为了测量目标定位的准确性,Intersection over Union(IoU)被用来检验被预测box和真实box直接IoU值是否大于预先定义的阈值,比如0.5。如果是,目标将被认为是“成功检测”,否则则被认为为“漏检”。基于0.5IoU的mAP已经成为了这几年目标检测问题的实际度量。
在2014年以后,由于MS-COCO数据集的流行,研究者开始将更多的注意力放在了bounding box定位的准确性上。不是用一个固定的IoU值,MS-COCO AP将在0.5到0.95之间多个IoU阈值上取平均。这个度量的改变已经鼓励了更准确的目标定位,对一些现实世界的应用十分重要(例如,一个机械手试图去赚取一个扳手)。
最近,在Open Images数据集上的评估有了进一步的发展,例如考虑成组的boxes和非全面的图像级类别分层。一些研究者也提出了一些替代性度量,例如“定位召回准确性”。尽管有最近的这些改变,基于VOC/COCO的mAP仍然是使用最频繁的目标检测评估标准。