mAP

大雁与飞机

假设现在有这样一个测试集，测试集中的图片只由大雁和飞机两种图片组成，如下图所示：

image

假设你的分类系统最终的目的是：能取出测试集中所有飞机的图片，而不是大雁的图片。

现在做如下的定义： True positives : 飞机的图片被正确的识别成了飞机。 True negatives: 大雁的图片没有被识别出来，系统正确地认为它们是大雁。 False positives: 大雁的图片被错误地识别成了飞机。 False negatives: 飞机的图片没有被识别出来，系统错误地认为它们是大雁。

假设你的分类系统使用了上述假设识别出了四个结果，如下图所示：

image

那么在识别出的这四张照片中： True positives : 有三个，画绿色框的飞机。 False positives: 有一个，画红色框的大雁。

没被识别出来的六张图片中： True negatives : 有四个，这四个大雁的图片，系统正确地没有把它们识别成飞机。 False negatives: 有两个，两个飞机没有被识别出来，系统错误地认为它们是大雁。

Precision 与 Recall

Precision其实就是在识别出来的图片中，True positives所占的比率：

image

其中的n代表的是(True positives + False positives)，也就是系统一共识别出来多少照片。在这一例子中，True positives为3，False positives为1，所以Precision值是 3/（3+1）=0.75。意味着在识别出的结果中，飞机的图片占75%。

Recall 是被正确识别出来的飞机个数与测试集中所有飞机的个数的比值：

image

Recall的分母是(True positives + False negatives)，这两个值的和，可以理解为一共有多少张飞机的照片。在这一例子中，True positives为3，False negatives为2，那么Recall值是 3/（3+2）=0.6。意味着在所有的飞机图片中，60%的飞机被正确的识别成飞机。

Precision-recall 曲线

如果你想评估一个分类器的性能，一个比较好的方法就是：观察当阈值变化时，Precision与Recall值的变化情况。如果一个分类器的性能比较好，那么它应该有如下的表现：被识别出的图片中飞机所占的比重比较大，并且在识别出大雁之前，尽可能多地正确识别出飞机，也就是让Recall值增长的同时保持Precision的值在一个很高的水平。而性能比较差的分类器可能会损失很多Precision值才能换来Recall值的提高。通常情况下，文章中都会使用Precision-recall曲线，来显示出分类器在Precision与Recall之间的权衡。

image

上图就是分类器的Precision-recall 曲线，在不损失精度的条件下它能达到40%Recall。而当Recall达到100%时，Precision 降低到50%。

Approximated Average precision

相比较与曲线图，在某些时候还是一个具体的数值能更直观地表现出分类器的性能。通常情况下都是用 Average Precision来作为这一度量标准，它的公式为：

image

在这一积分中，其中p代表Precision ，r代表Recall，p是一个以r为参数的函数，That is equal to taking the area under the curve.

实际上这一积分极其接近于这一数值：对每一种阈值分别求（Precision值）乘以（Recall值的变化情况），再把所有阈值下求得的乘积值进行累加。公式如下：

image

在这一公式中，N代表测试集中所有图片的个数，P(k)表示在能识别出k个图片的时候Precision的值，而 Delta r(k) 则表示识别图片个数从k-1变化到k时（通过调整阈值）Recall值的变化情况。

在这一例子中，Approximated Average Precision的值 =(1 * （0.2-0）) + (1 * (0.4-0.2)) + (0.66 * (0.4-0.4)) + (0.75 * (0.6-0.4)) + (0.6 * (0.6-0.6)) + (0.66 * (0.8-0.6)) + (0.57 * (0.8-0.8)) + (0.5 * (0.8-0.8)) + (0.44 * (0.8-0.8)) + (0.5 * (1-0.8)) = 0.782.

=(1 * 0.2) + (1 * 0.2) + (0.66 * 0) + (0.75 * 0.2) + (0.6 * 0) + (0.66 * 0.2) + (0.57 * 0) + (0.5 * 0) + (0.44 * 0) + (0.5 * 0.2) = 0.782.

通过计算可以看到，那些Recall值没有变化的地方（为0），对增加Average Precision值没有贡献。

Interpolated average precision

不同于Approximated Average Precision，一些作者选择另一种度量性能的标准：Interpolated Average Precision。这一新的算法不再使用P(k)，也就是说，不再使用当系统识别出k个图片的时候Precision的值与Recall变化值相乘。而是使用：

image

instead of using the precision that was actually observed at cutoff k, the interpolated average precision uses the maximum precision observed across all cutoffs with higher recall.公式如下：

image

下图的图片是Approximated Average Precision 与 Interpolated Average Precision相比较。需要注意的是，为了让特征更明显，图片中使用的参数与上面所说的例子无关。

image

很明显 Approximated Average Precision与精度曲线挨的很近，而使用Interpolated Average Precision算出的Average Precision值明显要比Approximated Average Precision的方法算出的要高。

一些很重要的文章都是用Interpolated Average Precision 作为度量方法，并且直接称算出的值为Average Precision 。PASCAL Visual Objects Challenge从2007年开始就是用这一度量制度，他们认为这一方法能有效地减少Precision-recall 曲线中的抖动。所以在比较文章中Average Precision 值的时候，最好先弄清楚它们使用的是那种度量方式。

参考：https://sanchom.wordpress.com/tag/average-precision/

【YOLO学习】召回率（Recall），精确率（Precision），平均正确率（Average_precision(AP) ），交除并（Intersection-over-Union（IoU））

image

Mean average precision

Mean average precision for a set of queries is the mean of the average precision scores for each query.

image

where Q is the number of queries.

目标检测中衡量识别精度的指标是mAP（mean average precision）。多个类别物体检测中，每一个类别都可以根据recall和precision绘制一条曲线，AP就是该曲线下的面积，mAP是多个类别AP的平均值。

mAP是Object Detection算法中衡量算法的精确度的指标，涉及两个概念：查准率Precision、查全率Recall。对于object detection任务，每一个object都可以计算出其Precision和Recall，多次计算/试验，每个类都可以得到一条P-R曲线，曲线下的面积就是AP的值，这个mean的意思是对每个类的AP再求平均，得到的就是mPA的值，mPA的大小一定在[0,1]区间。

推荐阅读更多精彩内容