1,anchor 是什么?这里借用一点知乎作者马塔的回答:
anchor的本质是什么,本质是将相同尺寸的 conv5_3 层的输出,倒推得到不同尺寸的输入。接下来是anchor的窗口尺寸,详细说下这个尺寸的来源,最基本的anchor只有一个尺寸,是16*16的尺寸,然后设定了基本的面积scale是(8,16,32),用这三个scale乘以16就得到了三个面积尺寸(128^2,256^2,512^2),然后在每个面积尺寸下,取三种不同的长宽比例(1:1,1:2,2:1).这样一来,我们得到了一共9种面积尺寸各异的anchor。示意图如下:
2,对应到代码中,
1,在tf-fastrcnn代码中config.py的参数
ANCHOR_SCALES (8,16,32)
ANCHOR_RATIOS (1:1,1:2,2:1)
上述9个框的中心没有位于同一个中心点,实际上应该是同一个,上面只是给出了9个框的示意图,实际情况如下图:
看图一,9个框分成三个部分,每个部分三个框
其中(8,16,32)代表
第一个部分,中间的框是宽8*16高8*16
第二个部分,中间的框是宽16*16高16*16
第三个部分,中间的框是宽32*16高32*16
其中(1:1,1:2,2:1)即(0.5,1,2),代表
第一个部分,除了中间的框之外,还有两个框:
宽6*16高12*16
宽12*16高6*16
第二个部分,除了中间的框之外,还有两个框:
宽12*16高24*16
宽24*16高12*16
第三个部分,除了中间的框之外,还有两个框:
宽24*16高42*16
宽42*16高24*16
2,ANCHOR_SCALES ANCHOR_RATIOS 实际使用中
ANCHOR_SCALES,和检测的物体的大小相关
比如一张身份证照片,我们要检测其中姓名的位置,首先分成两步骤,
第一步,检测出来身份证这个框的位置,将身份证框裁剪出来,此时需要检测的框比较大所以可以将
ANCHOR_SCALES设置的大一点,其实8,16,32已经挺大的了,可以设置成(8,16,32)
第二步,检测出来身份证的位置之后,再次检测姓名的位置,此时姓名的框比较小,可以将
ANCHOR_SCALES设置的小一点,比如(2,4,6)
ANCHOR_RATIOS,和检测物体的形状有关系
还是比如检测身份证,身份证的长宽比例是8:5,可以设置
ANCHOR_RATIOS为(0.62,1,1.6),即5/8,1,8/5这三个,就是身份证的形状