py-tf-fastrcnn代码解析

1，anchor 是什么？这里借用一点知乎作者马塔的回答:

anchor的本质是什么，本质是将相同尺寸的 conv5_3 层的输出，倒推得到不同尺寸的输入。接下来是anchor的窗口尺寸，详细说下这个尺寸的来源，最基本的anchor只有一个尺寸，是16*16的尺寸，然后设定了基本的面积scale是（8，16，32），用这三个scale乘以16就得到了三个面积尺寸（128^2，256^2，512^2），然后在每个面积尺寸下，取三种不同的长宽比例（1:1,1:2,2:1）.这样一来，我们得到了一共9种面积尺寸各异的anchor。示意图如下：

2，对应到代码中，

1，在tf-fastrcnn代码中config.py的参数

ANCHOR_SCALES （8，16，32）

ANCHOR_RATIOS （1:1,1:2,2:1）

上述9个框的中心没有位于同一个中心点，实际上应该是同一个，上面只是给出了9个框的示意图,实际情况如下图：

看图一，9个框分成三个部分，每个部分三个框

其中（8，16，32）代表

第一个部分，中间的框是宽8*16高8*16

第二个部分，中间的框是宽16*16高16*16

第三个部分，中间的框是宽32*16高32*16

其中（1:1,1:2,2:1）即（0.5，1，2），代表

第一个部分，除了中间的框之外，还有两个框：

宽6*16高12*16

宽12*16高6*16

第二个部分，除了中间的框之外，还有两个框：

宽12*16高24*16

宽24*16高12*16

第三个部分，除了中间的框之外，还有两个框：

宽24*16高42*16

宽42*16高24*16

2，ANCHOR_SCALES ANCHOR_RATIOS 实际使用中

ANCHOR_SCALES，和检测的物体的大小相关

比如一张身份证照片，我们要检测其中姓名的位置，首先分成两步骤，

第一步，检测出来身份证这个框的位置，将身份证框裁剪出来，此时需要检测的框比较大所以可以将

ANCHOR_SCALES设置的大一点，其实8，16，32已经挺大的了，可以设置成（8，16，32）

第二步，检测出来身份证的位置之后，再次检测姓名的位置，此时姓名的框比较小，可以将

ANCHOR_SCALES设置的小一点，比如（2，4，6）

ANCHOR_RATIOS，和检测物体的形状有关系

还是比如检测身份证，身份证的长宽比例是8：5，可以设置

ANCHOR_RATIOS为（0.62，1，1.6），即5/8，1，8/5这三个，就是身份证的形状