Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks
论文地址:https://arxiv.org/pdf/1506.01497.pdf
INTRODUCTION
作者说RPN网络可以看作一种注意力机制,为整个联合的网络提供感兴趣区域,告诉Fast R-CNN 模块应该看什么地方。
不同的处理多尺度大小的方案:
a)图像金字塔,太复杂。
b)不同大小的滑动窗口,已经被淘汰。
c)不同尺度的anchors,即作者使用的方案。
1 Region Proposal Networks
1.1 Anchors
在每个feature map 像素点最后产生k = 9 anchors,3 种尺度 3种比例 。 对于一个W × H的 feature map (typically ∼2,400), 总有 W×H×k 个anchors 。
在Faster R-CNN中,用Region Proposal Networks代替了selective search 进行候选框的提取,Region Proposal Networks 使用了anchor的方法,在由特征提取网络得到的5038512维的feature map 上每个像素点设置9个anchor ,分为3中尺度,3中长宽比,即下图中的k为9。将该feature map 分过分类网络和矩形框回归网络后得到的503818的分类feature map和503836的矩形框回归feature map。因为每个anchor有两个值代表该框存在物体的概率,4个值代表anchor框与background框的偏移量。RPN网络中利用anchors和softmax初步提取出positive anchors作为候选区域。
1.2 Loss Function
两个因式使用Ncls和Nreg进行归一化,并通过平衡参数λ进行加权。当前实现中(Released代码),公式1中的cls因式使用最小批处理的大小进行归一化(比如,Ncls =256),reg因式使用锚点位置的数量进行归一化(比如,Nreg=2400)。默认设置λ=10,这样cls和reg因式的权重大体相等。
1.3 Training RPNs
2 Sharing Features for RPN and Fast R-CNN
4-Step Alternating Training