Faster rcnn 阅读笔记

Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks
论文地址:https://arxiv.org/pdf/1506.01497.pdf

INTRODUCTION


作者说RPN网络可以看作一种注意力机制,为整个联合的网络提供感兴趣区域,告诉Fast R-CNN 模块应该看什么地方。



不同的处理多尺度大小的方案:
a)图像金字塔,太复杂。
b)不同大小的滑动窗口,已经被淘汰。
c)不同尺度的anchors,即作者使用的方案。

1 Region Proposal Networks

1.1 Anchors

在每个feature map 像素点最后产生k = 9 anchors,3 种尺度 3种比例 。 对于一个W × H的 feature map (typically ∼2,400), 总有 W×H×k 个anchors 。
在Faster R-CNN中,用Region Proposal Networks代替了selective search 进行候选框的提取,Region Proposal Networks 使用了anchor的方法,在由特征提取网络得到的5038512维的feature map 上每个像素点设置9个anchor ,分为3中尺度,3中长宽比,即下图中的k为9。将该feature map 分过分类网络和矩形框回归网络后得到的503818的分类feature map和503836的矩形框回归feature map。因为每个anchor有两个值代表该框存在物体的概率,4个值代表anchor框与background框的偏移量。RPN网络中利用anchors和softmax初步提取出positive anchors作为候选区域。

1.2 Loss Function

两个因式使用Ncls和Nreg进行归一化,并通过平衡参数λ进行加权。当前实现中(Released代码),公式1中的cls因式使用最小批处理的大小进行归一化(比如,Ncls =256),reg因式使用锚点位置的数量进行归一化(比如,Nreg=2400)。默认设置λ=10,这样cls和reg因式的权重大体相等。

1.3 Training RPNs

2 Sharing Features for RPN and Fast R-CNN

4-Step Alternating Training

3 Implementation Details

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容