导读:
Faster R-CNN 是 bgr,kaiming大神在 15 年的成果。它在 Fast R-CNN 的基础上把原先的 Selective Search 修改成了 RPN 网络,从而实现 end to end 的目标检测。由于 Selective Search 的剔除,网络的检测速度得到了大幅度的提升。在以 VGG-16 为 basenet 的情况下,Faster R-CNN 能够获得 5fps 的检测速度,且能够在 VOC,COCO 上获得 state-of-the-art 的效果。
Introduction
近年来 object detection 的发展主要得益于region proposal 和 region-based CNN 的成功。对于 region-based CNN,得益于所有 proposal 共享特征的抽离过程(见 SPP 和 Fast R-CNN ),其计算过程已经能够实时的完成了,然而对于region proposal(如 Selective Search,EdgeBoxes),其计算耗时仍然占整个检测系统的大部分。为了整体上提升目标检测器的检测速度,本文提出了一种 RPN 网络,它能够优雅高效实时的完成 proposal 的计算,而且通过共享卷积层,还可以进一步加快检测速度。
Faster R-CNN
Faster R-CNN 由两部分组成。第一部分为 region proposal networks(RPN),它是一个全卷积网络,用于提取可能存在的 proposal;另一部分为 Fast R-CNN 检测器,他对RPN网络得到的所有region进行类别分类和位置回归。整个系统是一个end to end 的目标检测器,且 RPN 与 Fast R-CNN共享特征抽离部分的卷积。
region proposal networks(RPN)
RPN 网络输入一张任意大小的图片,输出一系列 object proposal 及其分数,在这里 RPN 网络与 Fast R-CNN共享特征抽离网络。为了获得 region proposal,我们使用一个n×n的窗口在 basenet 网络输出的feature map 上进行滑窗,每个滑窗映射到一个低维度(eg. c-dimmension)的特征向量(其实就是对输出的feature map 再进行一个c×n×n的卷积),从而得到一个同等空间大小,不同 channel 的新的feature map。然后使用两个1×1的卷积进行物体位置的回归和是否为物体的概率的预测。两个1×1卷积层的channel数由anchors决定。
Anchors
对于feature map 上的每一个位置,我们同时预测多个region proposals。假如预测k个,那么负责位置回归的卷积层 channel 数为4k,负责概率预测的卷积层 channel 数为2k。这k个 proposals 由k个参考的box来参数化,这k个参考的box我们称之为anchor。对于feature map上的任意一个位置,以它为中心,我们使用三个面积{1282,2562,5122}和三个长宽比{1:1,1:2,2:1},共生成9个anchors。
Loss function
为了训练RPN网络,我们首先对每个anchor分配一个二值标签,满足下面条件的认为包含物体:
- the anchor/anchors with the highest Intersection-overUnion(IoU) overlap with a ground-truth box
- an anchor that has an IoU overlap higher than 0.7 with any ground-truth box
对于剩下的anchors,只要与所有ground-truth box的IoU都小于0.3,就认为不包含物体,其他的anchors忽略。
基于上述的定义,我们结合分类loss 和回归loss来作为我们的损失函数:
其实几乎所有的目标检测都会使用分类加回归的loss了,具体细节就不说了
在训练RPN网络时,我们并不是使用所有的已经分配了标签的anchors来计算loss(因为已经分配了标签的anchors中绝大部分不包含物体,正负比例不均匀会导致网络训练出现bias)。对于一幅图片,我们随机选取256个anchors(128个包含物体,128个不包含物体)来优化网络。
Sharing Features for RPN and Fast R-CNN
由于 RPN 网络和 Fast R-CNN 网络共享前半部分的网络(特征抽离部分),使得Faster R-CNN的训练步骤比较复杂,本文将其分成4步走:
- 用在 ImageNet 上 pre-train 好的预训练模型来初始化 RPN 网络,接着训练 RPN 网络。
- 用在 ImageNet 上 pre-train 好的预训练模型来初始化 Fast R-CNN 网络,用1中得到的 RPN 网络来获得 proposal 并用于训练 Fast R-CNN 网络。
- 用训练好的 Fast R-CNN网络来初始化 RPN 网络,固定住共享部分,接着训练 RPN 网络的其他部分。
- 固定 Fast R-CNN 网络中的共享部分,用3中得到的 RPN 网络来获得 proposal 并用于训练 Fast R-CNN 网络。
经过上述4步,两个网络拥有相同参数的共享部分。
Implementation Details
- 对于图片的输入: 虽然多尺度可能会有助于效果的提升,但并不能获得一个比较好的 speed-accuracy trade-off。所以实验全部采用单尺度,最短边resize到600
- 对于anchors的设定: 本文采用三个面积尺度{1282,2562,5122},三个长宽比尺度{1:1,1:2,2:1},实验部分有不同anchors设置的实验
- 对于anchors跨边界的问题: 训练阶段,对于所有跨图像边界的anchors,全部忽略。在测试阶段,对于预测得到的proposal,如果跨图像边界,将其clip到图像边界处。
- NMS: 其实RPN得到proposals具有高度的IoU Overlap,没有必要全部仍进检测网络。所以在训练Fast R-CNN时,我们对所有的proposal进行NMS操作并保留2k 个proposal即可。在测试时,保留的proposal视情况而定(eg.测试的耗时要求,recall的要求等)
Experiments
上图为以VGG-16为basenet,在VOC2017,VOC2012,COCO 上的实验结果,整体上有3个点左右的提升。
上图为不同anchors设置情况下的比较,结果也一目了然