ROI Pooling介绍
ROI Pooling是Pooling的一种。在CNN中,Pooling层的作用主要有两个:
- 引入invariance,包括translation-invariance,rotation-invariance,scale-invariance。
- 完成feature map的聚合,实现数据降维,防止过拟合。
ROI Pooling将不同输入尺寸的feature map(ROI)通过分块池化的方法得到固定尺寸的输出,其思想来自于SPPNet。
rbg大神在Fast RCNN中使用时,将sppnet中多尺度的池化简化为单尺度,只输出固定尺寸为(w, h)的feature map。
在Fast R-CNN网络中,原始图片经过多层卷积与池化后,得到整图的feature map。而由selective search产生的大量proposal经过映射可以得到其在feature map上的映射区域(ROIs),这些ROIs即作为ROI Pooling层的输入。
ROI Pooling时,将输入的h * w大小的feature map分割成H * W大小的子窗口(每个子窗口的大小约为h/H,w/W,其中H、W为超参数,如设定为7 x 7),对每个子窗口进行max-pooling操作,得到固定输出大小的feature map。而后进行后续的全连接层操作。
ROI Pooling的实现可以参考github上Caffe版本的代码:roi_pooling_layer.cpp
ROI Pooling层的加入对R-CNN网络的改进
在R-CNN中,整个检测的流程是:
R-CNN网络的主要问题有:
- 使用selective search产生proposal,操作耗时,且不利于网络的整体训练和测试
- 产生的proposal需要经过warp操作再送入后续网络,导致图像的变形和扭曲
- 每一个proposal均需要单独进行特征提取,重复计算量大
现在再回头看一下图1中Fast R-CNN的结构。对比图2可以看出,ROI Pooling的加入,相对于R-CNN网络来说,至少有两个改善:
- 由于ROI Pooling可接受任意尺寸的输入,warp操作不再需要,这有效避免了物体的形变扭曲,保证了特征信息的真实性
- 不需要对每个proposal都提取特征,采用映射方式从整张图片的feature map上获取ROI feature区域
除了上述两个改进外,其实还有一点。R-CNN中在获取到最终的CNN特征后先采用SVM进行类别判断,再进行bounding-box的回归得到位置信息。整个过程是个串行的流程。这极大地影响了网络的检测速度。Fast R-CNN中则将Classification和regression的任务合二为一,变成一个multi-task的模型,实现了特征的共享与速度的进一步提升。
不知大家注意没有,Fast R-CNN只是解决了R-CNN中的两点问题,而仍然沿用了R-CNN中selective search生成proposal的方法。这一方法产生的proposal即使经过NMS也会达到2k~3k个。一方面生成过程耗时耗力,另一方面给存储也带来压力。
那么,有没有办法改进呢?答案当然是Yes。那就是Faster R-CNN的提出。