RCNN系列

目标检测方法演进过程

最初的方法中基本的流程如下：

整体的发展可以看出，节省了人工筛选特征的过程，现在的思路是直接输入一张图片，通过CNN得到目标的类别与位置。

深度学习目标检测.jpg

算法流程：

RCNN.jpg

说明：

selective search的方法原理：根据图像直方图分布相似的相邻区域进行合并，得到一个候选区域，依次统计出整张图所有区域，得到最终的所有候选区域，约2K
这里的bbox回归的目标是（dx, dy, dw, dh），且坐标需要进行归一化

存在的问题：

算法流程：

Fast R-CNN.jpg

说明：

这里是通过整张图作为模型输入的，不裁剪子图，而是通过selective search的方法得到ROI（感兴趣区域，即候选区域），将其位置信息记录下来
CNN的特征提取使用了VGG的前4个阶段，尺寸会缩小为原图的1/16（完整的VGG有5个阶段的降采样）
ROI pooling的方法是：首先将原图中各个ROI的位置坐标缩小16倍，取整后得到在特征图上的映射区域，将该区域作为该ROI的特征图，然后将特征图分为7*7的小区域（第二次取整操作），每个小区域通过max pooling 的方式，最终所有的特征图都变为了7X7的尺寸，即可进入后面的FC。
多任务结合的损失函数：多分类的CE损失+基于offset的位置回归损失（smooth L1）

问题：

相比于RCNN的改进：