Fast R-CNN
首先说明下R-CNN和SPPnet 出现的问题.相对于R-CNN来说,他的主要问题是训练阶段是多阶段训练的,训练十分消耗时间和空间(SVM+卷积),做物体检测是十分慢的.主要是由于R-CNN需要对每一个region proposal都要做一次CNN.而SPPnet也是一个多阶段的分类训练框架,这样训练起来非常困难
这篇paper的创新点:
输入端是照片和select search的结果,输出有两个,一个是softmax输出的结果,一个是每一个类别中的(x,y,w,h),一共K类.
通过region proposal 找到feature map中的对应位置,然后进过ROI pooling层,得到一个固定的编码.经过两个fcn之后,分别输出两个特征.在优化的过程中,我们同时优化这两个输出,而不是分开优化,建立一个特殊的loss function来做好这件事.
后面还有一些ROI pooling层的细节,反向传播的细节,如何优化,我们可以看一下下面的博客.
https://blog.csdn.net/wonder233/article/details/53671018