文章的地址:http://fcv2011.ulsan.ac.kr/files/announcement/513/r-cnn-cvpr.pdf
这篇paper是由Ross大神完成的,之后还有faser-rcnn和faster-rcnn。R-CNN是将传统的CNN进行的改进,先提出检测的备选区域Region Proposal,然后,利用cnn去检测这些Region。这种方法不仅可以识别物体,而且可以提供目标的位置信息。
关于提取到的区域
在利用CNN进行检测时,好多的网络结构的输入的尺寸是固定的。笔者在运行caffenet时遇到过这种情况,caffenet是利用了caffe的reshape函数将所有的输入图片转化为所需的固定尺寸图片,但是,由于转化后的图片中物体会存在形变,这也就会降低了网络的识别精度。文章利用最简单的方法,将备选区域warp进这固定的尺寸中。
性能的优化
文章利用selective search方法去proposal了2000个区域,而后将这些区域放入cnn中,经过SVM输出最后的score。对于每个类别,CNN共享权值,由于区域检测和共享权值,rcnn可以极大的节省运算开销。同时,由于运用了未经改变的特征,识别的精度也得到了提升。
目标类别分类器
对于目标分类,如果把它当作二值问题。文章利用了intersection-over-union (IoU)重叠率来进行判别。文中将这个比列设定为了0.3,这是经过了实验得到的。