Rich feature hierarchies for accurate object detection and semantic segmentation
具体流程如图:1,首先输入一张照片,利用Select search 方法找到图片中的region proposals,然后把每一个proposal wrap到2227*227的RGB通道。2,利用CNN对输入的wrap照片提取feature。3,利用SVM对4096个feature提取feature。
之前有考虑过传统的slide window的方法,但是我们照片的大小很大,步长也很长,所以得到的效果比较差。最终我们决定使用以上的pipline。
由于训练的数据比较少,首先我们利用ILSVRC的数据集进行预训练,然后再用小数据集PASCAL进行单独训练(21类)
paper中还有一些关于每一层究竟学到了些什么的部分,这里不做介绍。最后得出结论,每一层都是一个特征提取器。
for semantic segmentation
他优化了当时最好的semantic segmentation的方法【1】,CPMC的方法,增加了3个strategy。full+fg+(full+fg),这里没有看太明白。可以再研究下。
【1】:Semantic segmentation with second-order pooling.J. Carreira ECCV 2012