导读
本文是何凯明的作品。文章为了解决图像分类中平移不变性和目标检测中平移变换性的困境,构造position-sensitive score map,并且整个网络是全卷积网络,从而在处理一张图像时基本上共享了所有的计算。论文链接
1.Introduction
最近图像分类任务中state-of-the-art的网络比如Residual Net和GoogLenet都是全卷积网络。因此很自然的想法就是把目标检测也用全卷积网络来实现。但是这样的想法实在是naive,这样得到网络并不能达到分类网络的准确率。这是因为对于图像分类,我们需要增加网络对图像的平移不变性,而目标检测却正好相反,目标的定位需要平移变换性(translation variance)。什么意思呢?
平移不变性:对于图片分类来说,一张图片进行一定的平移,网络应该还是给出同样的结果。比如一张喵星人的图,向左平移5个像素,那它应该还是一只喵。所以,对于分类,我们需要增加网络的平移不变性。而卷积网络就具有平移不变性。所以深的全卷积网络在Image Net上表现会更好。
平移变换性:但是在目标检测中,我们需要定位一个Object,这是和位置相关的,如果这个目标发生了一定的平移,我们希望网络还能正确给出他的坐标,而不是平移前的坐标。网络对于自己预测的BOX应该给出一个有意义的响应来说明这个BOX有多正确的覆盖目标物体。比如说,有个proposal只覆盖了一只喵的3/4,而另一只proposal只覆盖了一只喵的1/2,那么网络应该告诉我,第一个proposal更好。
为了解决这个困境,像ResNet的检测框架就在卷积层中间插入了RoI Pooling,这样RoI Pooling后面的卷积层就不再是平移不变性。但是这样的设计牺牲了训练的效率,因为它引入了不少region-wise layers。如下图所示。
因此本文提出R-FCN,使用的共享计算的基础网络是FCN,为了引入平移变换性到FCN,作者设计了位置敏感的特征图(position-sensitive score maps)。每一个score map都编码了对应某个空间的位置信息。比如某个score map对应着目标的左上角。后面会详细解析下这是什么意思。在这些score map之后跟着几个层,但是都是不需要学习的层。整个结构可以实现end-to-end的训练。
2.Our approach
overview
和RCNN一样,本文的方法也包含两个阶段:1.region proposal 2.region classification 。虽然目前也有不是基于region proposal的方法,但是没有基于region proposal方法好。R-FCN需要学习的参数全部在卷积层,并且是对整个图像计算共享的。在最后一层卷积层,将会生成kk组position-sensitive score maps,其中每组position-sensitive score maps里面包含C+1个position-sensitive score map分别对应C个类别加一个背景类别。然后,在position-sensitive score maps后面跟着一个position-sensitive RoI Pooling。这个Pooling层和我们普通的不一样。我们普通的RoI Pooling对所有的通道都会进行Pooling,但是这个不同。我们先看下图.
Position-Sensitive RoI Pooling
在进行PSRoI Pooling时,假设我们pooling后的大小为kk,这里k=3,但是主要pooling后的结果是有C+1个通道的。假设我想得到pooling结果中黄色那部分的特征,在图中是左上角那块C+1通道的特征,其实就是一个C+1维的向量。
- 那么第一步,因为这里要计算左上角黄色的特征,所以我先从k*k==9组position-sensitive score maps中拿出黄色那组score maps,这组score maps是C+1通道的
- 第二步,将RoI区域划分成3*3份,映射到黄色的这组score maps上,然后拿出左上角的那块[w/k,h/k,C+1]大小的特征块,用average或者max的方法计算得到一个C+1维的向量。该向量就是该区域池化的结果。其他颜色快进行同样操作。
事实上后面的公式就是表达这个意思。
特别说明的是这里用的是average pooling。式子中,Rc(i,j)是指Pooling后的结果中第i,j个向量的在c通道的响应。如果,i=0,j=0,那正好对应我上面说的左上角,黄色区域。Zi,j,c是指score maps上面第i,j组score maps上c通道上的点,i=0,j=0时,正好是黄色那组score maps。而x0,y0是RoI左上角坐标。这里说的bin,其实就是将RoI划分成k*k个区域,每个区域叫一个bin。然后你可以看到x,y的变化范围是只有w/k,h/k这么大。当i=0,j=0时,x,y的变化范围是[0,w/k],[0,h/k],加上x0和y0的话正好对应左上角黄色那块区域。n就是一个bin的点数。这是average pooling。
这么说应该解析清楚了吧。然后就是将PSRoI Pooling后的结果进行一个投票。这里作者只是使用了简单的平均投票。然后产生一个C+1维的投票结果向量。然后使用softmax来计算损失。
Box Regression
而对于box的回归,作者简单起见,使用的是与类别无关的box回归,也就是说,产生一个4kk的score maps,最后用同样的PSRoI Pooling和投票,得到一个4维的向量。当然也可以用和类别相关的box 回归,每个类别回归一个box,但这样子计算量又会非常大。
Train
然后是训练部分,这里没什么特别值得注意的地方,一方面就是loss 使用类别loss和box reg loss的加权,然后正样本的IoU取0.5。有一点作者特别强调的是,这个网络可以很轻易的在训练过程中使用OHEM(online hard example mining)技术。这是当然了,因为subnet没有卷积计算。Proposal的数目大也没影响。当然大的Proposal可能有利于训练的精度提高,但是后面的实验也说了,到2000时并没啥增长了。另外,作者训练时,按照loss对RoIs进行排序,选择大loss的RoIs。当然这是普遍的做法。另外就是交替训练。
另外还有一些像NMS的技巧,A trous的引入和stride的修改。这些不在详细说。
Visualization
然后作者展示了投票过程。box overlap目标时,给出的响应会不一样。
3.Experiments
然后作者展示了一些结果。其实个人感觉无论是效果上还是速度上都没有很大的提升,没有足够亮眼的成果,只能说训练和测试快了一点,但是效果没有state-of-the-art。引用作者的说法
Our method achieves accuracy competitive with the Faster R-CNN counterpart, but is much faster during both training and inference
不过,这个想法倒是很不错,前面[Paper Reading -3]中旷视科技的借鉴了这个想法倒是有不错的提升。这里我就不贴了,同学们有心情就看下原文,没心情忽略也不影响对整个文章的理解。
今晚的Paper Share就分享到这里啦。下一次我将会分享图像检索的论文,因为最近要搞这个项目了。当然目标检测,分类等论文我也会持续关注。还有些论文看了还没来得及写。后面继续努力。
------少侠阿朱 2017.12.01于深圳