[Paper Share - 4]R-FCN :Object Detection via Region-based Fully Convolutional Networks

导读
本文是何凯明的作品。文章为了解决图像分类中平移不变性和目标检测中平移变换性的困境,构造position-sensitive score map,并且整个网络是全卷积网络,从而在处理一张图像时基本上共享了所有的计算。论文链接

1.Introduction

最近图像分类任务中state-of-the-art的网络比如Residual Net和GoogLenet都是全卷积网络。因此很自然的想法就是把目标检测也用全卷积网络来实现。但是这样的想法实在是naive,这样得到网络并不能达到分类网络的准确率。这是因为对于图像分类,我们需要增加网络对图像的平移不变性,而目标检测却正好相反,目标的定位需要平移变换性(translation variance)。什么意思呢?

平移不变性:对于图片分类来说,一张图片进行一定的平移,网络应该还是给出同样的结果。比如一张喵星人的图,向左平移5个像素,那它应该还是一只喵。所以,对于分类,我们需要增加网络的平移不变性。而卷积网络就具有平移不变性。所以深的全卷积网络在Image Net上表现会更好。
平移变换性:但是在目标检测中,我们需要定位一个Object,这是和位置相关的,如果这个目标发生了一定的平移,我们希望网络还能正确给出他的坐标,而不是平移前的坐标。网络对于自己预测的BOX应该给出一个有意义的响应来说明这个BOX有多正确的覆盖目标物体。比如说,有个proposal只覆盖了一只喵的3/4,而另一只proposal只覆盖了一只喵的1/2,那么网络应该告诉我,第一个proposal更好。

为了解决这个困境,像ResNet的检测框架就在卷积层中间插入了RoI Pooling,这样RoI Pooling后面的卷积层就不再是平移不变性。但是这样的设计牺牲了训练的效率,因为它引入了不少region-wise layers。如下图所示。


table 1

因此本文提出R-FCN,使用的共享计算的基础网络是FCN,为了引入平移变换性到FCN,作者设计了位置敏感的特征图(position-sensitive score maps)。每一个score map都编码了对应某个空间的位置信息。比如某个score map对应着目标的左上角。后面会详细解析下这是什么意思。在这些score map之后跟着几个层,但是都是不需要学习的层。整个结构可以实现end-to-end的训练。

2.Our approach

overview

和RCNN一样,本文的方法也包含两个阶段:1.region proposal 2.region classification 。虽然目前也有不是基于region proposal的方法,但是没有基于region proposal方法好。R-FCN需要学习的参数全部在卷积层,并且是对整个图像计算共享的。在最后一层卷积层,将会生成kk组position-sensitive score maps,其中每组position-sensitive score maps里面包含C+1个position-sensitive score map分别对应C个类别加一个背景类别。然后,在position-sensitive score maps后面跟着一个position-sensitive RoI Pooling。这个Pooling层和我们普通的不一样。我们普通的RoI Pooling对所有的通道都会进行Pooling,但是这个不同。我们先看下图.

figure1

Position-Sensitive RoI Pooling
在进行PSRoI Pooling时,假设我们pooling后的大小为k
k,这里k=3,但是主要pooling后的结果是有C+1个通道的。假设我想得到pooling结果中黄色那部分的特征,在图中是左上角那块C+1通道的特征,其实就是一个C+1维的向量。
image.png

  1. 那么第一步,因为这里要计算左上角黄色的特征,所以我先从k*k==9组position-sensitive score maps中拿出黄色那组score maps,这组score maps是C+1通道的
  2. 第二步,将RoI区域划分成3*3份,映射到黄色的这组score maps上,然后拿出左上角的那块[w/k,h/k,C+1]大小的特征块,用average或者max的方法计算得到一个C+1维的向量。该向量就是该区域池化的结果。其他颜色快进行同样操作。

事实上后面的公式就是表达这个意思。


image.png

特别说明的是这里用的是average pooling。式子中,Rc(i,j)是指Pooling后的结果中第i,j个向量的在c通道的响应。如果,i=0,j=0,那正好对应我上面说的左上角,黄色区域。Zi,j,c是指score maps上面第i,j组score maps上c通道上的点,i=0,j=0时,正好是黄色那组score maps。而x0,y0是RoI左上角坐标。这里说的bin,其实就是将RoI划分成k*k个区域,每个区域叫一个bin。然后你可以看到x,y的变化范围是只有w/k,h/k这么大。当i=0,j=0时,x,y的变化范围是[0,w/k],[0,h/k],加上x0和y0的话正好对应左上角黄色那块区域。n就是一个bin的点数。这是average pooling。

这么说应该解析清楚了吧。然后就是将PSRoI Pooling后的结果进行一个投票。这里作者只是使用了简单的平均投票。然后产生一个C+1维的投票结果向量。然后使用softmax来计算损失。

Box Regression
而对于box的回归,作者简单起见,使用的是与类别无关的box回归,也就是说,产生一个4kk的score maps,最后用同样的PSRoI Pooling和投票,得到一个4维的向量。当然也可以用和类别相关的box 回归,每个类别回归一个box,但这样子计算量又会非常大。

Train
然后是训练部分,这里没什么特别值得注意的地方,一方面就是loss 使用类别loss和box reg loss的加权,然后正样本的IoU取0.5。有一点作者特别强调的是,这个网络可以很轻易的在训练过程中使用OHEM(online hard example mining)技术。这是当然了,因为subnet没有卷积计算。Proposal的数目大也没影响。当然大的Proposal可能有利于训练的精度提高,但是后面的实验也说了,到2000时并没啥增长了。另外,作者训练时,按照loss对RoIs进行排序,选择大loss的RoIs。当然这是普遍的做法。另外就是交替训练。
另外还有一些像NMS的技巧,A trous的引入和stride的修改。这些不在详细说。
Visualization
然后作者展示了投票过程。box overlap目标时,给出的响应会不一样。

image.png

3.Experiments

然后作者展示了一些结果。其实个人感觉无论是效果上还是速度上都没有很大的提升,没有足够亮眼的成果,只能说训练和测试快了一点,但是效果没有state-of-the-art。引用作者的说法

Our method achieves accuracy competitive with the Faster R-CNN counterpart, but is much faster during both training and inference

不过,这个想法倒是很不错,前面[Paper Reading -3]中旷视科技的借鉴了这个想法倒是有不错的提升。这里我就不贴了,同学们有心情就看下原文,没心情忽略也不影响对整个文章的理解。


今晚的Paper Share就分享到这里啦。下一次我将会分享图像检索的论文,因为最近要搞这个项目了。当然目标检测,分类等论文我也会持续关注。还有些论文看了还没来得及写。后面继续努力。
------少侠阿朱 2017.12.01于深圳

转载请注明出处哦,http://www.jianshu.com/p/9d11f4409a08

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容