Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Imag...

  这篇论文主要是针对细粒度(fine-grained categories)的分类问题,其实就是分类一些相似度很高的物体,它们只有很小部分的差异,比如花的种类等。那么,这就要求网络能够提取到更细节的特征。
  这类问题实际上涉及到两个问题:一个是识别区域的定位;另一个是区域内的特征提取。这两个问题并不是孤立的,它们实际上紧密联系,那么设计一个同时进行这两个过程的网络可以让这两个过程互相促进。
  这也是这篇论文所用方法的思想,设计两个子网络,一个是分类网络(同时承担特征提取的任务),另外一个是APN网络(attention proposal sub-network),用来定位物体的细节信息所在的区域。然后,迭代训练两个网络(固定其中一个,训练另一个,重复进行这个过程)。
  实际上,这篇论文的网络结构是这样的:由三个完全相同的子网络组成,其中每个子网络都包含上述的两个分支结构(一个分类网络;一个APN网络),唯一区别的地方就在于,这三个子网络都拥有自己独立的参数。
  来看一下作者给出的网络结构图:



  从图中可以很容易的看出三个子网络的连接方式,第一个子网络的APN提取出需要关注的区域d1,然后放大(利用的是双线性插值方法),送入第二个网络,重复这个过程。其实,这里面还有一个问题需要注意,就是d1是如何从原图中裁剪出来的,后面会给出解决方法。
  仔细思考一下这个过程,其实和人类看物体的模式差不多,先找到一个大致区域,然后在这个区域里再选择一个观察区域,通过连续几次缩小关注区域,这样就可以观察到更多的细节。
  关于APN的过程,其实就是用来选择需要关注的区域的,这其实就是典型的注意力机制,只不过作者对后面的做法做了一点改变,作者采用的方法是:放大这个被关注区域,这样就可以让更多的细节呈现出来。
  好了,来看一下具体的网络结构:

3.1. Attention Proposal Network

  首先,关于分类网络,作者采用的是一个vgg结构。那么APN是怎么实现的呢,也很简单,在vgg的最后一个卷积层接两个全连接层,后面一个全连接层输出的节点数为3。这3个节点分别表示为:tx、ty、tl。表示的含义:关注区域的中心坐标和边长的一半(tx, ty denotes the square’s center coordinates in terms of x and y axis, respectively, and tl denotes the half of the square’s side length)
  有了关注区域的坐标,如何把对应的区域从原图中取出来呢,作者给出了方法:

Attention localization and amplification

  为了便于反向传播,作者提出了一个叫作boxcar的函数来产生一个attention mask。这个mask和原图是一样大小的,让这个mask和原图的对应元素相乘就可以裁剪出对应的区域。具体的公式是这样的:


  其中Xatt是裁剪出来的部分(Xatt的大小和原图X的大小是一样的,只不过除了APN产生的区域有数值,其余部分的值都为0)
  M作为attention mask,来看一下具体的形式:

  公式(6)很容易理解,只是在原始的sigmoid函数中加了一个系数k(这里k取值为:10)。加了一个K之后,可以看出,当x<0时,h(x)≈0,当x>0时,h(x)≈1。
  将h(x)代回到M,可以得出,M只在square内取1,其余地方为0。
  然后将裁剪出来的区域,使用的是双线性插值的方法进行放大,具体的公式:

3.2. Classification and Ranking

  这个部分,作者提出了目标函数L(X),总共有两部分组成。一个是Lcls,用来优化分类网络;另一个是Lrank,用来优化APN网络。具体的形式如下:



  其中,Lcls的部分不多说了,是我们常见的形式,来看一下作者给出的Lrank:



  其中Pt表示预测的概率值。那么当我们最小化Lrank的时候,就可以保证下一层的预测概率Pt(s+1)会比上一层的预测概率Pt(s)来的大(或者相等)。也即是,可以让APN每次选出的区域都能定位到更准确的地方。(注:这里的margin取为:0.05)
3.3. Multiscale Joint Representation

  当网络训练完成之后,我们还可以做进一步的工作。这也是现在很通用的一种做法:融合信息(或者说特征)。
  我们知道,在论文中,总共是3层网络叠加在一块,那么每一层的全连接层FC中都含有了当前scale的图片信息。所以,作者首先把三个全连接层c1、c2、c3分别进行了标准化,然后对它们进行concatenate,这样就形成了一个新的全连接层,之后再接一个softmax函数进行分类。

3.4. Implementation Details
Training strategy:

step1:使用ImageNet数据集预训练的VGG来初始化分类网络(即:b1、b2、b3和c1、c2、c3)
step2:预训练APN网络,具体的做法是:从scale1所对应vgg中的最后一个卷积层(i.e., conv5 4 in VGG-19)找到它的highest response value(ps:作者没有更详细的说明,我觉得应该是绝对值最大的那个值),然后使用这个value的坐标作为tx、ty。而且tl取值为原图大小的1/4。(因为作者说取的这个square是原图大小的一半,而tl又表示边长的一半,所以应该为1/4)。好了,我们现在有了目标值tx、ty、tl,就可以对APN网络进行预训练了。
  同样的,从scale2到scale3的APN网络也是采用这种方法进行预训练。
  预训练的目的也是为了加快收敛的速度。
step3:保持分类网络或者APN网络其中一个的参数不变,交替训练另一个网络,直到设计的两种类型的loss都保持不变,那么训练结束。
  这里有一个要注意的地方是:scale3的tl不能小于scale2的tl的1/3。因为tl太小的话,容易导致丢失太多的信息。

Optimization for attention learning

  这部分内容,作者主要是对反向传播的过程稍微讲解了一下,并强调这个过程和人类的视觉感知是类似的。具体的过程如下图:



  注意derivative map中的黑色的点,原文中的解释是:with the darker the point, the larger the absolute value。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352