这篇论文主要是针对细粒度(fine-grained categories)的分类问题,其实就是分类一些相似度很高的物体,它们只有很小部分的差异,比如花的种类等。那么,这就要求网络能够提取到更细节的特征。
这类问题实际上涉及到两个问题:一个是识别区域的定位;另一个是区域内的特征提取。这两个问题并不是孤立的,它们实际上紧密联系,那么设计一个同时进行这两个过程的网络可以让这两个过程互相促进。
这也是这篇论文所用方法的思想,设计两个子网络,一个是分类网络(同时承担特征提取的任务),另外一个是APN网络(attention proposal sub-network),用来定位物体的细节信息所在的区域。然后,迭代训练两个网络(固定其中一个,训练另一个,重复进行这个过程)。
实际上,这篇论文的网络结构是这样的:由三个完全相同的子网络组成,其中每个子网络都包含上述的两个分支结构(一个分类网络;一个APN网络),唯一区别的地方就在于,这三个子网络都拥有自己独立的参数。
来看一下作者给出的网络结构图:
从图中可以很容易的看出三个子网络的连接方式,第一个子网络的APN提取出需要关注的区域d1,然后放大(利用的是双线性插值方法),送入第二个网络,重复这个过程。其实,这里面还有一个问题需要注意,就是d1是如何从原图中裁剪出来的,后面会给出解决方法。
仔细思考一下这个过程,其实和人类看物体的模式差不多,先找到一个大致区域,然后在这个区域里再选择一个观察区域,通过连续几次缩小关注区域,这样就可以观察到更多的细节。
关于APN的过程,其实就是用来选择需要关注的区域的,这其实就是典型的注意力机制,只不过作者对后面的做法做了一点改变,作者采用的方法是:放大这个被关注区域,这样就可以让更多的细节呈现出来。
好了,来看一下具体的网络结构:
3.1. Attention Proposal Network
首先,关于分类网络,作者采用的是一个vgg结构。那么APN是怎么实现的呢,也很简单,在vgg的最后一个卷积层接两个全连接层,后面一个全连接层输出的节点数为3。这3个节点分别表示为:tx、ty、tl。表示的含义:关注区域的中心坐标和边长的一半(tx, ty denotes the square’s center coordinates in terms of x and y axis, respectively, and tl denotes the half of the square’s side length)
有了关注区域的坐标,如何把对应的区域从原图中取出来呢,作者给出了方法:
Attention localization and amplification
为了便于反向传播,作者提出了一个叫作boxcar的函数来产生一个attention mask。这个mask和原图是一样大小的,让这个mask和原图的对应元素相乘就可以裁剪出对应的区域。具体的公式是这样的:
其中Xatt是裁剪出来的部分(Xatt的大小和原图X的大小是一样的,只不过除了APN产生的区域有数值,其余部分的值都为0)
M作为attention mask,来看一下具体的形式:
公式(6)很容易理解,只是在原始的sigmoid函数中加了一个系数k(这里k取值为:10)。加了一个K之后,可以看出,当x<0时,h(x)≈0,当x>0时,h(x)≈1。
将h(x)代回到M,可以得出,M只在square内取1,其余地方为0。
然后将裁剪出来的区域,使用的是双线性插值的方法进行放大,具体的公式:
3.2. Classification and Ranking
这个部分,作者提出了目标函数L(X),总共有两部分组成。一个是Lcls,用来优化分类网络;另一个是Lrank,用来优化APN网络。具体的形式如下:
其中,Lcls的部分不多说了,是我们常见的形式,来看一下作者给出的Lrank:
其中Pt表示预测的概率值。那么当我们最小化Lrank的时候,就可以保证下一层的预测概率Pt(s+1)会比上一层的预测概率Pt(s)来的大(或者相等)。也即是,可以让APN每次选出的区域都能定位到更准确的地方。(注:这里的margin取为:0.05)
3.3. Multiscale Joint Representation
当网络训练完成之后,我们还可以做进一步的工作。这也是现在很通用的一种做法:融合信息(或者说特征)。
我们知道,在论文中,总共是3层网络叠加在一块,那么每一层的全连接层FC中都含有了当前scale的图片信息。所以,作者首先把三个全连接层c1、c2、c3分别进行了标准化,然后对它们进行concatenate,这样就形成了一个新的全连接层,之后再接一个softmax函数进行分类。
3.4. Implementation Details
Training strategy:
step1:使用ImageNet数据集预训练的VGG来初始化分类网络(即:b1、b2、b3和c1、c2、c3)
step2:预训练APN网络,具体的做法是:从scale1所对应vgg中的最后一个卷积层(i.e., conv5 4 in VGG-19)找到它的highest response value(ps:作者没有更详细的说明,我觉得应该是绝对值最大的那个值),然后使用这个value的坐标作为tx、ty。而且tl取值为原图大小的1/4。(因为作者说取的这个square是原图大小的一半,而tl又表示边长的一半,所以应该为1/4)。好了,我们现在有了目标值tx、ty、tl,就可以对APN网络进行预训练了。
同样的,从scale2到scale3的APN网络也是采用这种方法进行预训练。
预训练的目的也是为了加快收敛的速度。
step3:保持分类网络或者APN网络其中一个的参数不变,交替训练另一个网络,直到设计的两种类型的loss都保持不变,那么训练结束。
这里有一个要注意的地方是:scale3的tl不能小于scale2的tl的1/3。因为tl太小的话,容易导致丢失太多的信息。
Optimization for attention learning
这部分内容,作者主要是对反向传播的过程稍微讲解了一下,并强调这个过程和人类的视觉感知是类似的。具体的过程如下图:
注意derivative map中的黑色的点,原文中的解释是:with the darker the point, the larger the absolute value。