CVPR 2017 oral, 微软亚洲研究院梅涛工作,做细粒度分类。
就是网络的叠加,从coarse to fine,三个scale网络的叠加,前两个scale多了APN去get感兴趣区域,输入到后一个scale里面。
APN
attention proposal network:相较于RPN(object detection),用的是弱监督的方式得到候选框。
实现方式:
在conv5之后,重接了两个全连接,输出三个值tx,ty,tl tx,ty为坐标,tl为提取的候选框边长的一半(那个框是个正方形)。
全连接后接的都是tanh
怎样把crop的操作变成可以反向传播呢?用boxcar functions(方脉冲函数)去近似
crop之后,还有一个adaptively zooming 的过程
损失函数
有两个部分,scale的分类loss,scale之间的 rank loss(为了保证finer scale的置信程度比caorser的高)
其中第一项就是普通的softmax loss,第二项的rank loss 计算如下:
Multi-scale Joint Representation
多尺度特征的一个融合: 把三个scale 的特征concat起来,然后再分类得到结果。
训练细节
用imagenet初始化3个scale的classification 网络,2.找出响应最大的区域,预训练apn. 3.交替训练 classification 和APN(固定一个训练另一个).