论文理解:
破坏与重构学习的方法增强了细粒度识别的难度,使分类模型有专家知识。
除分类网络分支外,还有DCL流用于学习有辨识力的区域和特征。
- 破坏时将原图划分为局部区域并用区域融合机制(RCM)打乱,分类网更加注意有辨识力的区域
- 对抗损失用来减少RCM引入的噪声,将原图从破坏后的图片中区别开来
- 区域对齐网络(RAN)通过建模局部区域间的语义联系,恢复局部区域的原始空间分布。
参数共享的方式联合训练,DCL方法向分类网注入更多的有辨识力的局部细节。
方法达到SOTA效果,但训练时不需额外的专家知识,并且除标准分类网的前向传播外,推理时没有计算开销。
介绍:
细粒度图像识别的关键在于学习有辨识力的特征表示,现有方法主要分为两类:
- 一种是先定位有辨识力的目标部分,后基于这些区域分类(大多数需要目标或部分的边界框)
- 一种是无监督方式,利用注意力机制自动定位到有辨识力的区域(但需要额外网络架构故引入训练和推理时的计算开销)
DCL破坏原图时注重有辨识力的局部细节,重构时建模局部区域中的语义关系。
其训练时自动定位有辨识力区域不用额外知识,且DCL结构只在训练时使用,推理时没有计算开销。
1)在破坏部分,RCM故意迷惑全局结构,将原图划分为局部片块,并随机打乱。
局部细节在细粒度识别中比全局结构的角色更重要,因为细粒度图像的全局结构或形状差不多但局部信息不同。
舍全局保局部使得网络能确认并聚焦有辨识力的局部区域,以便识别。
打乱局部信息,可以忽略对细粒度识别不重要的无关区,使得网络分类基于有辨识力的局部细节。
2) 用对抗损失将破坏后的图像从原图中区分出来,以最小化RCM引入的噪声影响,只保留有益的局部细节。
对抗和分类损失使用对抗方式从破坏中学习。
3))重建中,区域对齐网络恢复原图的区域排列,是RCM的对立方式。
该网络理解每个区域的语义(包括有辨识力的区域),通过重建来构建不同局部区域之间的关联 。
贡献如下:
- 新型破坏与构建学习的框架,用于细粒度识别。
破坏过程中,使用RCM使分类网从有辨识力的区域中学习,对抗损失防止过拟合RCM引入的噪声模式;
构建过程中,区域对齐网通过建模区域间的语义联系,来回复原始图像的区域分布。 - DCL方法在三大基准数据集上达到最好效果。
- 该方法无需额外数据标注,推理时没有计算开销。
相关工作
- 使用更好的表示学习,三元组损失、深度度量学习、分层结构等
基于部分或注意力的方法 - 弱监督学习,无需标注部分或关键区域等
DCL方法使用RCM训练分类器,自动检测有辨识力的区域,无需额外知识或标签;
考虑细粒度局部区域特征表示与不同区域间的语义联系;
高效,预测阶段除主干网外无额外开销。
所提方法
框架分为四部分:破坏(区域混淆机制RCM)、分类网、对抗学习网、重建(区域对齐网RAN),其中推理时只需分类网
破坏学习
局部细节比全局结构更重要。
打乱局部区域来破坏全局结构,以更好确认有辨识力的区域、学习有辨识力的特征。
对抗部分用以拒绝RCM引入的噪声(与细粒度分类无关的模式),使网络不从噪声模式中学习。
【1】RCM
打乱图像后将迫使网络学习具有辨识力区域的细节,用以分类。
RCM扰乱局部图像区域的空间分布,平均划分一张图像为N*N的子区域,方式为2D邻域内扰乱。
水平和垂直坐标分别加上,取自均匀分布U(-k,k)的的随机变量r, 其中1≤k<N:
分类网将输入图像映射为一个概率分布向量C(I,theta_cls), 其中theta_cls是分类网中的可学习参数,I是用来训练的图像集。
分类网的损失函数为结合破坏的图像、原图像和标签交叉熵损失:
其中,图像整体结构改变了,要识别随机打乱后的图像,分类网就必须找出有辨识力区域、学习不同种类间的细微差异。
【2】 对抗学习
分类网学习RCM引入的噪声模式有害于分类效果
提出对抗损失,防止过拟合噪声进入特征空间
原图和破坏后的图像是两种域,对抗损失与分类损失也以对抗方式工作,以保持域不变性,并拒绝原图与破坏后图像之间的特定域模式
one-hot编码每个图像以标识是否被破坏,判别器作新分支加入,判断方式为:
D(I, theta_adv)
判别方式为:
C(I, theta_cls_{1,m})表示分类网中第m层输出中抽取出的特征向量,theta_cls_{1,m}表示分类网从第m层到第m层的可学习参数集,theta_adv在R*2空间,是线性映射
判别网络的损失为:
构建学习
用带有区域构造损失的区域对齐网,衡量不同区域的位置精度,使主干网以端到端的方式建模区域之间的语义关联。
1*1卷积处理特征,得到区域对齐网的输出有两个通道,输出进而经过激活函数与池化,得到2NN大小的特征图。
区域对齐网的输出为:
其中M(I)中的两个通道对应了横纵坐标,h是区域对齐网。theta_loc是区域对齐网中的参数。
区域对齐损失是预测坐标与原始坐标之间的L1距离:
区域对齐损失帮助定位图像中的主要目标、发现子区域之间的关联,并帮助分类网更深理解目标、建模结构信息,如目标形状和各区域语义关联。
破坏和构建学习
分类、对抗和区域对齐损失以端到端方式训练,网络权衡了被增强的局部细节,以及建模好的目标部件之间的关联,用于细粒度识别。
最小化以下目标函数:
破坏过程中,学习有辨识力的区域,构建过程中,根据子区域语义关联重新排列学到的局部细节。
参考:
paper:https://openaccess.thecvf.com/content_CVPR_2019/papers/Chen_Destruction_and_Construction_Learning_for_Fine-Grained_Image_Recognition_CVPR_2019_paper.pdf
code: https://github.com/JDAI-CV/DCL