摘要
为了更好的识别被遮挡和变形的物体,作者提出一种基于fastcnn的采用生成对抗网络进行数据增强的训练方法.生成网络的目标是生成难以被正确分类的难样本,以此来提高识别网络的识别能力.
相关介绍
提高模型识别能力的方法之一是增大样本数据,往往更大的样本数据集可以训练出表现更好的以及更鲁棒的模型.如上图所示,最右侧的样本即使在比较大的数据集中也是极少的,而少量的样本可能就会导致训练的模型无法有效识别相关类目.而该论文提出了一种方法可以生成相关样本.已有的相关的工作的思路是直接在像素级进行生成看起来真实的样本或者所有可能的对原始图片进行遮挡,变形操作后的图片.前者的缺点是需要真实的图片,已有文章证明采用所有样本往往不是最优的,因为其中有大量简单样本,特征相似或者重复导致模型不能有效地学习难样本.
提升目标识别能力有三个方向,一是网络结构方向的改进,比如使用更深的网络结构.二是利用上下文推理.第三种就是更好地利用数据本身,通常是找出样本中的难样本,用来提高网络对于目标的判别能力.
网络结构
该Fast-Rcnn网络包含两个部分,(1)一个提取特征的卷积网络(2)一个ROI池化层固定特征图输出尺寸以便输入全连接层进行分类.
输入一张图片,通过卷积网络进行特征提取,由于输入图片尺寸不固定导致特征图的尺寸不同,所以引入ROI池化固定特征图尺寸.最终的全连接层输出目标及背景的类别和边框坐标值.
考虑生成网络的设计,一是设计遮挡增加识别难度Adversarial Spatial Dropout Network (ASDN);二是变形 Adversarial Spatial Transformer Network(ASTN).该论文并没有像之前的文章一样直接在输入图片上进行操作,而是直接在特征空间进行遮挡和变形.
首先是遮挡特征,对ROI池化后的特征图进行特征dropout,考虑特征图为dxdxc(AlexNet中,d=6,c=256),添加了一个二值掩码层,通过 d/3xd/3 的滑动窗口(原特征图的1/9)进行遮挡,每个特征图会得到10种不同的遮挡情况(包括不遮挡),选出loss最大的一个,并用其生成n对样本.loss选用二进制交叉熵作为度量.将 Fast RCNN 与 ASDN 进行联合训练(joint training).
然后是对特征图进行变形,ASTN由定位网络,网格生成器和采样器组成.定位网络用来估计图片旋转角度,尺度变换因子等参数.网格生成器和采样器使用估计的参数进行特征图计算,由于STN可微,因此可直接通过分类结果进行反向传播进行优化.
一些实现细节,旋转角度限制在(-10,10);把特征图在通道维度划分为 4块,分别对应4种不同的旋转角度,这样可以增加旋转操作的复杂性.
实验结果
在各个数据集上表现提升在 2%左右.
总结
与OHEM方法比较相似,区别在于OHEM是挖掘现有的所有难样本以获取更多信息,而本文中是利用生成网络创建并不存在的难样本,并且在实验结果两个各有优劣.本文方法上新颖的点是在特征图上进行生成变换而不是直接生成真正的图片,效率更高也不用担心看起来是否像真实的图片 .
参考文章
Online Hard Example Mining:https://blog.csdn.net/u012905422/article/details/52760669
Mask-RCNN:https://arxiv.org/pdf/1703.06870.pdf
比较细致的翻译:https://blog.csdn.net/qq_14839543/article/details/72323934
原文:https://arxiv.org/pdf/1704.03414v1.pdf