论文原文:https://arxiv.org/abs/1811.07126
代码地址:https://github.com/DetectionTeamUCAS
摘要
目标检测是计算机视觉领域的基石。尽管现在目标检测领域已经取得了巨大的进步,但是对于小型目标、杂乱密集分布和任意旋转方向的目标检测依然存在巨大的挑战。除了自然图像外,对于遥感影响而言,此类问题尤为突出。本文提出了一种应用于小型,混乱和旋转目标的新型多类别旋转探测器,即SCRDet。具体来讲,我们设计了一种采样融合网络,该融合网络将多层特征与有效的锚点采样融合在一起,以提高对小物体的灵敏度。同时,通过抑制噪声并突出物体特征,共同探索了监督像素注意力网络和通道注意力网络,用于小而杂乱的物体检测。为了更准确地进行旋转估计,将IoU常数因子添加到平滑L1 loss中以解决旋转边界框的边界问题。在两个遥感公共数据集DOTA,NWPU VHR-10以及自然图像数据集COCO,VOC2007和场景文本数据ICDAR2015上进行了大量实验表明了我们探测器的最新性能。
1. 简介
目标检测是计算机视觉中的基本任务之一,并且已经有各种通用检测器被提出来。它们在COCO和VOC2007等在内的一些数据集上已经取得了比较好的结果。但是,大多数现有的探测器并没有特别在开放环境中进行其他方面的目标检测:比如小物体,杂乱排列和任意方向物体的目标检测。
在实际问题中,由于摄像机分辨率的限制和其他方面的影响,感兴趣的对象的尺寸可能很小。例如用于检测交通标志,在街道上的公共摄像头下的小脸;而且,物体会以非常密集的方式排列(在购物中心的货物以一定的距离密集排列)。此外,对象不再像在COCO、VOC2007数据集图片中那样水平放置,而用于场景检测的目标可以在任何方向和位置。
特别是,上述三个挑战对于遥感图像来说非常明显,分析如下:
1. 小目标,航拍影像中小目标经常被复杂的周围场景围绕而忽视掉。
2. 杂乱的位置布置,用于检测的物体通常密集地布置,例如车辆和轮船。
3. 任意方向,航拍影像中的物体可以以不同的方向出现,它也进一步受到遥感中常见的大纵横比问题的挑战。
在本文中,我们主要在遥感的背景下讨论我们的方法,而这种方法和于其他问题而言可以通用,并且我们已经用航拍影像以外的各种数据集进行了测试,如实验所示。
许多现有的通用检测器,例如Faster RCNN,已被广泛用于空中物体检测。但是,这种检测器的设计通常基于隐含的假设,即边界框基本上处于水平位置,而对于航空图像(以及其他检测任务,例如场景文本检测)则不是这种情况。作为后处理,流行的非最大抑制(NMS)技术进一步表明了这一局限性,因为它将抑制在水平线上任意方向上密集排列的物体的检测。此外,基于水平区域的方法在方向估计上具有粗糙的分辨率,这是要提取用于遥感的关键信息。
许多现有的通用检测器,例如Faster RCNN,已被广泛用于空中物体检测。但是,这种检测器的设计通常基于一个假设,即边界框基本上处于水平位置,而对于航空图像(以及其他检测任务,例如场景文本检测)则不是这种情况。作为后处理,采用最多的非极大值抑制(NMS)技术进一步表明了这一局限性,因为它将抑制在水平线上任意方向上密集排列的物体的检测。(???)此外,基于水平区域的方法在方向估计上具有粗糙的分辨率,这是要提取用于遥感的关键信息。
我们提出了一种新颖的多类别旋转检测器,用于检测小型、混乱和旋转的目标,并取名为SCRDet,旨在解决以下问题:1)小目标:设计了一种采样融合网络(SF-Net),其结合了特征融合和特征锚采样;2)噪声背景:开发了一种受监督的多维注意力网络(MDA-Net),它由像素注意力网络和通道注意力网络组成,用于抑制噪声并突出前景;3)任意方向的杂乱且密集的物体:通过引入角度相关的参数进行估计,设计出角度敏感网络。整体上我们将这三种技术结合在一起,该方法在包括两个遥感基准DOTA和NWPU VHR-10在内的公共数据集上实现了最新的性能。本文的贡献是:
1. 针对小目标:设计了一种通过特征融合和锚点采样的采样融合网络。
2. 针对杂乱的小目标检测,开发了一种有监督的多维注意网络,以减少背景噪声的不利影响。
3. 为了更鲁棒地处理任意旋转的物体,通过添加IoU常数因子来设计改进的平滑L1损失,该因子被定制以解决旋转边界框回归的边界问题。
4. 更重要的是,在4.2节中我们表明所提出的技术是通用的,也可以应用于自然图像并结合一般检测算法,这些算法超越了最先进的方法或通过组合进一步改进了现有方法。
2. 相关工作
现有的检测方法主要是假设检测对象沿图像中的水平线定位。 在这项工作中,提出了一个用于区域检测的多阶段R-CNN网络,随后在准确性和效率方面进行了改进,包括 Fast R-CNN , Faster R-CNN 和基于区域的完全卷积网络(R-FCN)。 另一方面,还有一系列最近的直接回归边界框的网络,例如: 单次物体探测器(SSD)并且您只需查看一次(YOLO)网络即可提高速度。
如上所述,存在关于小目标,密集布置和任意旋转的这些具有挑战性的场景,尽管它们在实际现实中很重要,但是上述检测器并未对其进行特别处理。特别是对于航拍图像,由于其对国家和社会的战略价值,因此还在努力开发量身定制的遥感方法。 RP-Faster R-CNN框架是针对小型对象开发的。同时两个可变形卷积层和R-FCN被组合以提高检测精度。最近,[40]中的作者采用自上而下和跳过的连接来生成单个具有高分辨率的高级特征图,从而提高了可变形旋转检测框Faster R-CNN网络的性能。即使这样,基于水平区域的检测器在规模、方向和密度方面仍然面临上述瓶颈的挑战,这需要基于水平区域检测的改进以外的更多原理化方法。另一方面,遥感方面有很多工作要做,可以检测任意方向的物体。但是,这些方法通常适合于特定的对象类别,例如车辆,轮船,飞机等。尽管最近有几种方法用于多类别旋转区域检测模型,但它们缺乏小尺寸高密度的原则处理方式。
与自然图像的检测方法相比,场景文本检测的文献往往更注重面向对象。 虽然这种方法在处理基于航空图像的物体检测方面仍然存在困难:一个原因是大多数文本检测方法仅限于单类物体检测,而通常有许多不同的类别可以识别远程传感。 另一个原因是航拍图像中的物体通常比场景文本中的物体更接近,这限制了基于分割的检测算法的适用性,否则它们可以在在场景文本上良好的运行。 此外,通常存在大量密集分布的对象,这些对象需要有效的检测。
本文综合考虑了上述各方面,提出了航空图像中多类任意导向目标检测的原理方法。
3. 提出的方法
我们首先概括了如图1所示的两阶段方法。在第一阶段,通过添加SF-Net和MDA-Net,可以期望特征图包含更多的特征信息和更少的噪声。对于角度参数的位置敏感性,此阶段仍使水平框回归。通过改进的五参数回归和第二阶段中每个提案的旋转非最大抑制(R-NMS)操作,我们可以获得任意旋转下的最终检测结果。

3.1 更精细的采样和特征融合网络
在我们的分析中,检测小物体有两个主要障碍:物体特征信息不足和锚点样本不足。由于使用了池化层,因此小对象在深层中丢失了大部分特征信息。同时,高级特征图的较大采样步幅倾向于直接跳过较小的对象,从而导致采样不足。
功能融合:通常认为低级特征图可以保留小对象的位置信息,而高级特征图可以包含高级语义线索。特征金字塔网络(FPN)、自上而下的调制(TDM)和与对象先验网络的反向连接(RON)是常见的特征融合方法,涉及将高层次特征映射和低层次特征映射组合不同的形式。

更精细的采样:训练样本不足和不平衡会影响检测性能,通过引入期望最大化交集得分(EMO Score:用于计算pred bbox与gt的IoU)作者计算出锚点和物体之间的期望的最大联合交叉点(IoU)。他们发现锚点()的步幅越小,获得的EMO得分越高,从统计上讲导致所有对象的平均最大IoU均得到改善。图2显示了分别跨步16和8进行小物体采样的结果。可以看出,较小的
可以捕获更多高质量的样本,从而更好地捕获小物体,这对于检测器训练和推理均具有帮助。

基于以上分析,我们设计了精细采样和特征融合网络(SF-Net),如图3所示。在基于锚点的检测框架中,
| anchor stride |
6 | 8 | 10 | 12 | 14 | 16 |
|---|---|---|---|---|---|---|
| OBB mAP (%) | 67.06 | 66.88 | 65.32 | 63.75 | 63.32 | 63.64 |
| HBB mAP (%) | 70.71 | 70.19 | 68.96 | 69.09 | 68.54 | 69.33 |
| Training time (sec.) | 1.18 | 0.99 | 0.76 | 0.46 | 0.39 | 0.33 |
表1:在不同的步伐
下,在DOTA数据集上进行18k迭代时,平均每张图像的准确性和训练时间。
3.2. 多维注意力网络
由于诸多航拍图像之类的现实世界数据的复杂性,RPN网络提供的建议区域可能会引入大量的噪声信息,如图4b所示。过多的噪声信息会对网络进行干扰,对象之间的边界变得模糊(请参见图4a),从而导致漏检和误报数增加。因此,有必要增加目标提示并消弱非目标信息。已经有许多注意力网络解构提出来以解决遮挡、噪声和模糊的问题。但是,这些方法大多数都是无监督的,难以指导网络学习特定的目的。

为了更有效地捕获复杂背景下的小物体的客观性,我们设计了一个受监督的多维注意力学习器(MDA-Net),如图5所示。具体的说,在像素注意力网络中,特征图F3经过一个具有不同比率卷积核的初始结构,然后通过卷积运算学习两通道显著性图(参见图4d)。显著性分别表示前景和背景的分数。然后,在显著图上执行Softmax操作,并选择一个通道与F3相乘。最终,获得新的信息特征图A3,如图4c所示。应当指出,Softmax函数之后的显著性图的值在[0,1]之间。换句话说,它可以减少噪声并相对增强对象信息。由于显著性图是连续的,因此不会完全消除非对象信息,这对于保留某些上下文信息和提高鲁棒性是有利的。为了知道网络学习此过程,我们采用了监督学习方法。首先,我们可以很容易地更具地面真实情况获得一个二元图作为标签(如图4e所示),然后将二元图的交叉熵损失和显著性图作为注意力损失。此为,我们还使用SENet作为辅助的频道关注网络,减少率的值为16。

3.3. 旋转分支
RPN网络为第二阶段提供了粗略的建议框。为了提高RPN的计算速度,我们在训练阶段将NMS操作的最高得分12,000回归框作为得分,并获得2,000作为建议。在测试阶段,NMS从10,000个回归框中提取了300个建议。
在第二阶段,我们使用五个参数来表示面向任意方向的矩形。
定义为
,它是相对于
轴的锐角,在另一侧,我们将其表示为
。此定义与OpenCV一致。因此,轴对齐边界框上的IoU计算可能会导致倾斜交互式边界框的IoU不正确,从而进一步破坏边界框的预测。为了解决这个问题,提出了一种考虑三角剖分的偏斜IoU计算的实现。我们使用旋转非最大抑制(R-NMS)作为基于偏斜IoU计算的后处理操作。 对于数据集中形状的多样性,我们为不同类别设置了不同的R-NMS阈值。 此外,为了充分利用ResNet预训练权重,我们用C5块和全局平均池(GAP)替换了两个完全连接的层fc6和fc7。 旋转边界框的回归为
其中和
分别表示框的中心坐标,宽度,高度和角度。 变量
,
和
分别用于地面真实框,锚定框和预测框(同样适用于
)。
3.4. 损失函数
使用多任务损失定义如下所示:
其中表示建议框数量,
表示对象的标签,
是由Softmax函数计算的各种类别的概率分布,
是一个二进制值(对于前景
;对于背景
,背景无回归)。
表示预测的偏移矢量,
表示地面真值的目标矢量。
分别代表遮掩像素的标签和预测。
表示预测框和地面真相的重叠。超参数
控制权重。另外,分类损失
是Softmax交叉熵。回归损失
是定义的smooth L1损失函数,以及注意力损失函数
是像素方向上的Softmax交叉熵。
由于存在旋转角度的边界问题,如图6所示。它表明了一种理想的回归形式(蓝色框相对于红色框逆时针旋转),但是由于这种情况的损失存在非常大角度的周期性。因此,模型必须以其他复杂形式回归(例如,在缩放w和h时顺时针旋转蓝框),从而增加了回归的难度,如图7a所示。为了更好地解决这个问题,如等式3中所示,我们引入了IoU常数因子|在传统的smooth L1损失中。可以看出,在边界情况下,损失函数近似等于
,消除了损耗的突然增加,如图7b所示。新的回归损失可分为两部分:
确定梯度传播的方向,以及
表示梯度的大小。另外,使用IoU优化位置精度与IoU支配的度量标准一致,它比使用坐标回归更直接,更有效。


4. 实验
我们的实验在具有Nvidia Geforce GTX 1080 GPU和8G内存的服务器上基于TensorFlow实施测试。我们在航拍和自然图像上进行实验以验证我们技术的通用性。请注意,我们的技术与特定的骨干网络正交,在实验中,我们使用Resnet-101作为遥感基准的骨干网络,而FPN和R2CNN网络分别用于COCO\VOC2007和ICDAR2015数据集上。
4.1. 航拍影像实验
4.1.1 数据集和协议
DOTA数据集作为基准用于航拍影像中的物体检测。它包含来自不同传感器和平台的2806张航拍图像。图像大小范围从800×800到4,000×4,000像素不等,其中包含显示各种比例、方向和形状的对象。然后,专家使用15个常见对象类别对这些图像进行注释。完全注释的DOTA基准包含188282个实例,每个实例都由任意四边形标注。 DOTA数据集有两个检测任务:水平边界框(HBB)和定向边界框(OBB)。随机选择一半原始图像作为训练集,将1/6作为验证集,将1/3作为测试集。我们将图像划分为800×800个子图像,重叠200个像素。
NWPU VHR-10数据集包含用于检测的10类地理空间对象。 该数据集包含800个超高分辨率(VHR)遥感图像,这些图像是从Google Earth和Vaihingen数据集裁剪而来的,然后由专家手动注释。
我们使用ResNet-101的预训练模型进行初始化操作。对于DOTA数据集,该模型总共进行了300k次迭代训练,且学习率在从3e-4到3e-6的100k和200k迭代期间发生了变化。 对于NWPU VHR-10数据集,训练数据集,验证数据集和测试数据集的分割率分别为60%,20%和20%。 该模型经过总计20k次迭代训练,学习率与DOTA相同。 此外,重量衰减和动量分别为0.0001和0.9。 我们使用Momentum Optimizer作为优化器,除了训练过程中的随机图像翻转外,没有执行任何数据增强。
对于参数设置,如第3.1节中所述,预期锚定步幅S设置为6,将基本锚点大小设置为256,并将锚定标度设置为到
。由于DOTA数据集和NWPU VHR-10数据集中的多类别对象具有不同的形状,因此我们将锚定比率设置为
。这些设置确保可以为每个真实标签分配正样本。当IoU> 0.7时,将锚定为正样本,如果IoU <0.3,则将锚定为负样本。此外,由于大纵横比矩形中的角度和IoU之间的灵敏度,第二阶段中的两个阈值都分别设置为0.4。对于训练,两个阶段的最小批量大小为512。等式3中的超参数设置为
。


4.1.2 消融研究
基准设置:我们选择基于Faster R-CNN的R2CNN 作为消融研究的基线,但不仅限于此方法。为了公平起见,所有实验数据和参数设置均严格一致。我们使用平均平均精度(mAP)作为性能指标。此处报告的DOTA的结果是通过将我们的预测提交给官方DOTA评估服务器(见引用1)获得的。
MDA-Net模块的效果:如3.2节所述,注意结构有利于抑制噪声的影响并突出对象信息。从表2可以看出,加入像素注意力网络后,大多数物体的检测结果均有不同程度的提高,总mAP增加了3.67%。 MDA-Net进一步提高了宽高比目标的检测精度,例如桥梁,大型车辆,船舶,港口等。与像素关注相比,MDANet使mAP增长约1%,达到65.33%。表5显示了监督学习是MDANet的主要贡献,而不是计算。
SF-Net模块的效果:减小锚的步幅大小和特征融合是改进对小物体的检测的有效手段。在表2中,我们还研究了[45]中介绍的技术。移位锚点(SA)和移位抖动(SJ)都遵循使用单个特征点使多个子区域的边界框回归的想法。实验表明,根据原始论文的观察,这两种策略几乎无法提高准确性。扩大特征图是减少SA的好策略,包括双线性上采样(BU),带跳过连接的双线性上采样(BUS),膨胀卷积(DC)。尽管这些方法考虑了采样对小物体检测的重要性,并且其检测性能已得到不同程度的改善,但设置仍然不够灵活,无法获得最佳采样结果。 SF-Net有效地改善了特征融合和
设置的灵活性,并实现了68.89%的最佳性能,这尤其得益于车辆,船舶和储罐等小物体的改进。
IoU平滑L1丢失的影响:IoU-Smooth L1损失消除了角度的边界影响,使模型更容易回归到对象坐标。这个新的损失将检测精度提高到69.83%。
图像金字塔的效果:基于图像金字塔的训练和测试是提高性能的有效手段。ICN方法使用图像级联网络结构,类似于图像金字塔的概念。在这里,我们将原始图像随机缩放为[600×600、800×800、1,000×1,000、1,200×1,200],并将其发送到网络进行训练。为了进行测试,每个图像均以四个比例进行测试,并通过R-NMS进行组合。如表2所示,图像金字塔可以显着提高检测效率并达到72.61%的mAP。 DOTA数据集上每个类别的检测结果如图8所示。

4.1.3 对等方法比较
OBB任务:除了DOTA提供的官方基准外,我们还与RRPN [29],R2CNN,R-DFPN,ICN和RoI-Transformer进行了比较,它们都适用于多类别旋转目标检测。表3显示了这些方法的性能。RoI-Transformer、ICN和SCRDet在小物体检测中的出色性能归因于特征融合。 SCRDet考虑了接收场的扩展和融合中噪声的衰减,因此对于大型物体,它比ICN和RoI-Transformer更好。我们的方法在现有已发表结果中排名第一,达到mAP的72.61%。
HBB任务:我们使用DOTA数据集和NWPU VHR-10数据集来验证我们提出的方法并屏蔽代码中的角度参数。表3和表4分别显示了两个数据集的性能。在DOTA文献中,我们还在现有方法中排名第一,大约为75.35%。对于NWPU VHR-10数据集,我们将其与9种方法进行比较,并以91.75%的质量实现了最佳检测性能。我们的方法可在一半以上的类别上实现最佳检测精度。


4.2. 自然图像实验
为了验证我们模型的通用性,我们进一步验证了在通用数据集和通用检测网络FPN 和R2CNN上提出的技术。我们选择COCO数据集和VOC2007数据集,因为它们包含许多小对象。我们还使用ICDAR2015数据集,因为存在用于场景文本检测的旋转文本。
由表6可以看出,在COCO数据集和VOC2007数据集上,带有MDA-Net的FPN*可以分别增加0.7%和2.22%。如图9所示,MDA-Net在密集和小物体检测方面均具有良好的性能。IoU-Smooth损失函数并没有为水平区域检测带来很大的改善,因此这也反映了其与旋转检测边界问题的相关性。


根据[19],对于ICDAR2015数据集R2CNN-4的单一规模达到74.36%。因为它不是开源的,所以我们无法重新实现它,并根据论文中旋转框的定义将其版本称为R2CNN-4 *,而没有多个合并大小的结构,我们的版本可以实现77.23%的mAP。然后,我们为R2CNN-4 *配备我们提出的技术,并将其称为SCRDet-R2CNN。它在单个规模上实现了最高的性能80.08%。再次证明了本文提出的结构的有效性。根据图10,SCRDet-R2CNN实现了密集对象检测的明显更好的召回率。

5. 结论
我们提出了一种端到端的多类别检测器用于检测任意旋转的物体,这类物体在航空影像中很常见。考虑到特征融合和锚点采样的因素,添加了具有较小的采样融合网络。同时,该算法通过监督的多维注意力网络来减弱噪声的影响并突出显示对象信息。此外,我们实施旋转检测以保留方向信息并解决密集的问题。我们的方法在两个公共遥感数据集上获得了最先进的性能:DOTA数据集和NWPU VHR-10数据集。最后,我们在自然数据集(例如COCO,VOC2007和ICDAR2015)上进一步验证了我们的结构。