出于交流学习目的,翻译此篇论文。
机器翻译+人工校对
Akshay Dhamija, Manuel Gunther, Jonathan Ventura, Terrance Boult; Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 1021-1030
Abstract 摘要
尽管目标检测是一个流行的研究领域,已经在现实世界中发现了相当多的应用,但它有一些从未被正式讨论和实验过的基本方面。评估目标检测器的核心方面之一是避免错误检测的能力。虽然像 PASCAL VOC 或 MSCOCO 这样的主要数据集广泛测试检测器避免误报的能力,但它们并不区分闭集和开集的性能。尽管系统被训练来拒绝所有感兴趣的类别以外的东西,来自开放世界的未知对象最终被错误地检测为已知类别的对象却时有发生,同时检测器还对此保持高度自信。本文首次将开集目标检测问题形式化,提出了第一个开集目标检测协议。此外,本文还提供了一个新的评价指标来分析一些最先进的检测器的性能,并讨论了它们的性能差异。
1 Introduction 引言
目标检测在计算机视觉方面的研究有着悠久的历史,可以追溯到50多年前。目标检测器的目的是对训练好的目标进行定位,而忽略/拒绝其他来自随机目标或场景背景的区域。目标检测方法已经从基于特征的检测器发展到滑动窗口算法[27] ,到区域建议(region proposal)方法[7,6,24]和基于锚箱(anchor box-based)的方法[18,21,22,16]。特别是在过去的几年中,计算速度的提高,标记训练数据的增加,以及诸如 PASCAL 可视对象分类(VOC)[2]和微软的上下文通用对象(mscco)等挑战,使得深层网络的使用成为可能,这为该领域提供了显著的改进。
随着深度学习技术的普及,数据集的大小变得越来越重要。诸如 PASCAL VOC 等挑战在2007年至2012年间增加了培训数据的规模,而最近在2017年,MSCOCO 将其83k/41k 的训练/测试集划分改为118k/5k,理由是研究界需要更多的训练数据。增加训练样本的数量可以提高泛化能力,从而使检测器能够更好地捕捉给定对象的变化。
虽然大多数真实世界的检测应用程序只对这些数据集中提供的对象类别的一个小子集感兴趣,但其他类别似乎提供了一个概括,以避免将样本数据错误地分类为一个已知类的对象。虽然检测器在较小的数据集上训练,例如 PASCAL VOC,测试集上表现良好,但得到的模型数据却不能在真实世界中的开放集目标检测问题中有良好的表现。正如我们将要看到的,我们新的评估协议的实验表明,开集的目标检测问题还远远没有被解决——尽管在训练时加入“背景类(backgroud class)”,这种类应该拒绝所有感兴趣的对象以外的东西。我们看到,对于现存的目标检测器,未知类的物体通常会高度可信地识别到现有的类上(图1)。
目标检测器产生两种类型的错误: (a)假阴性,即感兴趣的对象被归类为另一个已知类的对象或背景类; (b)加阳性,即背景样本或未知类的对象被误识别为感兴趣的类。尽管假阴性可能被认为是网络训练或网络或数据集的普遍性的缺点,但是假阳性则不能这样说。网络被训练成从现实世界中无限多的对象类中识别一小组已知对象。即使训练使用了“背景”类来拒绝感兴趣类之外的样本,数据集也不可能从剩余的无限多的不感兴趣类类中的每个样本中进行训练。由于这些未知对象在训练期间没有取样,所以期望它们在测试期间被拒绝是不现实的。虽然所有的目标检测器都使用了一些技巧来防止假阴性,但诸如 PASCAL VOC 和 MSCOCO 等数据集目前使用的评估协议并不能充分测试目标检测器拒绝未知物体的能力,因此高估了它们在开集/开放世界情况下的性能。在这项工作中,我们着重于理解检测器对未经训练的检测对象的响应,也就是说,我们提出并执行开集评估。
我们的贡献: (a)在第2节中,我们根据当前处理背景/未知对象的方法对检测器进行分类,并将我们的发现推广到当前流行的检测算法中。(b)在第3节中,我们将目标检测形式化为一个开集问题。(c)我们在第3.1节中提出了第一个开放集目标检测协议来更好地评测目标检测器在开集/开放世界下的表现。(d)我们提出了一个开集目标检测的评价指标,它比 mAP 能够更好地进行性能比较。(e)在第4节中,我们着重指出目前最先进的目标检测器的缺点。(f)最后,在第5节,我们试图提供一种理解,在将目标检测器应用于真实世界时,如何选择一个工作点。
2 Dividing Detectors by Classifier Type 根据分类器类型归纳检测器
考虑图像中一个指定的区域(region)并尝试给出该区域对于个已知类属于第类的概率 是在所有通用的检测器中的一个核心概念。这些特定区域有不同的名称,如window、crop、region proposal或anchor box。它们也可能由不同的算法产生,如滑动窗口(silding window)[27]、选择性搜索(selective search)[7]或区域建议网络(region proposal network)[24]。因为有如此多的潜在区域,所以一个目标检测器善于拒绝不包含感兴趣对象的区域是至关重要的。目标检测器在这些特定的图像区域中避免误检是目标检测器面临的主要挑战之一,但对于改进这一方面的研究却很少。为了解决物体的检测/分类问题,同时剔除非物体区域或未知物体,目前只有少数几种设计方案。我们粗略地把这些方案分为如下几类:
Multi-Class Classifiers without Background 不含背景类的多分类分类器
许多早期阶段的目标检测器,如 OverFeat [27] ,将目标检测处理为一个基于滑动窗口的图像分类问题。这些系统被训练来识别个不同类别的的对象,并且对于每个生成窗口,它们提供每个对象类别存在的概率,使得。在一些方法中,从各种采样窗口,使用最大分类得分(classification score)的窗口,它只允许检测图像中的单个目标。在其他的方法中,有着相同的分类结果并且有重要bounding box区域切片(crop)被合并作为一个检测结果(In others,different crops where the same class is predicted with the maximum score and that have a significant bounding box overlap are combined to provide one detection)。这些系统在最初引入的时候是一种进步,但是它们很明显地假设所有的输入都映射到一个已知的类上,从而导致许多错误的检测。因此,这些方法不再使用。
Multi-Class Classifiers with Background 含背景类的多分类分类器
大多数双阶段检测器,如 Fast R-CNN [6]和 Faster R-CNN [24]将区域 分为 类。另一个类称为背景类 ,从非对象窗口(non-object window)训练而来, 被解释为表示 不属于 类中任何一类的概率,这样 。一些单阶段目标检测器,如 SSD [18]也属于这一类。我们注意到,在评测过程中,所有这些系统都独立地使用每个概率,而不考虑 中的最大值,因为即使对于已知类别的对象,背景概率 也高于正确类别的对象——一个支持实验在补充材料中。
One vs. Rest Classifiers 一对其他分类器
这类检测算法使用了“一对其他”(one-versus-rest)分类器。这里的想法是,一个区域包含或不包含已知的物体。因此,检测器没有显式地提供 不属于任何已知类的概率 。同时不能保证 ,而且通常模型甚至不能估计概率。一些早期的方法,如 DPM [4]、 SPPnet [9]和 R-CNN [7]都属于这一类。对于每个已知类,这些模型使用一种基于SVM的一对其他分类器提供目标属于某一类的分数。在当前最先进的单阶段检测器 RetinaNet [16]中,可以看到一对其他分类器的另一种变体,该检测器使用二进制交叉熵来识别已知对象存在与否。这种方法的灵感来源于观察到一个区域可能包含不止一个物体,例如,一个人坐在椅子上,膝盖上放着一只猫。在这种情况下,只给一个类赋予高概率是不合理的,而是几个类的概率可以接近1。因此,这样的目标检测器器给每个对象一个独立的概率,并不强迫它们和为1。如果没有任何已知对象存在,则检测器将为每个已知类提供低概率。不幸的是,一对其他分类器通常具有无限的开放空间风险(open space risk)[26] ,未知类的样本通常会被归类为已知类别之一而且同时分类器对此表示高度自信。
Objectness-Based Classifiers 基于目标概率分(objectness)指标的分类器
YOLO 家族[21,22,23]的单阶段目标检测器属于这一类。在提供每个目标类别的概率评分之前,这些探测器提供了一个客观评分,也就是说,它们评估该区域是否包括任何已知目标。将所有类别的得分看作是相互独立的,分类器的训练采用sigmoid或二进制交叉熵损失。[21,22,23]的作者将他们的目标概率分表示为一个已知对象出现在各自的锚箱中的概率。然而,正如我们将在后面看到的,在许多其他未知物体的存在下,这个目标概率分也很高。因此,他们的模型被更好地解释为“一般对象性”评分,而不是声称的“已知对象性”评分。
Discussion 讨论
尽管目标检测是一个通过只检测已知对象来处理未知对象的问题,但现有的系统还没有被正式定义为开集问题,也没有在真正需要忽略未知对象的真实世界的开集条件下对它们进行评估。虽然训练一个背景类或将问题作为一对其他分类来处理都有助于拒绝未知类,但是这解决方案都没有提供文献[25]中定义的有界开放空间风险(bounded open-space risk)。本文的其余部分将分析忽略开放空间风险的影响。
3 Formalizing Open-Set Object Detection 形式化开集目标检测
在不属于任一训练集中已有类的实例上测试系统的场景定义为开集。因此,根据定义,目标检测器只能检测它们被训练来识别的物体,而拒绝其他物体,我们认为目标检测是一个普遍的开放集问题。虽然根据上述定义及开集分类问题,可以给开集目标检测下一个定义,但是我们要引入一个新的附加类——混合未知类(mixed unknown),这个类对于开集目标检测在现实世界中的实用性是至关重要的。为了解释这个附加子类的必要性,我们解释了在已标记对象 的无限空间中存在的所有对象类的类型。 这些类型可以粗略地分为以下几个:
: 检测器被训练来检测已知类的物体或感兴趣的物体。可以分为已知的已知类,和未知的已知类,中的样本是跟训练集中的数据相似的目标,是与训练集中的样本同属一类但特征不同的目标,通常在测试集中看到。这些不同的特征可能起源于环境条件,成像条件的变形或已知物体的变形,如图2所示。这个问题一直是各种讨论和数据集的主题[29]。虽然是一般开集目标检测的一部分,但对其的分析并不是本文的核心主题。
-
: 目标检测器需要拒绝的“未知类”的物体。显然是无限集。可分为以下2个子集:
- : ”未知已知“类的物体,如背景类、垃圾数据(garbage, undesirable)。这是检测器应当忽略的物体,如图1中的天空、草地等。因为是无限集,因此训练集只包含的一部分。
- : ”未知未知“类的物体或”不能预先知道的物体(previously unseen objects)“。是训练时不能预见的类的物体集。
上述分类来自[19],但这种分类缺少一个对于开集目标检测实际使用重要的内容,即”混合未知类“。在基于bounding box的检测数据集中,图像并不是每个像素有标记,而是已知的物体 用bounding box标记。创建一个开集协议(open-set protocol)时,因为是无限集,一个未知类的物体并不能被确定是属于还是。例如,假设在整个数据集中有一张一个人拄拐杖的图片。由于拐杖不是感兴趣的类,因此它不隐式地属于 或 。如果在数据集分割期间,这个图像最终在测试集中,则拐杖属于 ,但如果它最终在训练集中,则属于 。因此,如果不能标记 的中所有物体,就无法确定拐杖是 还是 。这意味着对于基于bounding box的开集协议,不可能确保在训练过程中没有看到未知对象,因此产生了混合未知对象的类别 。
虽然目前的检测方法在如 PASCAL VOC 和 MSCOCO 的数据集上表现良好,但它们对 的效果并没有特别研究,因为数据集包括混合未知类 。在现实世界中,检测器可以应用于各种控制级别的环境中。例如,对于一个仓库而言环境是可控的,但是对于自动驾驶汽车或家庭机器人来说,环境可能不受限制。对于大多数不受限制的环境,检测器会被和影响。
3.1 Open-Set Protocol for Object Detection 目标检测的开集协议
尽管当前在 PASCAL VOC 和 MSCOCO 挑战中提出的目标检测协议已经被广泛接受,但是这些协议并不包含任意物体的图像。这意味着这些协议没有确保包含来自 的对象的图像。有人可能会争辩说,对于 MSCOCO 来说,情况并非如此,在5000个验证图像中,969 个没有来自80个对象类别中任何一个。在这里,我们希望澄清的是,尽管 MSCOCO 数据集有80个对象类别,原始数据集有90个对象类别。对于这10类,MSCOCO 不是排除所有包含这10个类别的图像,而是简单地在协议中删除这些对象的标注。这意味着这些对象的实例在训练过程中可以看到,因此许多实际上是。
我们的开集目标检测协议在这方面与传统协议不同。除了来自 PASCAL VOC 2007测试集的图像外,我们还从 MSCOCO 训练集中选择了23008张不包含任何已知 PASCAL VOC 对象的图像。我们使用这些图像的一个子集,共4952张图像,做实验,如图3,4。这个子集称为 Wilderness Ratio 1() ,如4.2节所述。第4.2节中的其余实验使用了全部的23008张图像。
保证我们的开集协议的真正的开集本质的一个极其重要的前提是限制训练集的类型。任何试图使用我们的协议进行评估的detector都不能使用 MSCOCO 的任何数据进行训练。
The unsolved problem 一个仍未解决的问题
当使用一个数据集的组合时,由于在一个数据集中标记为未知的物体,可能不会在另一个数据集中标记,因此不能保证这些物体不会出现在训练集。这就导致了这样一个事实: 所有的未知数都被认为是混合未知类。正如前面所解释的,混合未知类的存在是无法避免的,但是减少它们的数量可能是研究团体在开放式目标检测中取得进展的主要步骤之一。
3.2 Experimental Setup 实验设置
在我们的实验中,我们调查了4个目标检测网络,即 Faster R-CNN,RetinaNet,yolov2和 Mask R-CNN。对于每个网络,我们使用 ResNet-50 backbone。为了进一步提高网络的性能,我们采用了特征金字塔网络(FPN)[15]。对于 Faster R-CNN、 RetinaNet 和 Mask R-CNN 实验,我们使用 detectron [8],对 YOLOv2[22] ,我们使用在 PASCAL VOC 数据集训练的模型提供的配置和权重。我们还在我们的项目页面上提供了 detecron 训练文件以及训练过的模型,包括本文中使用的所有评估脚本以及自定义协议拆分。
表1总结了各种网络在平均平均精度(mAP)方面的性能。我们可以看出无论是在 PASCAL VOC 还是在我们的开集协议,mAP 结果在不同的网络之间只有微小的差异。这似乎表明所有的网络在有额外的未知样本的情况下表现类似。在下一节中,我们将证明实际情况并非如此,因此 mAP 不是评估开集目标检测的最合适的方法。
Existing Apporaches 现存的解决方案
解决开集分类任务[10,11]的方法有很多,但大多数这些方法要么局限于如 MNIST这样较小的数据集,要么侧重于识别未知知识,即已知类别的样本的新表现(view),如对抗样本,而不是识别真正未知类。最近,Miller 等人[19]建议通过使用 Dropout sampling 来解决开集目标检测,我们在这里应用到我们预先训练的 Faster R-CNN 网络。我们使用缺省概率为0.5来计算 fc7 的前一层、分类 head 和 regression head 的层的权重。对于每张图像的 ROI,我们执行30次带有 dropout 的前向传递,结果是每个 ROI 有30次独特的检测,这些检测的平均值提供了实际的结果。正如我们在 表1 、图5和表2中展示的那样。这种方法实际上大大降低了未知样本的性能,而且它仍然忽略了目标检测中的开集问题。
4 Analyzing Open-Set Object Detectors 分析开集detector
4.1 Impact of Unknowns 未知类的影响
由于现实世界中的检测器部署在特定的操作点(operating point),因此在我们的实验中,我们选择使用Recall = 0.3的操作点。这意味着我们可以分别对每个检测器和每个类确定置信阈值,这样该类中所有已知对象实例的30%就可以正确检测到。对于其他的操作点,如Recall = 0.1,我们得到相近的结果(在附录中详细说明)。我们测试了三种不同的基于网络的检测器方法: Faster R-CNN [24]、 RetinaNet [16]和 YOLOv2[22] ,我们使用 PASCAL 2007 和 2012 的训练和验证集对它们进行了训练。在图3(a)-(c)中,我们在 PASCAL VOC 2007 测试集上测试这些网络。对于图3(d)-(f) ,我们使用第3.1节中详细说明的 开集协议。
在目标检测中,背景错误(background error)被定义为与的 ,同时被归类为一个已知类。根据我们对开集目标检测的定义,我们将这些背景误差解释为来自混合未知类 的误差。当假设我们的标记样本(来自MSCOCO)不包含来自 PASCAL VOC 的类时,我们可以进一步识别未知未知类错误(unknown unknowns errors)。如果检测器检测到一个 MSCOCO 对象作为一个已知的 PASCAL VOC 类的对象并且,那么这次检测就是一个未知未知类错误,也就是说,一个 样本被错误地识别为来自 。相似地,对于任一图像,如果检测器将做了一个同时来自和的检测,那么这被视为混合未知类错误(我们称这些检测为混Similarly, in any image if the detector makes a detection which has an IOU < 0.1 with objects from both UU and K, it is considered as mixed unknowns error)。我们称这种检测为混合未知,因为 PASCAL VOC 和 MSCOCO 都没有限制 成员不能出现在他们的图像中。因此,如果一个检测对任何标记的对象具有 ,那么对于未标记的对象,它仍然可能具有。(?)
我们使用 Hoiem 等人[12]提供的定义来诊断检测器所产生的错误。我们不像[12]中那样使用饼图,而是通过水平条形图进行可视化。为了只关注错误,我们将图像的比率剪辑到12%,白色区域为100% 的正确检测值。由于图3中的所有图都是在的特定操作点绘制的,因此它们都代表了相等数量的真正例(TP)。这些检测器对混合未知类 的不同反应很有趣。
从图3(d)可以看出,虽然 Faster R-CNN 是最目前先进的二阶段detector,但与图3(a)中的闭集性能相比,其假负率百分比几乎翻了一番,这是由混合未知类错误造成的。当我们比较图3(a)和(b)时,性能似乎与文献[16]中所声称的几乎相同,但是两个最先进的检测器对混合未知类的表现大不相同。看起来,RetinaNet 比二阶段detector更容易受到这些错误的影响,这种影响可能来源于one-vs-rest的损失函数,因为两个detector是基于相同的网络结构。早期的单阶段detector YOLOv1[21]被认为会出现定位错误(localization error),但也被认为比 Fast R-CNN [6]更不容易出现背景错误。令人惊讶的是,yolov1和 yolov2在我们的开放设置协议下都是表现最差的。由于 yolov2是 yolov1的进步,而 yolov1的性能更差,因此我们只在图3中提供 yolov2 的结果。正如第2节所讨论的,yolov2对混合未知类的糟糕表现可能归因于它的目标概率分,提供了任何物体属于 的概率,而不是物体属于 的概率。
由于我们已经从图3中推断出未知未知类的物体经常被检测为已知类之一,我们试图进一步了解哪些物体倾向于彼此混淆。图4是一个不属于混合未知类错误的 Faster R-CNN 的检测结果的混淆矩阵,也就是说,他们的与或的。从图4可以看出,大多数的混淆是存在于来自同一父类的物品之间,如动物、家具、器具等。一些在视觉上与任一 PASCAL 物体不相似的物体,比如网球拍、棒球手套或者三明治,也会被检测为火车、汽车、船、飞机、餐桌或者盆栽植物。对于一个人身上常见的物品,这是 PASCAL 数据集中最常见的物品之一,比如领带、手提包、背包、勺子和叉子,几乎没有检测结果。这可能是由于在 PASCAL VOC 训练集中出现了这些物体,它们被识别为背景,因此探测器学会了避免检测它们。
4.2 Detection and the wilderness
正如我们从图3中所观察到的,未知物体对检测器的性能有非常重要的影响。当目标检测系统被部署在真实世界,譬如用于像机器人这样的真实世界应用时,检测会在视频序列中的帧上进行。大多数这些帧可能不包含任何已知的物体 ; 相反,他们可能包含的物体,要么是系统被训练要忽略的背景 ,要么是未知未知类的物体 ,这些都是的detector没有学会处理的。在部署这样一个系统时,操作点的选择要么基于detector在某个学术数据集的性能,要么通过将其应用于它所针对的应用场景的一小部分图像。无论是这两种的哪种方法都没有明显考虑到未知未知类的影响。遇到这些未知类的频率在很大程度上取决于detector所处的环境。Scheirer 等人[25]定义了一种称为开放性(openness)的度量,但它使用了已知和未知类的数量,并忽略了未知类出现的频率。我们形式化了一种新的度量方法,它引入了可能有未知类物体的帧的频率,我们称之为Wilderness。我们定义Wilderness Ratio如下:
为了了解系统在混合未知类条件下与闭集条件下测试时性能的变化,我们设计了一个实验,其中含有未知类物体的图像数目比含有已知数的图像数目多10%,从而增加了Wilderness。对于只包含未知类物体的图像,我们使用第3.1节中所描述的 MSCOCO 分割方法。为了了解这些开集条件对性能的影响,我们评估了三个detector在不同的操作点上的性能。我们的评估强调了未知类的数量对detector性能的影响。为了了解Wilderness的影响,我们研究了闭集和开集条件下精度值的比值。因为对于一个理想的detector,Wilderness的影响应该是0,也就是说,闭集和开集条件下精度值应该没有区别。我们将这个比值减去1:
简化后得
其中是真正例的数目,来自PASCAL数据集,因为开集部分没有真正例,所以不会有。由 PASCAL 图像产生的假正例被标记为 ,而由于开集问题导致的假正例记为。正如在图5中所观察到的那样,随着detector的操作点的改变(更高的召回率),其对Wilderness的影响也随之增加。另外,可以清楚地看到,单阶段目标检测器,如 RetinaNet 和 YOLOv2,比二节点目标检测器 Faster R-CNN 受到更广泛的影响。为了更好地评价目标检测器在不同级别的Wilderness中的性能,我们建议采用平均Wilderness Impact(AWI)的度量方法。对于Wilderness Impact曲线,较小的 AWI 值代表更好的detector。为了计算 AWI,我们使用了不同级别的Wilderness Impact的平均值。各种detector的 AWI 如表2所示。
5 Making Choices 做选择
为了针对特定应用部署目标检测器,需要考虑各种因素,即选择应用的目标检测器及其工作点。
5.1 Selecting Detector 选择目标检测器
平均精度(mAP)是评估一个检测器在各种检测数据集的性能的首选指标。因为 mAP 在所有对象类中提供了一个单一的数字,所以它使得检测器之间的比较变得容易,从而可以确定这个领域的SOA。但是如表1所示,在闭集环境下有着相近mAP的目标检测器在开集环境下的表现却大不相同。例如,虽然Faster R-CNN和RetinNet在Pascal VOC 2007测试集上的表现相近,但使用不包含任何已知类的测试集Faster R-CNN的mAP下降了约4%,RetinaNet下降了约6%。另一方面,我们可以从表2中看到。Faster R-CNN 在未知样本情况下更加稳定,这在 mAP 指标中没有反映出来。这一观察结果使我们相信,虽然 mAP 是一个比较检测器在封闭集中性能的良好指标,但它本身不能用于评价开放集合条件下的检测器性能,需要制定针对(平均) wilderness impact 的更好评价指标。
5.2 Selecting Operating Point 选择操作点
理论上,对于选择操作点,可以使用特定recall的阈值,也可以使用特定的precision。precision-recall 曲线(PR曲线)可以用来确定一个操作点,但其非单调性增加了复杂度。PR 曲线通常是更新精确率而人为地生成单调的 PR 曲线(Often, PR curves are artificially made monotonic by updating the precision value at a recall r′ with the maximum precision values for r′ ≤ r [3])。这意味着,如果 PR 曲线是用来获得基于精度的工作点,我们希望的精度是不是一个我们会得到。这意味着,如果 PR 曲线被用来获得基于精确率的工作点,那么这个精确率并非我们真正需要的精确率。
因此,人们试图在精确率和召回率之间取得平衡,而不是试图单方面提高精确率或召回率,因此需要一个更复杂的评估指标。其中一个评估指标是 ,定义为精确率和召回率率的加权调和平均值:
不同于准确率(accuracy)的计算需要真负例的值(values of TP), 只是精确率和召回率的组合,因此它自然成为目标检测器评估的第二选择[14,1]。 可以提供一个很好的操作点,但它需要平衡精确率和召回率,通常取即。虽然 可用于确定检测器的工作点,但它也不能解决在开集条件下检测器的性能问题——详见附录。
6 Conclusion 总结
本文的主要目的是提供一个目标检测器在现实世界/开集环境中的性能的理解。为了实现这一目标,我们将目标检测问题正式定义为一个开集问题。尽管Miller等人[19]也尝试将目标检测问题作为一个开集问题来解决,但他没有提供一个形式化定义以及开集环境对目标检测器在现实世界中应用的影响。
我们的开放集评估协议使研究人员能够估计任何目标检测器在开集条件下的性能。该协议不是简单地包含固定数量的未知类的样本,而是改变未知输入的频率,我们称之为wilderness ratio。这种是的我们能够模拟目标检测器在不同程度的开集条件下的表现。由于一个系统不知道它所在的环境的wilderness ratio,我们引入了(Average Wilderness Impact,AWI)度量方法来量化算法在一系列wilderness中对未知未知类的敏感程度。
我们研究了3种目标检测网络在不同背景下的开集性能。虽然这些网络的mAP在闭集和开集中都是相似的,但是我们发现这些算法对未知对象的处理是非常不同的。最先进的两阶段多类检测器 Faster R-CNN 使用一个额外的背景类在特征空间的一个单独区域中组合已知未知类的样本,其 AWI 值最低,表明它受未知物体样本的影响最小。目前最先进的单阶段目标检测器 RetinaNet 在闭集条件下有类似的性能,但是由于它使用one-vs-rest分类器,在拒绝未知物体方面表现不佳。最后,基于objectness的 YOLO 探测器具有较高的 AWI,无法很好地处理未知对象。我们把这归因于这样一个事实: 他们的objectness不仅对已知的物体很高,对未知的物体也是如此。这使得基于objectness的拒绝未知变得困难。因此,我们认为使用背景vs已知类的分类器的检测器在开集中会受很大的影响。
零样本/小样本学习和增量学习领域已有重要进展,这些技术可以应用于目标检测。然而,如果检测器错误地却自信地将未知类的物体分类为已知类,那么系统就没有理由考虑将这些对象作为新类来学习。即使这个系统对未知的事物很敏感,只是简单地忽略未知类的物体作为“背景”,它也不能把它们作为新的事物来学习。因此,我们认为重要的是,检测系统最终要学会区分背景和未知类的对象,并将新的对象列入待识别对象。目前,还没有这样的架构,设计留给未来的工作。本文在提供新的开放式评价协议和评价方法的基础上,为这一方向的最终发展奠定了基础。我们希望这些步骤能够引导目标检测的发展。