具有特征透视变换的多视图检测
摘要:合并用于检测的多个摄像机视图可减轻拥挤场景中遮挡的影响。在多视图系统中,当处理遮挡引起的歧义时,我们需要回答两个重要的问题。首先,我们应该如何汇总来自多个视图的线索?其次,我们应该如何汇总被遮挡干扰的不可靠的2D和3D空间信息?为了解决这些问题,我们提出了一种新颖的多视图检测系统MVDet。对于多视图聚合,现有方法结合了图像平面上的锚框特征,由于锚框形状和大小不精确,这可能会限制性能。相反,我们采用无锚方法通将特征图投影到地面上来聚合多视图信息
(鸟瞰图)。为了解决任何剩余的空间歧义,我们在地面特征图上应用了较大的核卷积,并从检测峰中推断出位置。我们的整个模型都是端到端可学习的,并且在标准Wildtrack数据集上达到了88.2%的MODA,比最新技术高出14.1%。我们还在新引入的合成数据集MultiviewX上提供了MVDet的详细分析,这使我们能够控制遮挡的水平。
Introduction:
提出所研究问题是如何解决在视觉检测中的occlusion问题,而本文的方法是通过多个RGB试图来进行行人的检测识别。
多视图行人识别通常有来自多个相机的多个图片作为输入,这些相机聚焦于同样的区域,因此在视野中有相应的重叠区。相机校准会提供三维于二维之间的匹配,将三维试图中的z坐标轴设为0即为年鸟瞰图中的二维坐标。而根据3维人体高度和宽度的假设,每一个点在多视图中所对应的边框可以通过计算投影后存储。因为每个点的边框可以通过查表获得,因此多视图行人检测任务通常要估算行人在鸟瞰图中的占比。
在多视图行人检测中如何解决遮挡和拥挤引发的歧义问题是一项重大挑战。遮挡所引起的问题是如何判断一个人是否存在于某一特定地点,如何判断有多少人存在,如何判断他们的位置。这个问题的解决着手于两个方面:多视图融合和空间聚集。此前,对于一个给定的地面位置,多视图系统选择一个基于锚点的视图融合方法并且用多视图锚框功能来代表特定的点,但单视图锚框的不精确性限制了这种系统的功能。尽管多视图系统是基于3维人体高度和宽度进行计算的,但仍然是不够精确的。而对于空间聚集,之前的方法是采用CRF(条件随机场)或平均场推断来共同考虑空间领域,而这些方法要求推断过程中在CRF中设计特定的潜在术语或在CNN前向传递之外进行其他操作。
提出本文的方法MVDet:对于视图融合,选择了无锚点方法。MVDet通过透视变换投影卷积特征图,并将多个投影特征图连接在一起;对于空间聚集,采用了完全卷积的方法来减少在CNN外的人的设计和操作。 它在汇总的地平面特征图上应用(学习)卷积,并使用较大的接收场共同考虑地平面的相邻位置。 可以以端到端的方式训练提出的全卷积MVDet。
在Wildtrack数据集上, 模型精确度达到 88.2%,提高了 14.1%。
2 Related Work:
单眼视图检测:基于R-CNN的神经网络在计算机视觉的检测问题中表现出了优良的性能。对于行人检测问题,一些研究者通过头-较点检测和中心比例检测来判定行人边界框。在遮挡问题中基于部分的探测器很受欢迎。Hosang等人探究了被遮挡行人的非最大抑制,提出了排斥力损失来排斥边界框。
具有多个信息源的3D对象理解:介绍了将多个信息源汇合以检测3维物体的方法。最为常用的方法是从RGB图像和激光雷达点云中汇集信息。
多视图行人检测:首先是多个RGB视图的融合,研究人员融合了用于多视图2D锚点的多个信息源,人体的高宽都假设为固定值,提前计算好地平面上所有位置(锚点)及其对应的多视图2D边界框,并将其存储在查找表中。研究人员可以通过该表来计算平面锚点的特征。其次,使用平均场推断和CRF来汇聚空间领域信息,对于平均场推断[7,1],首先估算在特定占用率下的理想2D图像,然后将其与实际的多视图输入进行比较。在[7,1]中,方案中的整体占用率被转换为能量最小化问题,并使用CRF进行了求解。Baque等人 [1]构建高阶电势来评估CNN估计结果与生成的理想图像之间的一致性,并以组合方式训练带有CNN的CRF。 他们的CNN-CRF组合方法在Wildtrack数据集上获得了最先进的性能[3]。
深度学习中的几何变换: 仿射变换和透视变换之类的几何变换可以对计算机视觉中的许多现象建模,并且可以使用一组固定的参数来显式计算。 Jaderberg等人 [14]提出了一种空间变压器网络,该网络学习仿射变换参数以在2D RGB输入图像上进行平移和旋转。 Wu等人 [37]估计投影参数并从3D骨架投影2D关键点。 严等人 [39]通过透视变换将一个3D体积转换为2D轮廓。通过估计实例级仿射变换在[35]中研究了几何感知场景文本检测。 对于跨视图图像检索,Shi等人 [28]应用极坐标变换使特征空间中的表示更加接近。
3 Methodology:
提出本文的工作:用MVDet解决拥挤场景下基于多视图的行人检测。对于视图融合,选择了无锚点方法来解决锚框不精确的问题;对于空间聚集,采用了完全卷积的方法(没有依赖于平均场推断和CRF).MVDet将多个RGB图片作为输入,输出行人占用估计图。
3.1多视图融合:
★ 特征图提取:使用 ResNet-18来对输入的图片提取特征图,为了得到较高的空间分辨率,将最后三层换为了膨胀卷积。将得到的特征图resize,再利用一个共享权重单视图检测器将行人检测为一组首-足点。
★ 无锚融合:对于之前的基于锚框的检测,基于假定的人体高度和宽度为地面上的点创建一个锚框,并可以为其对应投影多视图2D锚框创建查找表。可以使用ROI-pooling操作表示边界框特征,并通过级联聚合以表示相应的地平面位置。但其缺点是锚框的不确定性会影响性能。相反,由于没有锚点,因此所提出的特征图投影方法不会出现锚点框不正确的情况。 并且即使投影方法不合并来自锚框的特征来表示2D区域,特征图中的每个像素也会从其接受域中的自适应区域提取信息。 结果,通过无锚点特征透视变换构建的地平面特征图更加准确,并且仍然包含来自2D图像的足够信息以进行检测。
★ 透视转变:通过数学关系得出采样网格,通过网格将特征图投影到地平面上,非视野区用0填充。再将所得到的投影特征图与2通道的坐标特征图联合,从而得到一个(N*C+2)通道的特征图。
★ 不同投影的选择:RGB像素本身仅包含相对较少的信息,许多信息保留在空间结构中。 且会投影破坏相邻RGB像素之间的空间关系,最终限制了多视点检测器的性能;投影单个视图结果(首足点)限制了要汇总的信息。 实际上,在这种设置下,除了单视图检测结果之外,系统无法访问任何提示。 由于在遮挡下单个视图的结果可能不准确(这是引入多个视图的原因),因此此设置也会限制整体性能。与其他选择相比,特征图不仅受空间结构破坏的影响较小(因为2D空间信息已经集中在特征图中的各个像素中),而且还包含更多信息。
3.2 空间聚合
通过透视转换和级联方式按通道汇聚信息后,剩余的问题是如何汇聚空间领域的信息。为了解决歧义,可以共同考虑某个地区和该地区的人群,以做出全面的明智决定。在这项工作中,我们提出了一种在地面特征图上具有大内核卷积的替代方案。我们将(N×C + 2)通道地平面特征图馈送到具有相对较大接收场的卷积层,以便共同考虑地平面领域。 在这里,我们使用三层膨胀卷积来获得最小的参数,同时仍保持较大的平面接收场。 最后一层在没有激活函数的情况下输出1个通道[Hg,Wg]的行人占用图。
3.3训练和测试——损失函数的定义及网络输出的处理。
4 实验
★ 数据集:介绍了两个数据集:
评估指标: 我们使用两个数据集中的前90%帧进行训练,并使用最后10%的帧进行测试。 我们报告精度,召回率,MODA和MODP。 MODP评估定位精度,而MODA则同时考虑了错误肯定和错误否等。 我们将MODA用作主要绩效指标,因为它同时考虑了错误肯定和错误否等。 0.5米的阈值用于确定真实的正值。
★ 实施细节:设置了实验中各个参数值的大小
★ 方法比较:设置了多组参照组进行比较实验。
★ 方法评价:
与之前的方法比较:在所有的方法中MVDet在除精度之外的检测指标上都是最优的,而Deep-Occlusion的精度稍高于MVDet。
通过比较DeepMCD 和MVDet (w/o large kernel)说明无锚点多视图融合的有效性。对比了三种投影方法。对比了大核卷积和CRF + mean-field inference解决空间聚合的性能。随着拥挤程度的上升,模型性能降低。
难点查阅(就是不懂的知识点):
CRF:【图像分割模型】以RNN形式做CRF后处理—CRFasRNN (qq.com)
生词汇:
occlusion 闭塞
ambiguty 歧义
aggregate (使)聚集
taint 污染
synchronize 同步
calibrate 校准
monocular-view detection 单眼检测