Multiview Detection with Feature Perspective Transformation

具有特征透视变换的多视图检测

摘要：合并用于检测的多个摄像机视图可减轻拥挤场景中遮挡的影响。在多视图系统中，当处理遮挡引起的歧义时，我们需要回答两个重要的问题。首先，我们应该如何汇总来自多个视图的线索？其次，我们应该如何汇总被遮挡干扰的不可靠的2D和3D空间信息？为了解决这些问题，我们提出了一种新颖的多视图检测系统MVDet。对于多视图聚合，现有方法结合了图像平面上的锚框特征，由于锚框形状和大小不精确，这可能会限制性能。相反，我们采用无锚方法通将特征图投影到地面上来聚合多视图信息
（鸟瞰图）。为了解决任何剩余的空间歧义，我们在地面特征图上应用了较大的核卷积，并从检测峰中推断出位置。我们的整个模型都是端到端可学习的，并且在标准Wildtrack数据集上达到了88.2％的MODA，比最新技术高出14.1％。我们还在新引入的合成数据集MultiviewX上提供了MVDet的详细分析，这使我们能够控制遮挡的水平。

Introduction:
提出所研究问题是如何解决在视觉检测中的occlusion问题，而本文的方法是通过多个RGB试图来进行行人的检测识别。
多视图行人识别通常有来自多个相机的多个图片作为输入，这些相机聚焦于同样的区域，因此在视野中有相应的重叠区。相机校准会提供三维于二维之间的匹配，将三维试图中的z坐标轴设为0即为年鸟瞰图中的二维坐标。而根据3维人体高度和宽度的假设，每一个点在多视图中所对应的边框可以通过计算投影后存储。因为每个点的边框可以通过查表获得，因此多视图行人检测任务通常要估算行人在鸟瞰图中的占比。
在多视图行人检测中如何解决遮挡和拥挤引发的歧义问题是一项重大挑战。遮挡所引起的问题是如何判断一个人是否存在于某一特定地点，如何判断有多少人存在，如何判断他们的位置。这个问题的解决着手于两个方面：多视图融合和空间聚集。此前，对于一个给定的地面位置，多视图系统选择一个基于锚点的视图融合方法并且用多视图锚框功能来代表特定的点，但单视图锚框的不精确性限制了这种系统的功能。尽管多视图系统是基于3维人体高度和宽度进行计算的，但仍然是不够精确的。而对于空间聚集，之前的方法是采用CRF（条件随机场）或平均场推断来共同考虑空间领域，而这些方法要求推断过程中在CRF中设计特定的潜在术语或在CNN前向传递之外进行其他操作。
提出本文的方法MVDet：对于视图融合，选择了无锚点方法。MVDet通过透视变换投影卷积特征图，并将多个投影特征图连接在一起；对于空间聚集，采用了完全卷积的方法来减少在CNN外的人的设计和操作。它在汇总的地平面特征图上应用（学习）卷积，并使用较大的接收场共同考虑地平面的相邻位置。可以以端到端的方式训练提出的全卷积MVDet。
在Wildtrack数据集上，模型精确度达到 88.2%，提高了 14.1%。

2 Related Work：
单眼视图检测：基于R-CNN的神经网络在计算机视觉的检测问题中表现出了优良的性能。对于行人检测问题，一些研究者通过头-较点检测和中心比例检测来判定行人边界框。在遮挡问题中基于部分的探测器很受欢迎。Hosang等人探究了被遮挡行人的非最大抑制，提出了排斥力损失来排斥边界框。
具有多个信息源的3D对象理解：介绍了将多个信息源汇合以检测3维物体的方法。最为常用的方法是从RGB图像和激光雷达点云中汇集信息。
多视图行人检测：首先是多个RGB视图的融合，研究人员融合了用于多视图2D锚点的多个信息源，人体的高宽都假设为固定值，提前计算好地平面上所有位置（锚点）及其对应的多视图2D边界框，并将其存储在查找表中。研究人员可以通过该表来计算平面锚点的特征。其次，使用平均场推断和CRF来汇聚空间领域信息，对于平均场推断[7,1]，首先估算在特定占用率下的理想2D图像，然后将其与实际的多视图输入进行比较。在[7,1]中，方案中的整体占用率被转换为能量最小化问题，并使用CRF进行了求解。Baque等人 [1]构建高阶电势来评估CNN估计结果与生成的理想图像之间的一致性，并以组合方式训练带有CNN的CRF。他们的CNN-CRF组合方法在Wildtrack数据集上获得了最先进的性能[3]。
深度学习中的几何变换：仿射变换和透视变换之类的几何变换可以对计算机视觉中的许多现象建模，并且可以使用一组固定的参数来显式计算。 Jaderberg等人 [14]提出了一种空间变压器网络，该网络学习仿射变换参数以在2D RGB输入图像上进行平移和旋转。 Wu等人 [37]估计投影参数并从3D骨架投影2D关键点。严等人 [39]通过透视变换将一个3D体积转换为2D轮廓。通过估计实例级仿射变换在[35]中研究了几何感知场景文本检测。对于跨视图图像检索，Shi等人 [28]应用极坐标变换使特征空间中的表示更加接近。

3 Methodology：
提出本文的工作：用MVDet解决拥挤场景下基于多视图的行人检测。对于视图融合，选择了无锚点方法来解决锚框不精确的问题；对于空间聚集，采用了完全卷积的方法（没有依赖于平均场推断和CRF).MVDet将多个RGB图片作为输入，输出行人占用估计图。
3.1多视图融合：
★ 特征图提取：使用 ResNet-18来对输入的图片提取特征图，为了得到较高的空间分辨率，将最后三层换为了膨胀卷积。将得到的特征图resize,再利用一个共享权重单视图检测器将行人检测为一组首-足点。
★ 无锚融合：对于之前的基于锚框的检测，基于假定的人体高度和宽度为地面上的点创建一个锚框，并可以为其对应投影多视图2D锚框创建查找表。可以使用ROI-pooling操作表示边界框特征，并通过级联聚合以表示相应的地平面位置。但其缺点是锚框的不确定性会影响性能。相反，由于没有锚点，因此所提出的特征图投影方法不会出现锚点框不正确的情况。并且即使投影方法不合并来自锚框的特征来表示2D区域，特征图中的每个像素也会从其接受域中的自适应区域提取信息。结果，通过无锚点特征透视变换构建的地平面特征图更加准确，并且仍然包含来自2D图像的足够信息以进行检测。
★ 透视转变：通过数学关系得出采样网格，通过网格将特征图投影到地平面上，非视野区用0填充。再将所得到的投影特征图与2通道的坐标特征图联合，从而得到一个（N*C+2）通道的特征图。
★ 不同投影的选择：RGB像素本身仅包含相对较少的信息，许多信息保留在空间结构中。且会投影破坏相邻RGB像素之间的空间关系，最终限制了多视点检测器的性能；投影单个视图结果（首足点）限制了要汇总的信息。实际上，在这种设置下，除了单视图检测结果之外，系统无法访问任何提示。由于在遮挡下单个视图的结果可能不准确（这是引入多个视图的原因），因此此设置也会限制整体性能。与其他选择相比，特征图不仅受空间结构破坏的影响较小（因为2D空间信息已经集中在特征图中的各个像素中），而且还包含更多信息。
3.2 空间聚合
通过透视转换和级联方式按通道汇聚信息后，剩余的问题是如何汇聚空间领域的信息。为了解决歧义，可以共同考虑某个地区和该地区的人群，以做出全面的明智决定。在这项工作中，我们提出了一种在地面特征图上具有大内核卷积的替代方案。我们将（N×C + 2）通道地平面特征图馈送到具有相对较大接收场的卷积层，以便共同考虑地平面领域。在这里，我们使用三层膨胀卷积来获得最小的参数，同时仍保持较大的平面接收场。最后一层在没有激活函数的情况下输出1个通道[Hg，Wg]的行人占用图。
3.3训练和测试——损失函数的定义及网络输出的处理。

4 实验
★ 数据集：介绍了两个数据集：

捕获.PNG

评估指标：我们使用两个数据集中的前90％帧进行训练，并使用最后10％的帧进行测试。我们报告精度，召回率，MODA和MODP。 MODP评估定位精度，而MODA则同时考虑了错误肯定和错误否等。我们将MODA用作主要绩效指标，因为它同时考虑了错误肯定和错误否等。 0.5米的阈值用于确定真实的正值。
★ 实施细节：设置了实验中各个参数值的大小
★ 方法比较：设置了多组参照组进行比较实验。
★ 方法评价：
与之前的方法比较：在所有的方法中MVDet在除精度之外的检测指标上都是最优的，而Deep-Occlusion的精度稍高于MVDet。
通过比较DeepMCD 和MVDet (w/o large kernel)说明无锚点多视图融合的有效性。对比了三种投影方法。对比了大核卷积和CRF + mean-field inference解决空间聚合的性能。随着拥挤程度的上升，模型性能降低。

难点查阅（就是不懂的知识点）：
CRF：【图像分割模型】以RNN形式做CRF后处理—CRFasRNN (qq.com)

生词汇：
occlusion 闭塞
ambiguty 歧义
aggregate (使)聚集
taint 污染
synchronize 同步
calibrate 校准
monocular-view detection 单眼检测

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,922评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,591评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,546评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,467评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,553评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,580评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,588评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,334评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,780评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,092评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,270评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,925评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,573评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,194评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,437评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,154评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,127评论 2赞 352

Multiview Detection with Feature Perspective Transformation

推荐阅读更多精彩内容