【论文笔记2019-03-28】Multi-View 3D Object Detection Network for Autonomous Driving

测试集：KITTI benchmark

本文只针对文章中提出的具体方法做梳理，实验结果等不在此贴出。

文章提出了一种感知融合的框架，这种框架利用激光雷达点云和RGB图像作为输入，并推测出三维的边界框。网络由两个子网络组成，一个是为了三维目标的生成，另一个用于多视角特征的融合。

网络框架

这一网络使用激光雷达的鸟瞰图和前向视角以及可见光图像作为网络输入。首先，通过鸟瞰图产生三维目标proposals，并将产生的结果投射到三个视角上。每个视角通过ROI池化来进行区域特征的组合。融合后的特征用来进行目标的类型预测和三维盒的回归。融合网络借鉴了 FractalNet 和 Deeply-Fused Net。

1. 三维点云表示(3D Point Cloud Representation)

现有的论文大多将三维激光雷达点云编码成三维网格或者前向视角图。因为三维网格表示保存了大部分的点云信息，后续的特征提取通常需要更为复杂计算。文章提出了一个更为简洁的表示方法，那就是将三维点云投射到鸟瞰图和前向视角。

鸟瞰图表示 鸟瞰图表示通过高度、强度和密度完成编码。投射的点云离散化为分辨率为0.1米的二维网格。对于每一个单元，单元内点云的最大高度视为其高度特征。为了编码更多的细节高度信息，点云被平均分为M个切片。每个切片都要进行高度图的计算，因此能够得到M个高度图。强度特征是每个单元内高度最大的点的反射值。点云密度反映每个单元内的点的个数。通过下式标准化特征，

$\min (1.0, \frac{\log(N+1)}{\log(64)})$ (1)

其中， $N$ 是单元内点的个数。强度和密度特征在计算时考虑整个点云，高度特征计算时对应M个切片，因此，整体的鸟瞰图被编码成 $(M+2)$ 个通道特征。

鸟瞰图具有三个优点：(1) 当投影到鸟瞰图时，物体保持物理尺寸，因此尺寸变化很小，而在前视图或图像平面中则不是这样。（2）鸟瞰图中的对象占用不同的空间，从而避免了遮挡问题。(3) 在道路场景中，由于对象通常位于地平面上，并且垂直位置的变化很小，因此鸟瞰位置对于获得准确的三维边界框更为关键。

前向表示 前向表示是为了鸟瞰图提供补充信息。因为激光雷达点云非常稀疏，将它投影到图片平面上将会得到稀疏的二维点图。相反，我们将其投影到圆柱平面上，将会得到密集的前向视角图。对于三维点 $p=(x,y,z)$ 来说，它在前向视角中的坐标 $p_{fv}=(r,c)$ 可以通过下式计算，

$c=[atan2(y,x)/ \Delta\theta], r=[atan2(z,\sqrt {x^2+y^2})/\Delta \phi]$ (2)

其中， $\Delta \theta$ 和 $\Delta \phi$ 是激光波束的水平和竖直分辨率。前向视角图的特征被编码成高度、距离和强度三个通道的特征，如下图所示。

MV3D网络的输入特征

2. 三维Proposal网络

借鉴 Region Proposal Network(RPN)这一在二维目标识别领域表现非凡的检测手段，文章设计了能够产生三维目标Proposals的网络。

给出鸟瞰图，网络从一系列三维初始框中产生三维框。每个候选框的参数有 $(x,y,z,l,w,h)$ ,分别代表在激光雷达坐标系中，三位框的中心和尺寸。对于每一个三维初始框，对应的鸟瞰框 $(x_{bv},y_{bv},l_{bv},\omega_{bv})$ 可以通过 $（x,y,l,w）$ 的离散化得到。我们依据训练集中目标的真实尺寸，设计N个三维初始框。以汽车检测为例，初始框的 $（l,w）$ 取值为 $\{ (3.9,1.6),(1.0,0.6) \}$ ,高度设置在1.56m。通过旋转鸟瞰框90度，可以获得四个初始框，即 $N=4$ 。 $(x,y)$ 是鸟瞰特征图中的变化位置。 $z$ 可以通过摄像头和目标的高度计算得到。我们不在待选框生成的过程中进行定向回归，而将其留给下一个预测阶段。三维框的定向被限制在 $(0^。,90^。)$ ，这对于大多数公路上的目标来说都成立，也使得后续的回归训练更加简单。

由于之前的离散分辨率设置在0.1米，目标框在鸟瞰视角只占5到40个像素。对于深度网络来说，探测这样的极小的目标仍然很困难。我们使用如《A uniﬁed multi-scale deep convolutional neural network for fast object detection》中的特征图上采样方法，在所提网络的最后一层使用了2x的双线性插值方法。在文章的实现中，从开始到结束的卷积操作中只使用了三次池化操作，比如，8x的下采样。因此，结合2x反卷积，输入网络的特征图相对于鸟瞰视角输入是进行了4x下采样的结果。

文章使用回归 $\boldsymbol{t}=(\Delta x,\Delta y,\Delta z,\Delta l,\Delta w,\Delta h)$ 三维框回归。 $(\Delta x,\Delta y,\Delta z)$ 是归一化的中心偏差， $(\Delta l,\Delta w,\Delta h)$ 通过下式计算：

$\Delta s=\log \frac {s_{GT}}{s_{anchor}}, s \in \{ l,w,h \}$ (3)

使用多任务损失函数区分背景和目标，并作三维框的回归。使用类别熵作为“目标”损失函数，平滑 $l_1$ 作为三维框的回归损失。

3. 区域融合网络

多视角ROI池化 因为不同视角或者模态的特征通常具有不同的分辨率，文章使用ROI池化来获得相同长度的特征向量。产生的三维待选框在三维空间内可以投影到任何一个视角。本文将其投射到三个视角，鸟瞰视角 $BV$ 、前向视角 $FV$ 和图像平面视角 $RGB$ 。已知三维待选框 $p_{3D}$ ，可以通过下式获得每个ROI：

$ROI_v=T_{3D \to v}(p_{3D}),v \in \{ BV,FV,RGB \}$ (4)

其中， $T_{3D \to v}$ 代表从激光雷达坐标系变换到 $BV,FV,RGB$ 的变换函数。已知每个视角的前端网络的输入特征图 $x$ ，通过ROI池化可以获得定长特征 $f_v$ 。

$f_v= R(x, ROI_v),v \in \{ BV,FV,RGB \}$ (5)

深度融合 下图给出了深度融合和early融合、late融合的比较

深度融合和early融合、late融合的比较

对于L层网络：

early融合： $f_L=H_L(H_{L-1}(…H_1(f_{BV}\oplus f_{FV} \oplus f_{RGB})))$

late融合： $f_L=(H_L^{BV}(…H_1^{BV}(f_{BV}))) \oplus \\ (H_L^{FV}(…H_1^{FV}(f_{FV}))) \oplus \\ (H_L^{RGB}(…H_1^{RGB}(f_{RGB})))$

深度融合： $f_0=f_{BV} \oplus f_{FV} \oplus f_{RGB} \\ f_l=H_l^{BV}(f_{l-1}) \oplus H_l^{FV}(f_{l-1}) \oplus H_l^{RGB}(f_{l-1}), \forall l =1,…,L$

三维框的定向回归（确定三维框的朝向）已知多视角网络的融合特征，使用回归的方法确定待选框的朝向。回归的目标是具有八个角的三维框，即 $t=(\Delta x_0,…,\Delta x_7,\Delta y_0,…,\Delta y_7,\Delta z_0,…,\Delta z_7)$ 。他们通过待选框的对角线实现每个角位置的偏移量的归一化。尽管使用24维的向量表示有方向的三维框是冗余的，但是这种编码形式比中心以及尺寸的表现形式更加优秀。

网络规范化 我们采用两种方法来规范基于区域的融合网络：drop-path training和辅助损耗。对于每个迭代，我们随机选择全局drop-path training或局部drop-path training，概率为50%。如果选择全局drop-path，我们将从三个概率相等的视图中选择一个视图。如果选择局部drop-path，则以50%的概率随机删除输入到每个连接节点的路径。并保证每个连接节点上至少有一个输入路径。为了进一步增强每个视图的表示能力，我们在网络中添加了辅助路径和损耗。如下图所示，辅助路径与主网络具有相同的层数。辅助路径中的每个层与主网络中的相应层共享权重。我们使用相同的多任务损失，即分类损失加上三维盒回归损失，来反向传播每个辅助路径。我们对包括辅助损失在内的所有损失进行平均加权。在推理过程中会删除辅助路径。

区域融合网络的训练策略