【论文笔记2019-03-28】Multi-View 3D Object Detection Network for Autonomous Driving

        测试集:KITTI benchmark

        本文只针对文章中提出的具体方法做梳理,实验结果等不在此贴出。

        文章提出了一种感知融合的框架,这种框架利用激光雷达点云和RGB图像作为输入,并推测出三维的边界框。网络由两个子网络组成,一个是为了三维目标的生成,另一个用于多视角特征的融合。

网络框架

        这一网络使用激光雷达的鸟瞰图和前向视角以及可见光图像作为网络输入。首先,通过鸟瞰图产生三维目标proposals,并将产生的结果投射到三个视角上。每个视角通过ROI池化来进行区域特征的组合。融合后的特征用来进行目标的类型预测和三维盒的回归。融合网络借鉴了 FractalNet 和 Deeply-Fused Net。

        1. 三维点云表示(3D Point Cloud Representation)

        现有的论文大多将三维激光雷达点云编码成三维网格或者前向视角图。因为三维网格表示保存了大部分的点云信息,后续的特征提取通常需要更为复杂计算。文章提出了一个更为简洁的表示方法,那就是将三维点云投射到鸟瞰图和前向视角。

        鸟瞰图表示    鸟瞰图表示通过高度、强度和密度完成编码。投射的点云离散化为分辨率为0.1米的二维网格。对于每一个单元,单元内点云的最大高度视为其高度特征。为了编码更多的细节高度信息,点云被平均分为M个切片。每个切片都要进行高度图的计算,因此能够得到M个高度图。强度特征是每个单元内高度最大的点的反射值。点云密度反映每个单元内的点的个数。通过下式标准化特征,

                                                                        \min (1.0, \frac{\log(N+1)}{\log(64)})        (1)

其中,N是单元内点的个数。强度和密度特征在计算时考虑整个点云,高度特征计算时对应M个切片,因此,整体的鸟瞰图被编码成(M+2)个通道特征。

        鸟瞰图具有三个优点:(1) 当投影到鸟瞰图时,物体保持物理尺寸,因此尺寸变化很小,而在前视图或图像平面中则不是这样。(2)鸟瞰图中的对象占用不同的空间,从而避免了遮挡问题。(3) 在道路场景中,由于对象通常位于地平面上,并且垂直位置的变化很小,因此鸟瞰位置对于获得准确的三维边界框更为关键。

        前向表示    前向表示是为了鸟瞰图提供补充信息。因为激光雷达点云非常稀疏,将它投影到图片平面上将会得到稀疏的二维点图。相反,我们将其投影到圆柱平面上,将会得到密集的前向视角图。对于三维点p=(x,y,z)来说,它在前向视角中的坐标p_{fv}=(r,c)可以通过下式计算,

                    c=[atan2(y,x)/ \Delta\theta], r=[atan2(z,\sqrt {x^2+y^2})/\Delta \phi]    (2)

其中,\Delta \theta\Delta \phi是激光波束的水平和竖直分辨率。前向视角图的特征被编码成高度、距离和强度三个通道的特征,如下图所示。

MV3D网络的输入特征

        2. 三维Proposal网络

        借鉴 Region Proposal Network(RPN)这一在二维目标识别领域表现非凡的检测手段,文章设计了能够产生三维目标Proposals的网络。

        给出鸟瞰图,网络从一系列三维初始框中产生三维框。每个候选框的参数有(x,y,z,l,w,h),分别代表在激光雷达坐标系中,三位框的中心和尺寸。对于每一个三维初始框,对应的鸟瞰框(x_{bv},y_{bv},l_{bv},\omega_{bv})可以通过(x,y,l,w)的离散化得到。我们依据训练集中目标的真实尺寸,设计N个三维初始框。以汽车检测为例,初始框的(l,w)取值为\{ (3.9,1.6),(1.0,0.6) \},高度设置在1.56m。通过旋转鸟瞰框90度,可以获得四个初始框,即N=4(x,y)是鸟瞰特征图中的变化位置。z可以通过摄像头和目标的高度计算得到。我们不在待选框生成的过程中进行定向回归,而将其留给下一个预测阶段。三维框的定向被限制在(0^。,90^。),这对于大多数公路上的目标来说都成立,也使得后续的回归训练更加简单。

        由于之前的离散分辨率设置在0.1米,目标框在鸟瞰视角只占5到40个像素。对于深度网络来说,探测这样的极小的目标仍然很困难。我们使用如《A unified multi-scale deep convolutional neural network for fast object detection》中的特征图上采样方法,在所提网络的最后一层使用了2x的双线性插值方法。在文章的实现中,从开始到结束的卷积操作中只使用了三次池化操作,比如,8x的下采样。因此,结合2x反卷积,输入网络的特征图相对于鸟瞰视角输入是进行了4x下采样的结果。

        文章使用回归\boldsymbol{t}=(\Delta x,\Delta y,\Delta z,\Delta l,\Delta w,\Delta h)三维框回归。(\Delta x,\Delta y,\Delta z)是归一化的中心偏差,(\Delta l,\Delta w,\Delta h)通过下式计算:

                                                              \Delta s=\log \frac {s_{GT}}{s_{anchor}}, s \in \{ l,w,h \}        (3)

        使用多任务损失函数区分背景和目标,并作三维框的回归。使用类别熵作为“目标”损失函数,平滑l_1作为三维框的回归损失。

        3. 区域融合网络

        多视角ROI池化 因为不同视角或者模态的特征通常具有不同的分辨率,文章使用ROI池化来获得相同长度的特征向量。产生的三维待选框在三维空间内可以投影到任何一个视角。本文将其投射到三个视角,鸟瞰视角BV、前向视角FV和图像平面视角RGB。已知三维待选框p_{3D},可以通过下式获得每个ROI:

                                                  ROI_v=T_{3D \to v}(p_{3D}),v \in \{ BV,FV,RGB \}    (4)

其中,T_{3D \to v}代表从激光雷达坐标系变换到BV,FV,RGB的变换函数。已知每个视角的前端网络的输入特征图x,通过ROI池化可以获得定长特征f_v

                                                      f_v= R(x, ROI_v),v \in \{ BV,FV,RGB \}        (5)

      深度融合 下图给出了深度融合和early融合、late融合的比较

深度融合和early融合、late融合的比较

        对于L层网络:

        early融合:                                                        f_L=H_L(H_{L-1}(…H_1(f_{BV}\oplus f_{FV} \oplus f_{RGB})))

        late融合:  f_L=(H_L^{BV}(…H_1^{BV}(f_{BV}))) \oplus \\ (H_L^{FV}(…H_1^{FV}(f_{FV}))) \oplus \\ (H_L^{RGB}(…H_1^{RGB}(f_{RGB})))

        深度融合:                                                              f_0=f_{BV} \oplus f_{FV} \oplus f_{RGB} \\   f_l=H_l^{BV}(f_{l-1}) \oplus H_l^{FV}(f_{l-1}) \oplus H_l^{RGB}(f_{l-1}), \forall l =1,…,L           

        三维框的定向回归(确定三维框的朝向) 已知多视角网络的融合特征,使用回归的方法确定待选框的朝向。回归的目标是具有八个角的三维框,即t=(\Delta x_0,…,\Delta x_7,\Delta y_0,…,\Delta y_7,\Delta z_0,…,\Delta z_7)。他们通过待选框的对角线实现每个角位置的偏移量的归一化。尽管使用24维的向量表示有方向的三维框是冗余的,但是这种编码形式比中心以及尺寸的表现形式更加优秀。

        网络规范化    我们采用两种方法来规范基于区域的融合网络:drop-path training和辅助损耗。对于每个迭代,我们随机选择全局drop-path training或局部drop-path training,概率为50%。如果选择全局drop-path,我们将从三个概率相等的视图中选择一个视图。如果选择局部drop-path,则以50%的概率随机删除输入到每个连接节点的路径。并保证每个连接节点上至少有一个输入路径。为了进一步增强每个视图的表示能力,我们在网络中添加了辅助路径和损耗。如下图所示,辅助路径与主网络具有相同的层数。辅助路径中的每个层与主网络中的相应层共享权重。我们使用相同的多任务损失,即分类损失加上三维盒回归损失,来反向传播每个辅助路径。我们对包括辅助损失在内的所有损失进行平均加权。在推理过程中会删除辅助路径。

区域融合网络的训练策略
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335