DSOD检测算法系列

参考转自:
https://blog.csdn.net/sinat_37532065/article/details/86655088
https://blog.csdn.net/weixin_41278720/article/details/83050824

一、DSOD

论文:DSOD: Learning Deeply Supervised Object Detectors from Scratch ICCV2017
github:https://github.com/szq0214/DSOD

1.简介

由于深度学习需要大量的训练数据,而针对特定任务需求的训练样本往往是有限的,通常情况下,目标检测算法会先使用在海量数据(如ImageNet数据集)上训练好的分类模型对需要训练的网络参数进行初始化(pre-train预训练),然后使用训练样本对网络参数进行微调(fine-tune)。

这样采用预训练模型+fine-tune的好处是:
(1)可以将许多优秀的开源模型直接用于检测;
(2)训练数据相对较少,可以快速获取最终模型;

同时也存在以下几点问题:
(1)基于ImageNet数据集的预训练分类模型,网络结构复杂,参数量大,其特定的网络结构也限制了目标检测模型的设计空间,难以对模型的结构进行灵活地调整;
(2)分类任务和检测任务的损失函数和类别分别不同,两者的搜索/优化空间是不一样的,在分类任务上生成的预训练模型在检测任务上得到的结果是局部最优的,而非全局最优的;
(3)fine-tune能够减少不同目标类别分布的差异性,但是对于和ImageNet数据集差异较大的图片(如深度图、医学图像)效果不佳;

因此,这篇文章提出了一种无需预训练,直接基于训练样本从零开始训练目标检测模型的方法。

本文的贡献:
(1)提出DSOD算法,能够从零开始训练检测网络,且效果可以与目前性能最好的模型相媲美;
(2)提出并验证了一系列方法从零开始高效训练网络;

2.网络结构

1)总体框架

DSOD的网络分为两个部分: 提取特征的backbone网络和预测结果的前端网络。backbone网络是深度监督网络DenseNets的变形,由stem block、四个dense blocks、两个2个transition layers和2个transition w/o pooling layers组成。预测网络同样使用dense结构融合多尺度特征进行预测。图1展示了DSOD的预测网络,表1展示了整个网络结构细节。

图1

表1

每个网络部分和设计原则如下:

  • Proposal-free

目前目标检测算法分为三类:①需要借助类似selective search的方法生成目标候选区域,如R-CNN和Fast R-CNN;②通过RPN网络生成相对较少的候选区域,如Faster R-CNN和R-FCN;③不需要生成候选区域,直接回归目标位置和bbox坐标的单步网络,如YOLO和SSD。事实上,只有one-stage网络能够在没有预训练模型的情况下成功收敛。论文猜测前两种算法的RoI池化部分,池化生成特征是针对每个候选区域的,这阻碍了梯度region level反向传播到卷积层。基于候选区域的算法在有预训练模型的情况下表现很好,因为RoI池化之前的层得到了很好的初始化,但是并不适应于从零开始训练。
因此,本文设计的第一个原则就是:采用不需要候选区域的算法从零训练检测网络。

  • Deep Supervision

深度监督的效力已经在许多网络中得以证明,核心思想是将损失函数直接作用在位置较前的隐藏层上,而不是只作用在输出层上,从而使梯度信号能传递到靠近输入层的神经元,以缓解梯度消失的问题。但是对于目标检测任务,还需要引入作用在每个隐藏层的companion 损失。因此本文使用了深度监督的方法,即DenseNet提出的dense layer-wise connection。

基本结构为dense block,所谓dense block,就是每一个层都与其前面所有的层连接,因此在使用单一的损失函数时,前面的层也可以接收到目标函数的监督信号。

此外,论文还引入了transition w/o pooling layer,其目的是在使用更多dense block的同时,仍然能保持特征映射图最终的分辨率。在原DenseNets算法中,每一个transition layer都包含一次池化操作,这会降低特征图的分辨率,因此要想保持网络输出的尺寸不变,则dense block的数量必须是固定的(DenseNet是4个dense block)。要构造更深的网络,只能考虑在block内部添加层,而transition w/o pooling layer只使用了1*1的卷积,而没有进行池化操作,故其不会降低特征映射图的分辨率,所以论文使用了transition w/o pooling layer来消除网络结构对dense block数量的限制。

  • Stem Block

受Inception-v3和v4的启发,论文构建stem block时使用的是三个层叠的33卷积层和一个22的最大值池化层,第一个卷积层后设置步长为2的池化层,后两个卷积层后设置步长为1的池化层。这样做的原因是,论文发现与DenseNets原有的结构(77的卷积层和33的最大值池化层)相比,这样的设计可以减少输入图像中的信息丢失,从而训练出更加鲁棒的检测器。

  • Dense Prediction Structure

图1对比了SSD的plain structure和本文提出的前端网络的Dense structure。SSD在设计预测层为沙漏结构,对于300x300的输入来说,使用6个不同尺度的特征图进行预测。其中分辨率最大(38x38)的特征图取自backbone 网络的中间层,能够检测小目标对象,剩下的五个特征图取自backbone的高层输出。每两个不同尺度的特征图之间使用的是具有bottleneck结构的plain transition layer。

在SSD的plain structure中,每一层特征是由其上一层特征直接转换而来,dense structure的每一层都结合了多个不同尺度层的信息,其结构如右图所示。简单来说,论文规定对于所有的预测层来说,输出具有相同的通道数。除第一个分辨率最大的特征层外,其它五个不同尺度特征层的输入有一半是前面的层经卷积的结果,而另一半的输入则直接由相邻前一层下采样得到,这样每一层便包含了其先前具有不同分辨率的所有层信息。下采样的具体实现过程是先做步长为2的池化操作,使得特征图尺寸一致以便做连接,然后使用1*1的卷积减少50%的输出channel,从而保证特征图数量的匹配。池化操作先于卷积操作是为了减少计算的成本。

对于每个尺寸特征图,一半的特征来是前面的特征经过一系列卷积得到,一半是相邻高分辨率特征下采样得到。

二、Tiny-DSOD

论文:Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages
github:https://github.com/lyxok1/Tiny-DSOD

Tiny-DSOD是为了能在移动端等设备上部署DSOD模型,所做的改进版,轻量高效,达到了同等开销下的state-of-the-arts。

本文的贡献:
(1)结合DenseNet和深度可分离卷积,提出了Depthwise dense block (DDB) ;
(2)为了融合前面层的不同大小特征图的语义信息,提出了轻量级的D-FPN;
(3)结合提出的Depthwise dense block (DDB)和D-FPN,提出Tiny-DSOD算法。

1. 基于DDB的主干网络

基于DSOD中提出的思想,本文构建了DenseNet型骨干网络,其中主要是对原版DenseNet中的dense block做了改进,引入了depthwise卷积,提出了DDB。

首先对于MobileNet-V2中带有残差连接的block结构,需要注意残差连接支路和特征提取支路最后是Add在一起的:

图2

基于MobileNet-V2,提出第一种DDB,DDB-a模块,如图3,其结构与MobileNet-V2大致相同,只是最后将Add操作替换成了拼接操作,如下图所示。DDB-a有两个缺点:(1)复杂度高O(L^3g^2),这限制了连续堆叠的个数,如果堆叠的多了增长率就必须设置的很小;(2)连续堆叠时,两个block之间存在连续的1x1卷积,这会产生大量潜在的冗余参数

图3

DDB-b模块。考虑上述因素,提出第二种DDB,如图4所示。首先通过1x1卷积将通道数压缩到增长率g个,然后通过3x3 depthwise卷积抽取特征,最后直接与block的输入进行拼接。复杂度为O(L^2g^2),比DDB-a小。后续实验还证明DDB-b比DDB-a更有效,所以Tiny-DSOD最终选择DDB-b作为baseline。

图4

完整backbone网络结构如表2所示,Stem部分每个卷积层后面都加了BN层和ReLU激活,Extractor部分一共有4个dense stage。每个dense stage中包含若干个DDB-b块,相邻的dense stage直接通过transition layer连接,transition layer通过1x1卷积融合不同通道间的信息,同时压缩通道数(非w/o的transition layer还可以缩放尺度)。增长率设计方面,随着stage加深,增长率g也逐渐变大,这有助于降低计算开销。后续实验表明,在模型大小相当的情况下,设置均匀的增长率更有助于提高模型精度。

表2

2. 基于D-FPN的前端网络

在SSD和DSOD中,虽然预测阶段使用了Multi-scale的信息,但是在预测层的前几层,还是只用了最大的scale的信息(只有浅层特征),缺乏语义级别的信息。为了克服这个弱点,作者借鉴了FPN的思想,将高层特征与低层特征融合然后再去预测,并且同样借助depthwise卷积改善效率,如图5。

图5

前端网络主要由正向路径和反向路径组成,正向路径进行1/2下采样,反向路径进行2x上采样。

下采样操作,通过一个双分支结构进行,并且3x3卷积采用了depthwise卷积,两路分支通过拼接操作结合。

在传统FPN中,通过deconvolution来进行上采样,复杂度较高。为了避免该问题,作者设计了一个新的上采样操作,首先通过双线性插值恢复大小,然后通过3x3 depthwise卷积抽取特征,如图6。

一句话概括为,每个通道输出的特征等于与其对应的输入通道通过双线性插值(求和符号里面的内容)以后再与对应的depthwise卷积核卷积(Wc)得到 **。
图6

其数学形式为:
F_c(x,y)=W_c *\sum_{(m,n)\epsilon \Omega}U_c(m,n)\tau(m, sx)\tau(n,sy)

最后,将两条路径对应大小的feature map逐元素相加。实验表明,在略微增加计算成本的情况下,D-FPN的引入可以得到相当大的精度提升。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容