检测论文综述（三）：SSD

1. 前言

这两天公司进行了一次拓展活动，个人本身并不是特别喜欢集体活动，但是活动本身还蛮有趣。
关于深度学习，由于最近读了很多经典论文，也有一点感想。其实我们可以将神经网络看做一个函数拟合器，那么不同方向的应用就可以看做一种特征工程，分类问题，我们可以用表示类别的特征，检测问题，我们可以用框和类别。那么，对于这些特征的设计，就会决定网络的性能和应用方向。

2. SSD: Single Shot MultiBox Detector

在论文中，作者认为贡献如下：

提出了SSD： $single-shot detector$ ，用于多类别的目标检测
在feature maps上使用小的filters来进行类别预测和框的偏置
通过不同scale的feature map，来预测不同scale的物体
end-to-end

模型结构如下图：

SSD

2.1 模型

model

SSD利用了不同尺度的特征，从上图模型结构中可以看到，从不同深度的卷积层中提取特征用于预测。因为卷积层的感受野会不断增大。
每一个卷积层都可以预测一组特征，例如对于一个 $m * n$ ，拥有 $p$ 个通道的特征层，我们可以使用一个 $3*3*p$ 的卷积核，来或者产生类别得分，或者相对于默认框的偏置。
作者在用于预测的每一个特征层，都设定了一组默认框。对于特征层每一个输出都会根据 $k$ 个默认框，预测 $4$ 个偏置值， $c$ 个类别的得分。如图1

2.2 训练

匹配策略：在训练的时候，需要选择出用于预测框和类别的那个默认框，这样在反向传播的时候设置该默认框的target为对应的ground truth。作者的策略是：jaccard overlap，当框和ground truth的该值大于一个阈值时，就让对应的默认框负责预测。对于某个物体，得到的匹配的默认框可能不是一个。
作者将 $loss$ 分为：定位loss(localization loss)，分类loss(confidence loss)。如下；

loss

$N$ 是匹配的默认框的个数， $L{los}$ 定位loss是groundtruth和预测的框 $l$ 的 $L1$ loss。具体如下：

loc loss

分类的loss是softmax，如下：

co loss

3. Single-Shot Refinement Neural Network for Object Detection

在论文中作者认为二阶段（如RCNN系列，需要先进行候选框的选择，再进行分类和框的精修）的检测效果，精度比一阶段（如YOLO，SSD，一次输出类别得分和框）的好的原因：

类别不平衡问题小
对框进行回归
分别使用两个阶段的特征进行预测（作为物体的描述）

为了提高一阶段模型的精度，作者使用了两个交叉连接的模块：anchor refinement module(ARM)和objection detection module(ODM)。如下图：

RefineDet

其中，ARM用于：

辨别并去除negative anchor来减少search space。
更加细致地调整anchor的位置和大小
ODM将refined anchor作为输入来进一步提高回归和分类效果。作者还设计了transfer connection block(TCB)，来实现ARM的特征，到ODM的预测位置，大小，类别的转换。

3.1 网络结构

类似于SSD，RefineDet使用了前向神经网络来同时预测框和类别得分，最终进行非极大值抑制得到最终结果。
ARM：使用VGG或者ResNet作为基础网络，去掉分类层，另外增加一些辅助结构。
ODM：由TCB的输出组成，来产生一组类别的得分和相对于refined anchor框的偏置。
RefineDet的核心：

TCB：将ARM的特征转换到ODM中用于检测
两个级联的回归，提高位置和大小精度
过滤掉了negative anchor

Transfer Connection Block：如下图：

TCB

TCB用于将ARM的不同层转换为ODM需要的格式，这样使得ODM可以和ARM共享参数。TCB的另一个作用是通过增加一层特征，来整合large-scale context。为了匹配格式，作者使用deconv，来增大特征，并element-wise sum。
Two-Step Cascaded Regression：之前的一阶段的检测，都是使用多尺度的卷积特征来预测物体的位置和大小，这种方式在某些难度较大的问题中，精度较低，尤其是小物体。因此，作者设计两部级联的回归方法来对位置和大小进行回归预测。首先，使用ARM来调整anchors的位置和大小，来为ODM提供一个更好的初始化。在每一个feature map的cell上指定

n

个框，每个框的位置都是固定的，之后预测四个偏置值，和两个代表物体存在的得分值，这样每个cell可以得到

n

个预测结果。
在得到这些预测结果后，就会传递给ODM来进一步预测类别和框。对于每个框，产生

c

个类别和

4

个框的偏置值。
Negative Anchor Filtering：在训练阶段，对于一个refined anchor box，如果它的negative confidence大于一个预设的阈值，那么就会丢弃在训练ODM的时候丢弃这些box。
loss：如下：

loss

optimization：SGD, momentum=0.9, weight decay=0.0005, learning rate=0.001, batch size=32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 224,242评论 6赞 522
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 95,953评论 3赞 402
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 171,299评论 0赞 366
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 60,709评论 1赞 300
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 69,723评论 6赞 399
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,236评论 1赞 314
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 41,629评论 3赞 428
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 40,594评论 0赞 279
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 47,135评论 1赞 324
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,156评论 3赞 345
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,285评论 1赞 354
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,914评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 42,600评论 3赞 336
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 33,073评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,203评论 1赞 275
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 49,798评论 3赞 381
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,339评论 2赞 365