检测论文综述(三):SSD

1. 前言

这两天公司进行了一次拓展活动,个人本身并不是特别喜欢集体活动,但是活动本身还蛮有趣。
关于深度学习,由于最近读了很多经典论文,也有一点感想。其实我们可以将神经网络看做一个函数拟合器,那么不同方向的应用就可以看做一种特征工程,分类问题,我们可以用表示类别的特征,检测问题,我们可以用框和类别。那么,对于这些特征的设计,就会决定网络的性能和应用方向。

2. SSD: Single Shot MultiBox Detector

在论文中,作者认为贡献如下:

  1. 提出了SSD:single-shot detector,用于多类别的目标检测
  2. 在feature maps上使用小的filters来进行类别预测和框的偏置
  3. 通过不同scale的feature map,来预测不同scale的物体
  4. end-to-end

模型结构如下图:


SSD

2.1 模型

model
  • SSD利用了不同尺度的特征,从上图模型结构中可以看到,从不同深度的卷积层中提取特征用于预测。因为卷积层的感受野会不断增大。
  • 每一个卷积层都可以预测一组特征,例如对于一个m * n,拥有p个通道的特征层,我们可以使用一个3*3*p的卷积核,来或者产生类别得分,或者相对于默认框的偏置。
  • 作者在用于预测的每一个特征层,都设定了一组默认框。对于特征层每一个输出都会根据k个默认框,预测4个偏置值,c个类别的得分。如 图1

2.2 训练

  • 匹配策略:在训练的时候,需要选择出用于预测框和类别的那个默认框,这样在反向传播的时候设置该默认框的target为对应的ground truth。作者的策略是:jaccard overlap,当框和ground truth的该值大于一个阈值时,就让对应的默认框负责预测。对于某个物体,得到的匹配的默认框可能不是一个。
  • 作者将loss分为:定位loss(localization loss)分类loss(confidence loss)。如下;
    loss

    N是匹配的默认框的个数,L{los}定位loss是groundtruth和预测的框lL1loss。具体如下:
    loc loss

    分类的loss是softmax,如下:
    co loss

3. Single-Shot Refinement Neural Network for Object Detection

在论文中作者认为二阶段(如RCNN系列,需要先进行候选框的选择,再进行分类和框的精修)的检测效果,精度比一阶段(如YOLO,SSD,一次输出类别得分和框)的好的原因:

  1. 类别不平衡问题小
  2. 对框进行回归
  3. 分别使用两个阶段的特征进行预测(作为物体的描述)

为了提高一阶段模型的精度,作者使用了两个交叉连接的模块:anchor refinement module(ARM)objection detection module(ODM)。如下图:

RefineDet

其中,ARM用于:

  1. 辨别并去除negative anchor来减少search space。
  2. 更加细致地调整anchor的位置和大小
    ODM将refined anchor作为输入来进一步提高回归和分类效果。作者还设计了transfer connection block(TCB),来实现ARM的特征,到ODM的预测位置,大小,类别的转换。

3.1 网络结构

类似于SSD,RefineDet使用了前向神经网络来同时预测框和类别得分,最终进行非极大值抑制得到最终结果。
ARM:使用VGG或者ResNet作为基础网络,去掉分类层,另外增加一些辅助结构。
ODM:由TCB的输出组成,来产生一组类别的得分和相对于refined anchor框的偏置。
RefineDet的核心:

  1. TCB:将ARM的特征转换到ODM中用于检测
  2. 两个级联的回归,提高位置和大小精度
  3. 过滤掉了negative anchor

Transfer Connection Block:如下图:

TCB

TCB用于将ARM的不同层转换为ODM需要的格式,这样使得ODM可以和ARM共享参数。TCB的另一个作用是通过增加一层特征,来整合large-scale context。为了匹配格式,作者使用deconv,来增大特征,并element-wise sum。
Two-Step Cascaded Regression:之前的一阶段的检测,都是使用多尺度的卷积特征来预测物体的位置和大小,这种方式在某些难度较大的问题中,精度较低,尤其是小物体。因此,作者设计两部级联的回归方法来对位置和大小进行回归预测。首先,使用ARM来调整anchors的位置和大小,来为ODM提供一个更好的初始化。在每一个feature map的cell上指定
n
个框,每个框的位置都是固定的,之后预测四个偏置值,和两个代表物体存在的得分值,这样每个cell可以得到
n
个预测结果。
在得到这些预测结果后,就会传递给ODM来进一步预测类别和框。对于每个框,产生
c
个类别和
4
个框的偏置值。
Negative Anchor Filtering:在训练阶段,对于一个refined anchor box,如果它的negative confidence大于一个预设的阈值,那么就会丢弃在训练ODM的时候丢弃这些box。
loss:如下:
loss

optimization:SGD, momentum=0.9, weight decay=0.0005, learning rate=0.001, batch size=32

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 224,242评论 6 522
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 95,953评论 3 402
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 171,299评论 0 366
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 60,709评论 1 300
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 69,723评论 6 399
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,236评论 1 314
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,629评论 3 428
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,594评论 0 279
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,135评论 1 324
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,156评论 3 345
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,285评论 1 354
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,914评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,600评论 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,073评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,203评论 1 275
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,798评论 3 381
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,339评论 2 365

推荐阅读更多精彩内容