这篇文章主要介绍经典的神经网络SSD的原论文的摘要部分。论文地址:论文地址。
标题
标题:SSD: Single Shot MultiBox Detector
解读:这是一个经典的one-stage(单阶段)目标检测网络,单阶段和双阶段的区别在于:单阶段无序额外生成候选框,只需要把网络的中间过程,或者是最后一层的feature map提取出来,在feature map的基础上生成default box。双阶段需要专门的网络在原图上生成候选框,比如,R-CNN利用selective search(SS)算法生成候选框,Faster R-CNN利用RPN生成候选框。
摘要
原文:We present a method for detecting objects in images using a single deep neural network. Our approach, named SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location.
翻译:我们提出了一个用于目标检测的单阶段深层神经网络的方法。我们的方法叫做SSD,在每个特征图中裁剪不同长宽比和尺度的default box。
解读:本文中提出的SSD网络,可以在特征图的基础上,生成不同长宽比以及不同大小的default box。
原文:At prediction time, the network generates scores for the presence of each object category in each default box and produces adjustments to the box to better match the object shape.
翻译:在预测阶段,网络会生成每个default box在每个类别下的分数,并且对default box进行调整以更好的匹配目标的形状。
解读:在预测阶段,网络会做两件事,第一是生成每个default box的置信度,这个置信度是针对每个类别?还会对每个default box进行大小和位置的调整。
原文:Additionally, the network combines predictions from multiple feature maps with different resolutions to naturally handle objects of various sizes. SSD is simple relative to methods that require object proposals because it completely eliminates proposal generation and subsequent pixel or feature resampling stages and encapsulates all computation in a single network.
翻译:with different resolutions(不同的分辨率),eliminates(消除,排除),subsequent(随后的,后来的),resampling(重采样),encapsulates all computation(封装所有的计算)
另外,网络结合了不同分辨率的多个特征图产生的预测值,进而检测多种尺度的目标。SSD完全消除了建议框的生成,并且在随后的像素和特征重采样以及封装所有的计算,所有的步骤都集中到了一个网络中,从这个方面来说,SSD是一个简单的网络。
解读:SSD的简单性体现在,所有的过程都集中到了一个网络中,不需要分成多个网络,分阶段进行检测。
原文:This makes SSD easy to train and straightforward to integrate into systems that require a detection component. Experimental results on the PASCAL VOC, COCO, and ILSVRC datasets confirm that SSD has competitive accuracy to methods that utilize an additional object proposal step and is much faster, while providing a unified framework for both training and inference.
翻译:PASCAL VOC(有20个分类),COCO(微软出资标注的,有80个类别),ILSVRC(竞赛?)
SSD比较容易去训练,并且如果一个系统需要检测的组件,SSD也比较容易集成到系统中。SSD在各个数据集上的表现(准确率和速度)都比较好,同时为训练和推理提供统一的框架。