网络结构
网络结构
细节
细节图
网络实现(以VGG16为例)
VGG16
分析
卷积层
- 图片输入224 * 224 * 3;
- 通过VGG16的前5层,得到14 * 14 * 512的输出,即特征图,在此过程中,图片缩放了16倍(经过了四个池化层);
候选区域选择
对原图像进行候选区域选择;
ROI区域选择
通过selective search,可以得到多个候选区域(针对原图),根据缩放比例(例如16倍)可以得到特征图上对应区域的位置和大小(取整)。为了输入到全连接层,每一个区域缩放为固定大小W * H(7 * 7),那么每一个区域的宽高缩放比例分别为w/W和h/H。以此得到一系列相同大小的特征图。
通过区域选择,该层代替了原VGG16的第五层池化层,得到7 * 7 * 512的多幅特征图像。
全连接层
其后连接两个大小为4096的全连接层(全连接 + ReLu + Dropout)。
分类和回归
分类
以全连接层的输出为输入,输出为21个分类(20个目标,1个背景),然后使用SoftmaxWithLoss计算分类损失。
Bbox预测
同样以全连接层的输出为输入,输出为Bbox的预测位置,然后使用SmoothL1Loss计算损失。