Fast RCNN

网络结构

网络结构

细节

细节图

网络实现(以VGG16为例)

VGG16

分析

卷积层

  1. 图片输入224 * 224 * 3;
  2. 通过VGG16的前5层,得到14 * 14 * 512的输出,即特征图,在此过程中,图片缩放了16倍(经过了四个池化层);

候选区域选择

对原图像进行候选区域选择;

ROI区域选择

通过selective search,可以得到多个候选区域(针对原图),根据缩放比例(例如16倍)可以得到特征图上对应区域的位置和大小(取整)。为了输入到全连接层,每一个区域缩放为固定大小W * H(7 * 7),那么每一个区域的宽高缩放比例分别为w/W和h/H。以此得到一系列相同大小的特征图。
通过区域选择,该层代替了原VGG16的第五层池化层,得到7 * 7 * 512的多幅特征图像。

全连接层

其后连接两个大小为4096的全连接层(全连接 + ReLu + Dropout)。

分类和回归

分类

以全连接层的输出为输入,输出为21个分类(20个目标,1个背景),然后使用SoftmaxWithLoss计算分类损失。

Bbox预测

同样以全连接层的输出为输入,输出为Bbox的预测位置,然后使用SmoothL1Loss计算损失。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容