目标检测—Fast R-CNN

本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。

    Fast R-CNN建立在R-CNN和SPP的工作基础之上,使用了多种创新方法提升检测速度和准确率。

    1、首先基础卷积神经网络使用更优秀的CNN模型VGG16

    2、不单独对候选区图像进行卷积,直接对整张图像卷积,避免重复卷积计算

    3、不单独训练SVM分类器,使用Softmax

    4、候选区坐标回归模型训练嵌入网络

    5、将整个框架整合到一个网络中,进行端对端(end-to-end)的训练

一、基本流程 

Fast R-CNN框架
Fast R-CNN流程

    (1)使用选择性搜索(SS)为图像搜索候选框,与R-CNN一致

    (2)输入图像至VGG16提取整个图像的 feature map,将原图候选框映射至对应 feature map

    (3)通过ROI pooling,将候选框 feature map 转成需要的固定大小

    (4)输出候选框的类别概率

    (5)bounding box坐标修正

二、ROI pooling

    ROI pooling解决了R-CNN重复卷积的工作,直接将候选区域坐标映射至 feature map对应区域,然后经过ROI后,不同大小尺寸的候选区输出得到固定大小feature map。怎么将不同尺寸的候选区转换为相同大小呢?下面具体介绍。

    假设某个ROI pooling的大小为H*W,我们需要输出的特征图尺度为h*w,需要解决的问题是怎么划分原特征图区域得到h*w

    1)输出特征图h*w中的每一小块占原特征图H*W多大区域?这里就需要计算,ROI pooling使用平均分块策略,每块大小为\frac{H}{h}  \times \frac{W}{w},除不尽怎么办,向下取整。

    2)现在获得了每小块区域的大小,再进行最大池化。

具体例子:

    假设:某层整图卷积特征图大小为8\times 8,经过投影,将候选区区域投射至该层特征图后大小为5 \times 7,需要输出后大小变为2 \times 2

    某层整图卷积8\times 8特征图

    某候选区投影后,位置信息(左上角(0,3),右下角坐标(7,8)),大小为5 \times 7

    开始计算输出2 \times 2特征图每小块占多大区域。平均每块大小为,5/2 = 2.5,7/2=3.5,向下取整。第一块位置(0,0)大小2 \times 3,第二块位置(0,1)大小2 \times (7-3)=2\times4,第三块位置(1,0)(5-2) \times 3=3\times3,第四块位置(1,1)(5-2) \times (7-3)=3\times4。具体如下图

    最后max pooling得到

三、多任务损失(分类损失与坐标回归损失)

    R-CNN分类损失与回归损失是分开单独训练,Fast R-CNN将其一起整合至网络训练,进行加权组合训练多任务损失。分类损失和回归损失均有些许区别,后面介绍。具体公式如下:

    R-CNN采用SVM二分类合页损失,Fast R-CNN为对数损失函数L_{cls}(p,u) 表示分类损失,对于K+1类(包括背景),P={p_{0},p_{1},p_{2},....,p_{k} }u=0,1,2,3,...,k。公式如下

分类损失

    回归损失与R-CNN基本一致,主要在外面改成一个平滑函数smooth_{L_{1} }(x) 。公式如下

回归损失

    关于t_{i}^u -u_{i} 不做详细解释,R-CNN中有过讲解,其实就是回归候选框的偏移量和缩放量,使得预测框、候选框据离与真实框、候选框据离之间的差距尽可能小,让预测框与真实框更接近

    为什么增加一个平滑函数?主要为了限制梯度变化,当预测框与真实框差距较大时,梯度值不会过大。先看下L2与smooth L1的函数图像与导数形式

L2导数
smooth L1导数

    观察L2损失可以看到,当x增大时,x导数也随之增大。在训练初期,预测框与真实框差距过大时,导师梯度较大,训练不稳定

    观察smooth L1导数,在x较小时,对x的梯度也会变小,当x很大时,x梯度绝对值上线为1,不至于破坏网络参数

四、SVD全连接层加速

    另外一个改进点是在全连接层,使用奇异值分解(SVD)加快计算。学过矩阵论的应该有所了解,SVD就是矩阵论中的重要知识点。公式,图解如下

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容