3.2 ThunderNet思考

1 设计思想

ThunderNet的优化目标是二阶段检测器中计算开销大的结构。

  • 在backbone部分,设计了轻量级网络SNet;
  • 在detection部分,借鉴Light-Head R-CNN的思路,并进一步压缩RPN和R-CNN子网络。
    为了避免性能的衰退,设计了2个高效的结构CEM和SAM来改善性能。

2 网络架构

图1 ThunderNet网络架构

ThunderNet的输入是320 \times 320分辨率的图像。

  • Backbone部分,采用SNet,SNet基于Shuffle Net V2修改得到的。
  • Detection部分,利用了压缩的RPN网络,从Light-Head R-CNN的轻量化head方法,来提高计算效率。
    • Context Enhancement Module(CEM),整合局部和全部特征增强网络特征表达能力。
    • Spatial Attension Module(SAM),引入来自RPN的前后景信息用于优化特征分布。

3 实现

backbone部分:

  1. 输入图像的分辨率应该和骨干网络的能力相匹配。
  2. 骨干网络需要利用深层语义信息和浅层高分辨信息。

考虑到ShuffleNet V1/V2限制了感受野,ShuffleNet V2和MobileNet V2缺乏浅层特征,Xception在算力低的情况下缺乏深层特征。作者对ShuffleNet V2进行了改进,这里的backbone网络称为SNet(为了检测目的单独设计)。

图2 SNet的网络结构

SNet49用于更快的推理,SNet535用于更好的精度,SNet146用于更好的速度/精度权衡。

detection部分:
为了与backbone网络匹配,作者改进了light-head R-CNN的head部分,主要设计了两个模块。

  1. Context Enhancement Module(CEM)。
图3 Context Enhancement Module

CEM合并三个尺度的特征图。

  • 尺度一:C4特征图上应用1\times 1积以将通道数量压缩为\alpha \times p \times p = 245
  • 尺度二:C5进行上采样 + C5特征图上应用1\times 1卷积以将通道数量压缩为\alpha \times p \times p = 245
  • 尺度三:Cglb进行Broadcast + Cglb特征图上应用1\times 1卷积以将通道数量压缩为\alpha \times p \times p = 245
  1. Spatial Attension Module(SAM)
    思想:使用来自RPN学习到的知识来细化特征图的特征分布。

F^{SAM} = F^{CEM} \cdot sigmoid(\theta(F^{FPN}))

其中\theta(\cdot)是一个尺度变换,用来匹配两组特征图中的通道数。

图4 SAM结构

4 性能分析

图5 VOC2007上的性能
图6 COCO数据集上的性能

5 总结

本文首先介绍了ThunderNet的思想,然后简介了ThunderNet的网络结构,以及重点改进的CEM和SAM结构,最后给出了在VOC2007和COCO数据集上的性能比较。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容