这篇文章是用one-stage的方法实现快、准、轻的人脸检测,骨干网络用的是VGG-16,去除了所谓的head,即最后的3个全连接层。最后的分类和bbox回归用RPN的anchor实现,相比faster-rcnn中的anchor,本文作者只是用1:1的宽高比,作者在实验中发现不同的宽高比对实验精度的提高没有太大帮助。
本文在VGG之上构建了三个并行网络,M1,M2,M3分别用来检测小、中、大人脸。如下图一:
我这里从中间的M2说起,在VGG-16的最后一个卷积层conv5输出之后分成两路,上面一路用于检测中型人脸,下面一路用于跟M1进行特征融合,先通过1x1卷积降维(128),然后通过双线性插值上采样。M2的这一步是参考FPN(特征金字塔)的将高维特征和低维特征融合来获得更多文本语义信息,这样有助于检测小物体,比如小人脸。M1,M3这块的大体检测没啥好讲的,图一表述的很清楚了。
接下去来讲讲这里面的Detection Module部分,如图二:
Detection Module 采用并行连接,3x3卷积+上下文检测模块,然后concat连接,最后通过1x1卷积分类和bbox回归,这样的方法还是挺新颖的,用1x1卷积干这种事,之前用于代替全连接层干这些活的就只有是全局平局池化。这里面的S是步长的意思,本文作者的设定分别是8,16,32。
然后就是Context module 模块,如下图三:
顾名思义这个模块主要用来增强上下文语义信息,它的思想来自Google出的Inceotion系列,增加宽度。用卷积核为5x5,7x7来进行操作,但是为了减小计算量用2个3x3和3个3x3代替上面两者,因为5x5,7x7的感受野跟2个3x3和3个3x3一样,但计算量明显小很多,5x5→2x3x3,7x7→3x3x3。
最后作者还强调因为把VGG-16的head 去掉了,所以用Online hard negative and positive mining方法训练变得很重要,这个方法是2016提出的,具体怎么样的我也还不清楚,接下去要去看一下这篇文章。