Detecting Faces Using Region-based Fully Convolutional Networks
背景介绍
偏工程性论文,使用一些技巧和经验提高人脸检测的准确率。
论文要点
- RFCN的检测框架
- Position-sensitive average pooling
- 基于人脸区域不同部分重要性不同的假设,将最后求均值修改为加权平均值
- 不同区域的权重需要自主学习
- 在caffe框架下,可以利用depthwise conv实现
- Multi-scale training and testing
- 训练时,随机选择一个尺度,将输入转换训练
- 测试时,构造多个尺度的图像金字塔作为输入
- OHEM
- 在线选择困难样本,关键在于定义何为困难样本,多样性和高损失的样本
- Faster RCNN中的实现
- 使用两个ROI网络,一个ROINet1只读(只进行前向传播),另一个ROINet2进前向和反向传播
- 将原图的所有proposals输入ROINet1,计算它们的loss
- 根据loss从高到低排序,以及利用NMS,选出前K个proposals
将选出的K个proposals(hard examples)输入ROINet2,计算K个proposals的loss,并进行反向传播
- RFCN中的实现
- 主要由BoxAnnotatorOHEMLayer和SmoothL1LossOHEM实现
问题思考
- PSVP(position-sensitive average pooling)
- PSVP的假设是否成立,其是否有效,以及对准确率提升的效果有多大
- PSVP由depthwise conv实现的可行性,有待验证
- 对比实验
- 缺少对每个trick作用的分析,无法判断每个trick对准确率的提升作用