图像金字塔 vs .特征金字塔:滑动窗口范例,其中分类器应用于密集的图像网格。它探索了级联结构,实时有效地从图像金字塔中剔除假人脸区域,使得这种尺度不变的人脸检测框架被广泛采用。尽管图像金字塔上的滑动窗口是主要的检测范式,随着特征金字塔的出现,多尺度特征图上的滑动anchor迅速主导了人脸检测。
Two-stage vs single-stage:目前的人脸检测方法继承了一般目标检测方法的一些成果,可分为两类:Two-stage方法(如Faster R-CNN)和single-stageTwo-stage(如SSD和RetinaNet)。Two-stage方法采用了一种具有高定位精度的“proposal与细化”机制。相比之下,single-stage方法密集采样人脸位置和尺度,导致训练过程中positive和negative样本极不平衡。为了解决这种不平衡,广泛采用了采样(Training region-based object detectors with online hard example mining)和重加权(re-weighting)方法。与two-stage方法相比,single-stage方法效率更高,召回率更高,但存在假阳性率更高和定位准确性降低的风险。
Context Modelling:提升模型的上下文模块推理能力以捕获微小人脸,SSH和PyramidBox在特征金字塔上用context modules扩大欧几里德网格的感受野。为了提高CNNs的非刚性变换建模能力,可变形卷积网络(deformable convolution network, DCN)采用了一种新的可变形层对几何变换进行建模。
多任务学习:在目前广泛使用的方案是结合人脸检测和人脸对齐,对齐后的人脸形状为人脸分类提供了更好的特征。在Mask R-CNN中,通过添加一个并行分支来预测目标Mask,显著提高了检测性能。Densepose采用Mask-RCNN的结构,在每个选定区域内获得密集的part标签和坐标。此外,dense分支是一个小的FCN应用于每个RoI预测像素到像素的密集映射。
(1)在 WIDER FACE 数据集上手动注释了五个面部标志,并在这个额外的监督信号的帮助下观察到人脸检测的显着改进。
(2)添加了一个自监督网格解码器分支,用于与现有监督分支并行预测像素级 3D 形状人脸信息。
multi-task loss:
differentiable render:
dense regerssion: