https://blog.csdn.net/qq_36782182/article/details/83624357
人脸检测方向系列论文:https://zhuanlan.zhihu.com/p/81918847
1. 接三层CNN,分别做由粗到细的检测
a) 第一层:P-Net(fully connected convolutional network),快速选出可能包含人脸的候选区域。对于画面中的人脸,这一步可能产生很多个bounding box,需要用极大值抑制算法(NMS)选出其中一个最优的
b) 第二层:R-Net(稍微复杂一点的CNN),会过滤掉大部分非人脸区域,然后再用NMS选出优解
c) 第三层:O-Net(比较强大的CNN),可以优化输出的bounding box并输出比较精细的landmark
2. CNN的训练基于以下三个任务,以三者中部分目标函数的结合为网络的总目标函数:对于某个任务的特定数据集,只应用其对应的目标函数;针对三个网络的不同目的,提出不同的训练权重
a) 区域中是否包含人脸(分类问题),交叉熵
b) 人脸bounding box(回归问题),欧氏距离
c) 人脸landmarks的定位(回归问题),欧氏距离