Robust Face Recognition with Deeply Normalized Depth Images

https://arxiv.org/pdf/1805.00406.pdf

摘要

本文是将具有姿态和表情的深度图像规范化到正向姿态和自然表情，并且从这个规范化后的深度图像中提取鲁棒信息。
网络结构有两个，一个规范姿态表情网络和一个特征提取网络。
规范网络首先将输入的深度图像转换成HHA图像，进而重建3D face，在从重建后的3D face 中得到相应的pose-and-expression深度图像。特征提取网络进而进行脸部识别。

网络结构

image.png

其中

\alpha

\beta

\theta

分别表示shape，expression，和pose

提出的方法

深度图像转换成HHA图像
从HHA图像回归姿态、形状和表情参数。
利用3DMM表示一个参数人脸。
从参数人脸的shape参数生成一张规范化的深度图像。
通过重建人脸并规范化，得到了一张完整和去噪的深度图像
最后通过这个深度图像进行人脸识别。

HHA图像包含有更多的信息。
下面是深度图像转HHA图像的代码：
https://github.com/s-gupta/rcnn-depth/blob/master/rcnn/saveHHA.m
BFM作为形状基，facewarehouse作为表情基
用尺度、旋转、平移七个参数构建投影矩阵，将3Dface投影到2D上
规范化深度图像只是采用了shape参数，将pose和expression参数都设为0.

实现细节

loss

共有两个loss，一个是比较重建后的3DMM参数和ground truth的L2loss. 另一个是识别身份的loss，例如softmax loss

训练集

300W-LP dataset 用来预训练一个规范网络，因为它有3DMM参数信息。它首先是用300W-LP的3Dface投影得到深度图像。这样就有了成对数据，可以有监督进行训练。
Lock3DFace用来微调规范网络，因为这个数据集没有3DMM参数信息，因此他先基于颜色图像的landmark进行3Dface重建，这样就得到了具体的参数。

Landmark-based 3D face reconstruction from an arbitrary number of unconstrained images

FRGC用来微调LIghtCNN

结果

重建结果：