概述

FaceNet是谷歌于[CVPR2015.02](FaceNet: A Unified Embedding for Face Recognition and Clustering)发表，提出了一个对识别（这是谁？）、验证（这是用一个人吗？）、聚类（在这些面孔中找到同一个人）等问题的统一解决框架，即它们都可以放到特征空间里统一处理，只需要专注于解决的仅仅是如何将人脸更好的映射到特征空间。其本质是通过卷积神经网络学习人脸图像到128维欧几里得空间的映射，该映射将人脸图像映射为128维的特征向量，联想到二维空间的相关系数的定义，使用特征向量之间的距离的倒数来表征人脸图像之间的"相关系数"（为了方便理解，后文称之为相似度），对于相同个体的不同图片，其特征向量之间的距离较小（即相似度较大），对于不同个体的图像，其特征向量之间的距离较大（即相似度较小）。最后基于特征向量之间的相似度来解决人脸图像的识别、验证和聚类等问题，FaceNet算法的流程如下图所示：

FaceNet

总体流程

将图像通过深度卷积神经网络映射到128维的特征空间（欧几里得空间）中，得到对应的128维特征向量；

对特征向量进行L2正则化，筛选出有效特征；

使用正则化后的特征向量，计算Triplets Loss；

Triplets Loss

FaceNet使用深度卷积神经网络来学习映射 $f(x)$ 并进一步设计了Triplets Loss（三元组损失函数）训练该网络，之所以称之为三元组是因为该损失函数包含了两个匹配脸部缩略图和一个非匹配的脸部缩略图，其目标是通过距离边界来区分样本中的正负类，其中的脸部缩略图指裁剪后的人脸图片，除了缩放和平移之外，没有2D或3D对齐。三元组损失函数尝试将不同个体的人脸图像区分开来，是卷积网络能更好的学习、逼近 $f(x)$ 。

FaceNet的终极目标是将人脸图像嵌入到128维的欧氏空间 $\R^{128}$ 中，在该向量空间中，单个个体特征向量 $x_i^a$ （anchor）和该个体的其它特征向量 $x_i^p$ （positive）距离小，与其它个体的特征向量 $x_i^n$ （negative）距离大。如下图所示：

Triplets Loss

使用数学语言描述如下：
$||f(x_i^a)-f(x_i^p)||_2^2+\alpha < ||f(x_i^a)-f(x_i^n)||_2^2 \quad \forall(x_i^a,x_i^p,x_i^n) \in R^{128}$
既存在一个边界值 $\alpha$ （为positive和negative的边界）使得对于任意个体其所有特征向量之间的距离恒小于该个体任意特征向量与其它个体特征向量之间的距离。进一步即可定义出Triplets Loss：
$L_{loss} = \sum_{i}^{N}[||f(x_i^a)-f(x_i^p)||_2^2-||f(x_i^a)-f(x_i^n)||_2^2+\alpha]_+$
其中 $[x]_+=max\{0,x\}$ 。

Note:

Triplets的意思是三元组，即损失函数是通过三个参数来计算的，区别于神经网络的双参数计算（预测标签和真实标签）。三元组具体指：anchor,positive,nagetive三部分，三者都是经过L2正则化后的特征向量。具体来说，anchor和positive指的两个匹配的脸部缩略图，其中anchor是模型训练时的基准图片，positive指的是与anchor相同个体的图片，negative指的是与anchor不同个体的图片。

基于negative example与anchor和positive距离，可分为三类三元组：

半困难三元组(semi-hard triplets)：其中负例不比正例更接近锚点，但仍有大于0的损失， $||f(x_i^a)-f(x_i^p)||<||f(x_i^a)-f(x_i^n)||<||f(x_i^a)-f(x_i^p)||+margin$ 。本文就用这种

容易三元组(easy triplets)：损失为0的三元组，因为 $||f(x_i^a)-f(x_i^n)||>||f(x_i^a)-f(x_i^p)||+margin$

困难三元组(hard triplets) ：其中负例比正例更靠近锚点，即 $||f(x_i^a)-f(x_i^n)||<||f(x_i^a)-f(x_i^p)||$

image

Triplets筛选

由于损失函数的特性，在训练时Triplets的选择对模型的收敛非常重要，如公式（1）所示，对于 $x_i^a$ ，需要选择同一个体的不同特征向量 $x_i^p$ ，使得：
$x_i^p=argmax\{||f(x_i^a)-f(x_i^p)||_2^2\}$
同时还需要选择不同个体的特征向量 $x_i^n$ ，使得：
$x_i^n=argmin\{||f(x_i^a)-f(x_i^n)||_2^2\}$
显然，在实际训练时，在全部样本集上计算argmax和argmin是不太现实的，还会由于错误标签的图像导致训练收敛困难。在实际训练时有两种思路：

1.每隔 $n$ 步，计算子集的argmax和argmin；

2.在线生成triplets，即在每隔min-batch中筛选positive/negative样本；

在每个mini-batch中，每个类型都有40个样本，再添加一些反例样本;

In our experiments we sample the training data such that around 40 faces are selected per identity per mini-batch. Additionally, randomly sampled negative faces are added to each mini-batch

选择mini-batch中的所有 anchor-positve 对而不是选择hard positive（即与anchor距离最大的同类图片），并选择 hard negative（即与anchor距离最小的不同类图片）。相比anchor-hard positive，这样收敛速度比较快。

选择hard negative会导致收敛到局部最小点，建议使用 semi-hard negative（半困难三元组样本选择方式），即忽略损失函数中的 $\alpha$ 。

在论文中，作者采用了在线生成triplets的方法。其选择了大样本的mini-batch（1800样本/batch）来增加每隔batch的数量。每个mini-batch中，对单个个体选择40张人脸图片作为正样本，随机筛选其它人脸图片作为负样本。为了避免负样本选择不当导致训练过早进入局部最小，如上文所说，作者忽略损失函数中的 $\alpha$ 来帮助筛选负样本：
$||f(x_i^a)||-f(x)_i^p||_2^2 < ||f(x_i^a)-f(x_i^n)||_2^2$

Inception

FaceNet的作者探索了两种深度卷积神经网络，第一类为Zeiler&Fergus研究中使用的神经网络，在网络后面加了多个 $1\times 1$ 卷积层；第二类为Inception网络。使用adagrad作为优化器，经过多次测试，作者最终将边界值 $\alpha$ 定为0.2。两类模型的结构如下：

CNN_Model_01

GoogLeNet

人脸识别：FaceNet详解

人脸识别：FaceNet详解

概述

Triplets Loss

Triplets筛选

Inception

相关结论

推荐阅读更多精彩内容