FaceNet

解决人脸检测的后续问题：face veriﬁcation (is this the same person), recognition (who is this person) and clustering (ﬁnd common people among these faces)。

一、传统的基于CNN的人脸识别方法为：

1. 利用CNN的siamese网络来提取人脸特征
2. 然后利用SVM等方法进行分类

二、FaceNet亮点：

1. 利用DNN直接学习到从原始图片到欧氏距离空间的映射，从而使得在欧式空间里的距离的度量直接关联着人脸相似度；
2. 引入triplet损失函数，使得模型的学习能力更高效。
3. 结果示意图：

这是一个简单的示例，其中图中的数字表示图像特征之间的欧式距离，可以看到，图像的类内距离明显的小于类间距离，阈值大约为1.1左右。

三、实现

这篇文章中，最大的创新点应该是提出不同的损失函数，直接是优化特征本身，用特征空间上的点的距离来表示两张图像是否是同一类。网络结构如下：

上图是文章中所采用的网络结构，上图步骤可以描述为：
1、前面部分采用一个CNN结构提取特征
2、CNN之后接一个L2标准化，这样图像的所有特征会被映射到一个超球面上
3、再接入一个embedding层(嵌入函数)，嵌入过程可以表达为一个函数，即把图像x通过函数f映射到d维欧式空间

4、将嵌入层归一化到超球面上，例如可以使用： $|| f(x) ||_2^2 = 1$ （或者用softmax也可以实现）
5、接着，再去优化这些特征，而文章这里提出了一个新的损失函数，triplet损失函数(优化函数），而这也是文章最大的特点所在。

Triplet Loss(三元组损失函数):

以下是Triplet损失函数的原理(Triplet翻译为三元组)：
思想：什么是Triplet Loss呢？故名思意，也就是有三张图片输入的Loss（之前的都是Double Loss或者是SingleLoss）。
本文通过LDA思想训练分类模型，使得类内特征间隔小，类间特征间隔大。为了保证目标图像与类内图片(正样本)特征距离小，与类间图片(负样本)特征距离大。需要Triplet损失函数来实现。

根据上文，可以构建一个约束条件：

$||f(x_i^a) - f(x_i^p)||_2^2 + \alpha < ||f(x_i^a) - f(x_i^n)||_2^2, \ \forall(f(x_i^a), f(x_i^p), f(x_i^n)) \in \tau \quad(1)$

其中， $\tau$ ：所有可能的三元组集合
公式（1）中， $\alpha$ 决定了类间距的最小值，如下图所示，我们可以看到 $\alpha$ 越大，类间距越大（本文 $\alpha=0.2$ ）

把上式（1）写成损失(优化)函数，通过优化(减小)损失函数的值，来优化模型。损失函数为：

$L = \sum_i^N[||f(x_i^a) - f(x_i^p)||_2^2 - ||f(x_i^a) - f(x_i^n)||_2^2 + \alpha]_+, \quad (2)$

其中， $N$ ：训练集中样本的个数
从上面的两个公式中可以看到，如果一个三元组满足公式（1），也就意味着已经分类正确，不需要训练，如果把这种样本加入到loss里面，那么对网络的收敛帮助很小。所以，我们需要找那么hard triplets（也即是不满足公式（1）的三元组）来促进模型的训练。

四、Triplet Selection

1、问题描述：
为了确保模型快速收敛，选择违反公式1的约束条件的三元组是至关重要的。这意味着给定 $x_i^a$ ，我们需要：
（1）选择一个 $x_i^p$ （hard positive），使得 $argmax_{x_i^p}||f(x_i^a) - f(x_i^p)||_2^2$
（2）选择一个 $x_i^n$ （hard negtive），使得 $argmin_{x_i^n}||f(x_i^a) - f(x_i^n)||_2^2$
在整个训练集上穷举所有的三元组非常困难。而且，一些标注错误的图片和低质量的图片有可能主导hard positives和hard negatives，这反而会对训练产生不利影响。因此，我们有两种解决方案：
2、解决方案：
（1）离线更新三元组(每隔n步)。采用最近的网络模型的检测点并计算数据集的子集的argmin和argmax(局部最优)。
（2）在线更新三元组。在mini-batch上选择不好的正(类内)/负(类间)训练模型。
本文采用在线的方式，采用这种方式需要较大的batch（本文为1800）。在每个batch中，首先选择40张属于同一类的图片，然后随机补充其他类的图片。
3、实际采用的解决方案：
（1）在实际训练中，作者选取一个batch中的所有positive的anchor对，而不是hardest positive，因为这种方式在训练中更稳定，而且训练的初始阶段收敛的也更快。（分析：单个数据更容易受到噪声和错误数据的干扰，而使用更多的数据相当于做了平滑操作，抗干扰性更强，函数的连续性更好）
（2）虽然理论上需要选择最为困难的负样本，但是在实际中，这样会容易导致在训练中很快地陷入局部最优，或者说整个学习崩溃f(x)=0。为了避免这个问题，在选择negative的时候，我们选择满足以下公式的样本： $||f(x_i^a) - f(x_i^p)||_2^2 < ||f(x_i^a) - f(x_i^n)||_2^2, \quad(3)$
我们把这种负样本叫做 $semi-hard$ 。为什么叫 $semi-hard$ 呢？我们把公式（3）和公式（1）作比较，发现只是少了一个 $\alpha$ ，而 $\alpha$ 代表的是最小类间距。也就是说，这个三元组的样本满足了类内距离小于类间距离得聚类要求，但是类间距离还没有足够远（应该要大于 $\alpha$ ），所以叫 $semi-hard$ 。
可以看出，这种方式和上面实际中选择hard positive的策略类似，不是选择单个的hardest negative的样本，而是所有满足公式（3）的样本都会被采用。