L2-constrained Softmax Loss for Discriminative Face Verification(PDF)
Author:Rajeev Ranjan, Carlos D. Castillo, Rama Chellappa arXiv2017 (Citations:535)
核心思想:
本文主要针对训练集数据质量不均衡问题,通过在softmax loss层之前添加L2约束层将所有样本(简单样本和复杂样本)的特征描述子限定在同一L2范数上来达到平等对待所有样本的效果。
问题引入:
本文针对的任务类型是人脸识别,而在不受限场景(如受视角、分辨率、遮挡和图像质量等因素影响下)的人脸识别是一个具有挑战性的难题。其原因之一在于训练数据集中图像数据质量的不平衡。大部分现有的基于Softmax loss训练的深度卷积神经网络会倾向于过拟合高质量的数据,无法正确分类在困难条件下的人脸图像。
Softmax loss具有以下的优点和缺点:
优点:1.可以利用深度学习工具箱中的内置函数轻松实现,如Caffe,Torch和Tensorflow;
2.对输入批量的大小没有任何限制并且收敛速度快;
3.可以在没有任何度量学习帮助的情况下得到具有足够判别力度用于人脸识别的特征。
缺点:1.Softmax loss偏向于样本分布,即Softmax loss对于高质量人脸图像适应性很好,但会忽视训练批量中极为罕见的难例;
2.Softmax loss并不会优化识别的要求,即保持正样本对距离相近,负样本对间彼此远离。
解决方案:
L2约束Softmax loss:
为了解决上述Softmax loss存在的缺陷,本文基于实验观察提出了L2约束下的Softmax loss,首先来介绍一下实验中的一个现象。
通用的人脸识别系统的基线框架如图1所示,
给定训练数据集和相对应的实体标签,网络首先利用深度卷积神经网络提取特征描述子,再结合特征描述子和Softmax loss得到训练样本属于每一个类别的概率,Softmax loss的形式如图2所示。训练完成后,我们用训练得到的网络分别提取两幅图像的特征描述子,并利用距离度量或相似度度量计算图像之间的相似度分数,依据给定的阈值来判断两幅图像是否相同。
在这种训练条件下,网络并不会保证样本在归一化或三角空间中保持正样本相近及负样本对远离。此外,基于softmax loss的分类器不能够分类极端困难的样本。
由于网络会通过增大简单样本特征的L2范数并忽视难例来最小化Softmax loss,因此,网络会通过图像的特征描述子的L2范数来反应人脸的质量。作者通过实验发现,在测试过程中,当两幅输入图像的特征描述子的L2范数都很小时,性能很差,L2范数很大时则性能良好。
为了解决这个问题,我们将每幅图像的特征描述子的L2范数强制固定为常数,以此将L2约束下的特征描述子限定在一个具有固定半径的超球面上。在该超球面上,最小化Softmax loss相当于最大化余弦相似度,即增大正样本对的相似度减小负样本对的相似度。其次,由于所有的脸部特征有着相同的L2范数,因此Softmax loss可以更好的建模极端困难的人脸样本。
L2约束Softmax loss的公式如图3所示,主要是在常规Softmax loss的基础上增加了一个约束项,将所有样本的特征描述子的L2范数固定为常量。
具体实施方法为在网络倒数第二层后面增加L2归一化层和尺度层。L2归一化层将特征向量归一化到单位向量,尺度层将单位向量利用参数缩放到指定的半径。