行人重识别的背景:
随着科技的发展,监控视频已被广泛应用于商业、安防、搜寻等领域,在人们的日常生活中占据着非常重要的作用。如何识别、定位出监控视频中的特定行人,对于刑事侦查、搜寻救援等具有很重要的意义。因此,行人重识别在近几年受到了学术界的广泛关注。行人重识别被认为是一个图像检索的子问题,它需要在给定一个监控行人图像后,检索出其他摄像头中存在的该行人图像。
行人重识别的国内外研究现状:
早期的传统行人重识别方法是集中在手工提取特征(如纹理空间、颜色空间)、学习更好的相似度度量(如欧式距离、余弦距离)上,但是传统方法有一定的局限性,很难处理不同摄像头拍摄的行人存在的姿态、背景、光线、尺度不同等问题。行人重识别面临着许多挑战。
近年来,能够自动学习鲁棒性特征的深度学习方法逐渐被广泛使用。构建一个基于深度学习的行人重识别系统基本分为五大步骤:采集原始数据、生成标注框,标注训练数据、训练行人重识别模型、检索行人。其中,核心步骤是对模型的训练。众多方法都是针对行人重识别的模型进行了改进、优化。行人重识别的模型由卷积神经网络构成,它可以从原始的图像中提取丰富的语义特征。
目前,基于深度学习的行人重识别算法可按照提取图像特征方法的不同,大致分为基于全局特征、基于辅助特征、基于局部特征三种方法。基于全局特征的方法是提取每一张行人图片的全局特征信息,早期有很多方法都是通过全局最大池化或者全局平均池化来提取特征。Wu等人提出的PersonNet可以提取全局信息(Person re-identification with deep convolutional neural networks)。但是,这种方法无法解决背景区域造成的干扰,很有局限性。因此,有学者开始研究基于辅助特征的方法。Chang等人于2018年提出的MLFN是以视角点为辅助特征的多层语义结构(Multi-level factorisation net for person re-identification)。Zheng等人首次将生成对抗网络(GAN, Generative Adversarial Networks )应用到行人重识别中(Unlabeled samples generated by gan improve the person re-identification baseline in vitro),但是GAN网络生成的图片缺乏真实性,并且存在冗余的噪声信息,不利于网络的训练。
当前,对局部特征的研究越来越多。Varior等人将行人图像进行水平切块处理,再将分割后的图像按照从头部到身体的顺序送入长短期记忆人工神经网络(LSTM,Long Short-Term Memory)中进行训练,特征融合了局部特征(A siamese long short-term memory architecture for human re-identification)。DeepReID采用网格分块的方法,提取图像对相同网格区域的相似和差异特征,融合所有区域的特征信息进行二分类,判断是否是同一个ID(Deep filter pairing neural network for person re-identification)。采用基于局部特征的方法,行人重识别的识别准确率得到了显著的提高。
目前比较新的行人重识别方法是特定共享特征变换的跨模态行人重识别(cm-SSFT),依据不同模态特征示例内容,在不同模态之间转换共享和特定特征。这个算法在主流数据集上将Rank-1和mAP分别提高了22.5% 和 19.3%。
上图所示是与传统做法的对比。主要思路是利用近邻信息,给定一红外线query。当搜索彩色target时,可以先找到一些简单的置信度高的彩色样本,把这些彩色样本的颜色特异特征给红外线query,红外线query样本可以利用这些彩色信息再去搜索更难的彩色样本。
行人重识别的常用数据集
公开数据集包含Market1501、DukeMTMC-reID和CUHK03这三个数据集。 Market1501数据集采集于清华大学,训练集有751个行人,共12936张图像,测试集有750人,共19732张图像。DukeMTMC-reID采集于杜克大学,训练集含有16522张图像,702个行人,测试集有702人,共16522张图像。CUHK03采集于香港中文大学,是以MATLAB MAT file的格式来存储的,该数据集包含1467个行人,共14097张图像,平均每人有9.6张训练数据。这三个数据集都是目前较大规模的数据集。因此,硬件方面需要计算速度高的NVIDIA显卡训练卷积神经网络。
未来可研究的方向
无遮挡场景下姿态不对齐会造成匹配错误问题:目前存在的主要挑战有姿态、光线、相机等变化。光线和相机的变化通常会给行人图像带来颜色、明亮以及对比度上的差异,很少会造成形变或者姿态上的变化,因此可以通过简单地对训练样本进行对应的数据增广来解决。但是姿态变化主要由两种情况产生,第一种是人体不规则的、非刚性的形变,第二种是拍摄视角变换,这两种情况都会造成行人的体态发生规则的形变,很难简单地进行对应的图像样本生成,因此姿态变化是标准行人重识别任务里非常重要的一个待解决问题,可以深入研究如何解决姿态变化的问题。