ECCV 2016 person re-identification相关 第四篇
这篇文章大致的idea是把简单的比如color LBP之类的特征通过LSTM网络聚合成highly discriminative representation
优势:
- First, it allows discriminative information of frame-wise data to propagate along the temporal direction, and discriminative information could be accumulated from the first LSTM node to the deepest one, thus yielding a highly discriminative sequence level human representation.
- Second, during feature propagation, this framework can prevent non-informative information from reaching the deep nodes, therefore it is robust to noisy features
- Third, the proposed fusion network is simple yet efficient, which is able to deal with sequences with variable length.
传统的方法,其中一个方面就是度量学习,但是这篇文章通过融合简单特征,生成深层特征,因此,简单的度量比如cos就能产生好的效果。这里我也认为,reID的工作更多的是应该放在如何提取high discriminative 的特征上去。
传统做reID,一般就是先用cnn或者直接提取single的底层特征,然后扔到度量学习层里面训练,然后用得到的模型和度量来做预测。但是这种做法在提取特征的时候没有考虑时间信息,只考虑了空间特征,所以不适合用视频的形式作为输入(multi shot)
本文在的特征采取的是手工特征(color、LBP),因为cnn需要大量的数据作为训练,而现有的训练数据集都比较小,容易过拟合。
主要思想
特征提取
LSTM的输入是手工特征,图片大小resize到128x64 kernal大小是16x8 重叠是8和4 所以对于一个frame出来15*15个结果 LBP有256维,加上HSV和Lab各三维,一共262维, 每个time stamp(本文中一共是10个timestamp)是262x225维的输入 每个time stamp的输出是512维的向量,根据下面的公式算出每个node的信息(i代表输入门 o代表输出门 f代表遗忘门):
σ是sigmoid函数,·代表element-wise multiplication
采用N-way softmax:
其中:
loss函数是:
此外,由于每个人的sequence的长度可能不一样,因此作者随机抽取固定长度的帧作为输入 这篇文章里取L = 10
timestamp也是10,每个timestamp输出512维的特征,所以整个输出是5120维的。
特征度量
本文中作者采用了余弦距离作为特征度量,也尝试用RankSVM。不过余弦距离就效果不错了
Si和Sj就是5120维的输出
实验结果
缺点分析
仅仅采用color和LBP作为特征还是存在局限性的,如果两个人衣服什么的穿的都很像,并且存在遮挡 光线变化 那么就会容易出现错误
改进
融入更多的特征,或者采用更深的LSTM网络会更好