Aligned-Reid神经网络是一个复杂的类人脑神经网络。在培训阶段,需要考虑同时考虑多幅图像的全局及局部特征。其中对于局部特征提出了创新性的水平切割方法。为了实现这个过程,我们需要将图像水平分割,计算各部分的局部特征,然后将两张切割后的图片的局部特征从上到下一一进行对应计算,寻找两张图片之间的最小距离。 本文在原有的Reid方法的基础上,进一步优化损失函数。使用center loss, 重点改善了图像分类中的类间距离,提高了图像分类的质量。同时,该方法弥补了三元组损失只考虑相对距离的不足,将网络性能在一定程度内范围提高。
Abstract
The Aligned Reid neural network is a complex network for person re
-identification. In the training stage, it needs to consider the global and local features of multiple images at the same time. The processing of local features is ery innovative in the Reid field. To implement this process, we need to cut the mage horizontally and compute the local features of each part. Based on this step, we propose a new method to improve the performance. When computing the distance between two images, it is necessary to find the shortest distance between the two images by one-to-one correspondence of the cut local images according to the characteristics.
Based on the original Aligned Reid method, this dissertation further optimizes the evaluation of the loss function. We use the center loss method, which focuses on the inter-class distance in image classification, to improve the SoftMax loss result used to obtain the global features. At the same time, this method makes up for the disadvantage of the triple loss method which only considers the relative distance, and improves the network performance to a certain extent.
Keywords: Aligned Reid, Triplet Loss, Center Loss, SoftMax Loss, Local Feature
网络结构(Network structure )
在整个网络架构进入部署阶段后,我们输出只全局特征作为输入图像的最终输出。然而,在训练阶段,我们将网络模型分析得到的全局特征和局部特征结合起来,得到更好的网络权重参数,如图所示。 在最终的训练模型中,首先对数据进行预处理,将图像集进行数据处理并调整统一大小。然后,我们在数据扩充后将图像发送到模型进行处理。 训练模型中使用的CNN网络是resnet50神经网络,但是因为作为训练对象的图像经过了一系列的预处理,网络对其特征具有独特的结构要求,所以有必要重建最后两层网络结构,确保网络结构的相关参数与我们预期网络结构一致。因此网络的最后两层被修改为:
(argpool) ArgPool2d(kernel_ size = 7 , stride = 1 , padding = 0)
(fc) Linear(in_ feature = 2048 , out_ feature = 1000 , bias = True)
对于模型末尾的卷积层,我们直接进行全局池化,得到图像全局特征图像特征(大小为(32,2048,8,4))。之后为了得到局部特征,我们再次将全局特征在水平方向上再次池化, 从每一行特征中提取一个局部特征(大小为(32,2048,1,1)),最后得到一幅图像的全局特征和局部特征。图像的最终全局特征由两部分组成,首先是基于三元组损失函数计算全局特征的结果。之后利用中心损失优化了SoftMax损失的计算结果,减小了分类结果的类内间距。然后我们把这两种损失相加得到最终的全局损失。局部损失则通过对水平分割后的特征进行一个由上而下的动态匹配过程得到。最终三个损失相加得到网络的损失函数:
𝐹𝑖𝑛𝑎𝑙 𝑙𝑜𝑠𝑠 = 𝑆𝑜𝑓𝑡𝑀𝑎𝑥 𝑙𝑜𝑠𝑠 + \𝑐𝑒𝑛𝑡𝑒𝑟 𝑙𝑜𝑠𝑠 𝑤𝑒𝑖𝑔ℎ𝑡 ∗ 𝑐𝑒𝑛𝑡𝑒𝑟 𝑙𝑜𝑠𝑠 + 𝑡𝑟𝑖𝑝𝑙𝑒𝑡 𝑙𝑜𝑠𝑠
在困难样本的挖掘中,仍然使用全局特征进行挖掘,这是因为与局部特征相比、全局特征的处理比较快,并且没有明显的结果差异。
局部特征获取详解(Local loss—Aligned Reid )
在这个过程中我们已经将图片水平分割并且进行池化得到局部feature map,接下来重要的一步就是将两张图片之间的特征进行匹配,其过程如图所示, 显示了一次从上到下的动态对齐过程,虚线代表第一次匹配而实线代表最终匹配的切片:
我们定义两幅图像之间的距离是从点(1,1)到点 (H,H)在路径图矩阵中的最短路径之和,找寻路径的过程如下所示:
其计算公式如下:
最终结果
与人类精度对比
与其他网络结果对比