Unifying Deep Local and Global Features for Image Search

统一局部和全局特征进行图像搜索的深层(网络)

本文使用机翻，稍加润色，主要用于个人理解，不恰当之处请看客见谅。

摘要

图像检索是在图像数据库中搜索与查询图像相似的项的问题。为了解决这一问题，研究了两种主要的图像表示方法：全局图像特征和局部图像特征。在这项工作中，我们的主要贡献是将全局和局部特征统一到一个单一的深度模型中，从而实现精确的检索和高效的特征提取。我们将新模型称为DELG，代表了深层网络的本地和全局特性。我们利用最近特征学习工作的经验教训，提出了一个将全局特征的广义均值池和局部特征的注意选择相结合的模型。通过仔细平衡两部分之间的梯度流，整个网络可以端到端地学习——只需要图像级别的标签。我们还引入了一种基于自动编码器的局部特征降维技术，并将其集成到模型中，提高了训练效率和匹配性能。在重新修改的牛津和巴黎数据集上的实验表明，我们共同学习的基于ResNet-50的特征优于使用深层全局特征（大多数具有更重量级的主干）和那些进一步使用局部特征重新排序的结果。代码和模型将被发布。

关键词：deep features，image retrieval，unified model，深度特征，图像检索，统一模型

1. 介绍

大规模图像检索是计算机视觉中一个长期存在的问题，甚至在深度学习革命之前，计算机视觉就已经取得了很好的结果。这个问题的核心是用来描述图像及其相似性的表示。

为了获得高的图像检索性能，需要两种图像表示方法：全局特征和局部特征。全局特征，也称为“全局描述符”或“嵌入”，总结图像的内容，通常导致紧凑的表示；同时有关视觉元素的空间排列的信息丢失。另一方面，局部特征包括关于特定图像区域的描述符和几何信息；它们对于匹配描述刚性对象的图像特别有用。一般来说，全局特征的召回率较高，而局部特征的准确率较高。全局特征可以在局部特征无法找到对应关系的非常不同的姿势中学习相似性；相反，基于局部特征的几何验证提供的分数通常能很好地反映图像相似性，比全局特征距离更可靠。一个常见的检索系统设置是首先按全局特征进行搜索，然后使用局部特征匹配对顶级数据库图像进行重新排序，以获得两个特征字的最佳结果。这种混合方法得到普及的一个突出应用是视觉定位。

如今，大多数依赖于这两种特性的系统都需要使用不同的模型分别提取每种特性。这是不可取的，因为它可能导致高内存使用率和增加延迟，例如，如果两个模型都需要使用专用和有限的硬件（如gpu）运行。此外，在许多情况下，对两者执行类似类型的计算，导致冗余处理和不必要的复杂性。

图1. 我们提出的**DELG(Deep Local and Global features) **模型（左）联合提取了深层的局部和全局特征。全局特征可用于检索系统的第一阶段，以便有效地选择最相似的图像（底部）。然后，可以使用局部特征对上面的结果重新排序，从而提高检索结果的精度（右上角）。统一模型利用卷积神经网络诱导的层次图像表示来学习局部和全局表示，结合全局特征池和注意局部特征检测的最新进展。

贡献:（1）我们的第一个贡献是使用卷积神经网络（CNN）表示局部和全局特征的统一模型，称为DELG（深层局部和全局特征），如图1所示。这允许通过提取图像的全局特征、检测到的关键点和单个模型中的局部描述符进行有效的推断。我们的模型是通过利用CNNs中出现的分层图像表示来实现的，我们将其与广义均值池和注意局部特征检测相结合。（2）其次，我们采用卷积式自动编码模块，可以成功地学习低维的局部描述子。这可以很容易地集成到统一的模型中，并且避免了通常使用的后处理学习步骤（如PCA）的需要。（3）最后，我们设计了一个程序，使得只使用图像级监控的端到端的训练模型。这需要在反向传播过程中仔细控制全局和本地网络头之间的梯度流，以避免破坏所需的表示。通过系统的实验，我们证明我们的联合模型在仅使用全局特征进行检索或使用局部特征对这些结果重新排序时，在重新访问的ROxford和RParis数据集上取得了最新的性能。

2. 相关工作

我们回顾了局部和全局特征的相关工作，主要集中在与图像检索相关的方法上。

局部特征：手工（特征）的技术，如SIFT和SURF已经被广泛用于检索问题。早期的系统[32,28,39]的工作方式是根据一个包含局部描述符的大型数据库搜索查询局部描述符，然后用足够数量的对应关系对数据库图像进行几何验证。随后，根据通过局部描述符聚类获得的视觉单词，结合TF-IDF评分，采用Bag-of-Words[52]和相关方法[42,43,24]。与全局特征相比，局部特征用于检索的关键优势在于能够执行空间匹配，通常使用RANSAC。这已经被广泛使用，因为它取得了可靠和可解释的分数。最近，一些基于深度学习的局部特征被提出。与我们工作最相关的是DELF；我们提出的统一模型包含了DELF的注意力模块，但是除了支持全局特征提取之外，还有一个更简单的训练流程。

全局特征：全局特征在提供紧凑表示的高图像检索性能方面表现突出。在深度学习在计算机视觉中流行之前，它们主要是通过聚集手工制作的局部描述符来开发的。如今，大多数高性能的全局特征都是基于深层卷积神经网络，这些神经网络通过基于ranking-loss或classification loss进行训练。我们的工作利用了最近在全局特性设计方面的经验教训，通过采用GeM池化和ArcFace loss。这使得全局特征检索性能比以往的方法有了很大的提高，而基于同一模型的局部特征的几何重排序进一步提高了全局特征检索性能。

联合本地和全局CNN特征：以前的工作考虑卷积神经网络联合提取全局和局部图像特征。对于室内定位应用程序，Taira[53]等人使用预先训练的基于VGG的NetVLAD模型提取全局特征用于候选姿态检索，然后使用来自同一网络的特征映射进行密集的局部特征匹配。Simeoni[51]等人的DSM利用预先训练的全局特征模型，提出使用MSER检测深度激活映射中的关键点；激活通道被解释为视觉词义，可用于提出一对图像之间的暂定对应关系。我们的工作与[53,51]有很大的不同，因为它们只对经过预训练的全局特征模型进行后期处理以生成局部特征，而我们则联合训练局部和全局特征。Sarlin等人[48]提取预先训练好的局部SuperPoint[12]和全局NetVLAD[1]功能整合到单个模型中，以视觉定位应用为目标。相比之下，我们的模型是端到端的图像检索训练，并且不限于模拟单独的预先训练的局部和全局模型。据我们所知，我们是第一个研究学习一个既能产生局部图像特征又能产生全局图像特征的非分离模型。

图像检索的降维方法：PCA和whitening（白化）技术广泛应用于图像检索中局部和全局特征的降维。正如在[23]中所讨论的那样，白化权重同时作用于局部特征，这通常有利于检索应用。Mukundan等人[35]进一步引入一个收缩参数，该参数控制应用白花的程度。如果有匹配对或类别标签形式的监督，可以使用更复杂的方法。最近，Gordo等人[16] 提出用一个完全连通的层来代替PCA/白化，该层与全局描述符一起学习。

在本文中，我们的目标是构建一个可以端到端学习的系统，只使用图像级标签，不需要使训练更复杂的后处理阶段。此外，由于我们从常见CNN主干网的特征图中提取局部特征，它们往往是高维的，不适用于大规模问题。所有上述方法要么需要一个单独的后处理步骤来降低特征的维数，要么需要在本地补丁的级别上进行监督，导致它们不适合我们的需要。因此，我们在我们的模型中引入了一个自动编码器，它可以与网络的其他部分共同有效地学习。它不需要额外的监督，因为它可以训练与重建损失。

3. DELG

3.1 设计注意事项

为了获得最佳性能，图像检索需要对用户可能感兴趣的对象类型进行语义理解，以便系统能够区分相关对象与杂波/背景。因此，局部和全局特征都应该只关注图像中最具鉴别能力的信息。然而，在这两种特征模式的期望行为方面存在着实质性的差异，这对共同学习它们构成了相当大的挑战。

对于描绘同一感兴趣对象的图像，全局特征应该相似，否则应该不同。这需要对视点和光度变换保持不变的高级抽象表示。另一方面，局部特征需要对基于特定图像区域的表示进行编码；特别是，关键点检测器对于视点应该是等价的，并且关键点描述符需要对局部视觉信息进行编码。这对于在图像检索系统中广泛应用的查询图像和数据库图像之间进行几何一致性检查至关重要。

此外，我们的目标是设计一个可以端到端学习的模型，具有局部和全局特性，而不需要额外的学习阶段。这简化了训练流程，允许更快的迭代和更广泛的适用性。相比之下，以往的特征学习工作通常需要几个学习阶段：专注的局部特征深度学习[38]需要3个学习阶段（微调、注意力、主成分分析）；全局特征深度通常需要两个阶段，例如区域建议和Siamese训练[17]，或Siamese训练和监督白化[45]，或者ranking loss 训练和主成分分析[46]。

3.2 模型

我们设计DELG模型，如图1所示，以满足上述要求。我们建议利用CNNs[60]中的层次表示来表示要学习的不同类型的特征。虽然全局特征可以与表示高级线索的深层关联，但局部特征更适合于编码局部信息的中间层。

给定一幅图像，我们应用卷积神经网络主干来获得两个特征映射： $S\in R^(H_S \times W_S \times C_S)$ 和 $D\in R^(H_D \times W_D \times C_D)$ ，分别代表浅激活和深激活，式中H，W，C对应于每种情况下的高度、宽度和通道数量。对于通常的卷积网络， $H_D <= H_S$ ， $W_D <= W_S$ ， $C_D >=C_S$ ；较深的层具有空间上较小的映射，具有较大数量的通道。设 $s_{h,w}\in R^{C_S}$ 和 $d_{h,w} ∈R^{C_D}$ 表示这些映射中h，w位置的特征。对于一般的网络设计，这些特征是非负的，因为它们是在ReLU非线性之后获得的，我们的方法就是这样。