《Relative Position and Map Networks in Few-shot Learning for Image Classification》

一、introduction

本文提出：Relative Position Network (RPN)&Relative Map Network (RMN)

本文贡献：（1）提出了一个基于度量学习和注意机制的小样本学习的新框架；

（2）为了更好地捕捉图像之间的内在对应和更好地度量图像的相似性提出了RPN和RMN；

（3）实验验证了本文的方法的有效性。

二、相关工作

1.Few-shot Learning

小样本学习是从有限的样例中学习概念，需要一种具有良好泛化能力且有效的表示学习。对于所有现有的方法，它们可以分为两类:基于度量的方法和基于梯度的方法。基于度量的方法与我们的工作更加相关，我们的工作更多地着眼于在学习过程中最小化类内距离，同时最大化不同类之间的距离。在我们的工作中，我们更多地关注关系网络，并使用新的方法来学习度量，以帮助模型更好地从较少的样本中学习。

2.Metric Learning

度量学习在许多视觉任务中扮演着非常重要的角色，因为深度学习模型的性能很大程度上依赖于选择一个好的度量。在小样本学习中，之前的度量方法往往会导致度量的复杂性，需要手动更改，直到性能达到理想的程度。在我们的工作中，我们没有尝试所有的度量来达到最先进的性能，而是应用了基于元学习的方法来让模型自动学习最好的度量。

3.Attention Mechanism

注意机制在图像字幕、语音识别和机器翻译等许多领域都非常流行。注意机制在许多与计算机视觉相关的任务中被证明是有用的。然而，大多数基于注意力的方法只关注单个图像中的注意力。在我们的工作中，我们使用来自不同图像的注意力来帮助比较差异，这将有助于模型学习重要的信息。

三、方法

1.问题定义

数据集包含支持及（S）和查询集（Q）。S中包含C个不同的图片类和每个类中有K个标记样本。小样本学习的目的是根据S对Q中的每个样本进行分类(C-way K-shot)。使用元训练数据集 $D_{tr}$ 和元测试数据集 $D_{te}$ ，episodic training paradigm(?)用来最小化 $D_{tr}$ 的泛化误差，将episodic training paradigm分为两步：（1）N-way，在 $D_{tr}$ 中随机抽取N个类；（2）K-shot，在C中随机抽取 $x_{i}$ 。我们采用支持集S作为测量标准，并使用查询集Q来优化模型的参数。同样可以在测试集D中提取支持集S和查询集Q来评估性能。我们将训练策略应用于我们的小样本实验(第4节)，我们也考虑了1-shot(K= 1)和5-shot(K = 5)的设置。

2.RPN

在RPN中，考虑到图像的不同位置可能具有不同的代表信息，我们认为在比较过程中必须对特征图的每个位置进行不同的处理。为此，我们提出了一种新的结构——相对位置网络(RPN)。基于注意机制的RPN通过对特征图中的位置产生不同的权重来确定哪些位置对模型比较重要。RPN的结构如图1所示。 $x^s$ 和 $x^Q$ 分别是来自于S和Q。 $M_{x^S }$ 和 $M_{x^Q }$ 表示它们的特征图。

图1.论文结构

S中的位置向量 $v_{i，j}^S$ ，Q中的位置向量 $v_{i,j}^Q$ ,将两个位置向量 $[v_{i,j}^S ,v_{i,j}^Q ]$ 串联成一个相对位置向量，得到相对位置向量的类内关系向量：

H（）为编码器，将两个位置向量连接映射为一个相对位置向量 $V_{i，j}^{s，q}$ ， $W_{1}$ 、 $W_{2}$ 是元学习器的参数，r是我们在实验中需要修正的比例，而 $\sigma$ 表示ReLU函数， $\frac{n}{r}$ 必须为整数。

$Att_{i，j}$ 代表相关位置参数。（3）（4）只对Q做注意力机制的操作。

3.RMN

原始关系网络只是将支持集和查询集的特征图连接起来，而没有充分体现比较原理。我们的目标是使网络能够单独和独立地比较这些图像，因为特征图中的每一张图都是不同的。首先，分别从特征图 $M_{x_{S} }^i$ 和 $M_{x_{Q} }^i$ 选择两个单独映射，然后对嵌入模型 $\hat{G}$ 进行训练，学习嵌入过程中的参数。每个嵌入模型 $\hat{G} _{\phi _{i} }^i$ 都需要输入特征图 $M_{x_{S} }^i$ 和 $M_{x_{Q} }^i$ 学习这些特征图之间的距离 $p_{i}$ ，而不是手工设计距离度量。此外，为了比较特征图，设计了单个全连接层来计算每个单个输出 $G_{\phi _{i} }^i(M_{x_{S} }^i ,M_{x_{Q} }^i )$ 的加权和 $P_{S,Q}$ ，该加权和作为 $M_{x_{S} }$ 和 $M_{x_{Q} }$ 之间的最终相似度分数：

$w_{i}$ 表示需要学习的权重，Sig代表sigmoid函数，该函数可以将最终的分数映射到数值范围0-1之间。

使用mean square error（MSE）loss：

四、实验

1.数据集

（1）Mini-Imagenet：包含来自100个类的60000幅彩色图像，每个类包含600幅图像。在我们的实验中，我们将每张图像的大小调整为84×84。此外，我们使用了与[19]相同的划分，他们使用64个类进行元训练，16个类进行元验证，20个类进行元测试。

（2）CIFAR-FS：CIFAR-FS采用与mini-Imagenet相同的标准从CIFAR-100中随机采样。我们使用的输入大小是32×32，比mini-Imagenet小。

2.实施细节

（1）数据扩充：在我们的实验中，我们使用随机调整剪裁、随机垂直翻转、随机水平翻转和颜色抖动的随机组来实现数据增强。我们只对训练集中的查询样本进行数据扩充，因为支持集是度量学习的准则，保持稳定的效果更好。

（2）特征提取：我们的特征提取器包含四个块。前两个块与关系网络中的块相同，分别包含卷积层、批处理模层、ReLU函数和最大池化层，最大池化层可以将特征图的大小减半。在最后两个块中，我们使用的块与ResNet中的块相同。

（3）RMN and RPN：在RMN中，我们使用不填充的3×3内核的卷积层、BN层和ReLU函数，以及两个用于全连接层的隐藏层的组合。在RPN中，我们将元学习器的比例设置为 $\frac{1}{2}$ 。注意，我们随机初始化了所有网络，没有涉及额外的数据集。

（4）优化器：使用Adam优化器。初始学习率设置为0.001，之后如果超过300次验证期的平均准确率没有提高，学习率降低到0.5。该模型的训练过程包含5000个元训练集、300个元验证集和600个元测试集。元训练的总集数设定为500000。

3.结果及分析

（1）比较:我们在表1和表2中展示了不同方法在Mini-ImageNet和CIFAR-FS数据集上的结果。我们观察到我们的方法在MiniImageNet上明显优于其他竞争对手，这清楚地证明了我们方法的有效性。然而，尽管我们的方法在MiniImageNet上的性能比GNN好得多，但它们在CIFAR-FS上的结果是可比较的，可能是由于数据集的差异。

表1

表2

（2）消融研究和可视化:为了证明我们的单独模块RPN和RMN能够真正工作，我们在我们的框架中进行消融研究。实验结果表明，RPN和PMN都能提高关系网络的性能。在RPN的评估中，我们结合了特征提取器、相对位置网络和一个类似RN的关系模块。对于RMN，我们使用与RMN相同的特征提取器。

表3.结果

五、结论

在本文中，我们提出了一种基于度量学习的小样本学习方法。与现有的基于度量学习的工作不同，我们通过深度卷积神经网络考虑图像特征映射的更精细信息来改进距离度量的学习。具体地说，我们开发了一个基于注意机制的相对位置网络模块（RPN），以更有效地从查询和支持图像的特征图中比较不同的激活细胞对。在此基础上，我们引入了相对地图网络(RMN)来学习基于这些注意力地图的距离度量，以更好地评价图像之间的相似性。在基准数据集上的大量实验证明了我们提出的方法比其他最先进的基线的有效性。