【文献阅读笔记】2017-CVPR-Convolutional neural network architecture for geometric matching

Abstract

解决的问题：给出两张图片之间的联系所符合的几何变换模型（例如仿射变换、薄板样条插值）。

本工作的贡献主要有三方面：

给出两张图片之间的联系所符合的几何变换模型。
证明网络参数可以从生成的图像中训练，无需人工标注。
该模型在实例层面和类别层面的匹配中都能够表现出很好的结果。

1. Introduction

传统的估计图像间联系的方法表现不好的情况：

同个类别在表现上的变化
图像中场景布局的变化或非刚性变形（可能需要复杂的几何学模型和过多的参数）

我们用一个CNN结构来模拟标准的匹配过程：
首先，用可训练的卷积神经网络特征替代标准的局部特征，可以处理要匹配的图像之间外观有巨大变化的情况；
其次，开发了可训练的匹配和转换估计层，可以具有鲁棒性地处理噪声和错误的匹配。

成果：一个用于几何匹配任务的可训练的CNN结构，可以应对外观上有较大变化的情况，因此适于应用在实例层面以及分类层面的匹配问题上。

2. Related Work

经典的找到图片联系的方法包含确认兴趣点、计算局部描述子。此方法在实例层面的匹配上表现不错，但在分类层面的匹配上缺乏泛化能力。

最近也有很多使用CNN来学习更强大的特征描述子的方法，但这些方法仍将图片划分为一系列局部块，独立地从每块上提取描述子。（提取描述子的方法之后还被拿来和距离测度的方法作比较。）
而本文是将一张图片整体看待，这样可以更大程度地捕捉到图像各部分之间的相互影响。

本方法是一种端到端的方式，全部是可训练的，在用模型求对于几何匹配的估计时不需要进行任何最优化过程，也不需要通过目标建议来引导。

3. Architecture for geometric matching

网络结构：

网络结构.PNG

输入图像 $I_A$ 和 $I_B$ 通过一个由卷积层组成的孪生结构，提取出类同于传统方法中稠密局部描述子的特征图 $f_A$ 和 $f_B$
匹配两张图片的特征图，得到一张暂定的一致性图 $f_{AB}$
回归网络，直接输出具有鲁棒性的几何模型的参数 $\hat{\theta}$

网络的输入是两张图片，输出是选出的几何模型的参数。

1、特征提取层：

一个无全连层的CNN用于接收输入图像，产生特征图 $f\in\Bbb R^{h\times w \times d}$ ，可解释为 $h\times w$ 的稠密空间网格下的 $d$ 维局部描述子。

使用在pool4处（ReLU单元之前）截断的VGG-16网络进行特征提取，之后是对于每个特征的L2归一化。使用的模型已经在ImageNet上做过图像分类任务的预训练。

2、匹配网络层：

生成暂定联系的传统方法：

先计算两张图中所有对应的描述子间的相似性，在所有用于几何估计的必要信息都包含到了成对描述子的相似性以及它们的空间位置之后，便可将最初的描述子抛弃。之后，便可通过设立门限值或者只保留那些在其空间邻域上包含有最接近（相似）的特征的匹配。

匹配层（本文的方法）：

匹配网络层.PNG

这个过程简单来说就是：首先，通过一个相关性层计算所有成对的描述子的相似性。之后处理相似性分数，利用归一化使那些较为模糊的匹配（非最佳匹配）大幅降低权重。

具体来说，在给出L2归一化的稠密特征图 $f_A,f_B\in\Bbb R^{h\times w \times d}$ 后，先从相关性层输出相关图 $c_{AB}\in \Bbb R^{h \times w \times (h \times w)}$ 。相关性层包含在每个位置上做点积的一对独立描述子 $\rm f\it_A \in f_A$ 和 $\rm f\it_B \in f_B$ ：
$c_{AB}(i,j,k)=\rm f \it_B(i,j)^T \rm f \it_A(i_k,j_k)$
也就是说 $c_{AB}$ 是将所有B中的某一个特征 $\rm f \it _B$ 和A中的全部特征 $f_A$ 做点积运算后的结果。 $k$ 表示的是A中当前的特征序号。
之后在相关性图的每个空间位置上应用一个通道方向（即图中k那个方向）的归一化以产生最终的暂定的一致性图 $f_{AB}$ 。归一化过程先通过ReLU使负相关性变为0，之后是L2归一化。这样能放大那些 $\rm f \it _B$ 只与 $f_A$ 中的某一个特征很相关的情况的分数，而压低那些 $\rm f \it _B$ 能与 $f_A$ 中多个特征匹配（可能是由于杂乱或重复图样的存在）的情况中非最佳匹配点的权重。（其实就是这个意思：我们事先并不知道相似度的绝对范围，所以我们更加关注于一张图中每个相似度的相对大小。把它们做归一化实际上就是让原来值比较大的值变得相对更大，让原来值比较小的值变得相对更小。）

求相关性和归一化这两个过程都是关于输入描述子可导的（ReLU从数学上来看在0点不可导，不过我们一般会规定在0点的导数，这样整个函数就是可导的了），这样可以实现反向传播，使该模型可以做到端到端的学习。

3、回归网络

回归网络.PNG

之前得到的归一化相关性图通过一个回归网络，直接估计出关联两张图片的几何转换的参数 $\hat{\theta}$ 。

如图所示，堆叠两个后跟批归一化和ReLU激活函数的卷积块，并在最后添加一个全连层以回归出转换的参数。

这样的网络结构模拟的是传统方法中用于只保留那些在其空间邻域上与其它匹配相符的匹配的方法。

4、转换层级

转换层级.PNG

可以先将变换估计成一个简单的变换，之后再进一步增加变换的复杂性。这里遵循了此种策略（如上图所示），先将图像A和图像B之间的转换估计成一个6维的仿射变换。将得到的这个初步变换应用到A上，使之与B初步匹配，之后再将这个变换后的A和图像B之间的转换估计成一个具有18个参数的TPS变换。最终对于整个变换过程的估计就由一个仿射变换和一个TPS变换组成（整体也是一个TPS变换）。

4. Training

损失函数

设 $\theta_{GT}$ 是真实的转换参数， $\hat \theta$ 是对于转换参数的估计。我们构造图片A中的网格点，分别对A使用真实转换 $\cal T \it_{\theta_{GT}}$ 和对估计出的转换 $\cal T \it_{\hat \theta}$ ，通过对对应网格点求平方距离加和来衡量两种转换后网格点的差异：
$\cal L \it (\hat{\theta}, \theta_{GT})=\frac{1}{N}\sum_{i=1}^{N}{\rm d \it (\cal T \it_{\hat \theta}(g_i),\cal T \it _{\theta_{GT}}(g_i))^2}$
其中 $\cal G \it={g_i}={(x_i,y_i)}$ 是使用的均匀网格， $N=|\cal G \it |$ 是网格点数量。定义网格点 $x_i,y_i$ 都是区间[-1,1]内间隔为0.1的点。

训练数据

模型的训练过程需要完全有监督的训练数据，包括大量图像对以及它们之间的几何转换关系。

使用“综合生成”方法生成训练数据

综合生成法.PNG

从公开数据集的图像中采样出 $I_A$ ，应用随机的转换 $\cal T \it_{\theta_{GT}}$ 来生成 $I_B$ 。具体来说，“综合生成”指的是裁剪原始图片的中心部分作为 $I_A$ ，而使用在裁剪部分 $I_A$ 外再添加一些padding的图像区域来生成转换图像 $I_B$ （因为B可能会扭曲，从而A图外面一点的部分有可能进入B图范围内）。

5. Experimental results

定量结果

在Proposal Flow数据集上做任务：检测出图A中预先确定好的关键点在图B中的对应位置。结果胜过所有当前最好方法。

定量结果.PNG

定性结果

无论是图像分类级别的匹配，还是实例级别的匹配，结果都是非常准确的。

图像分类级别的匹配（和上面定量结果的表格是相同的实验）：

图像分类级别定性结果.PNG

实例级别的匹配：

实例级别定性结果.PNG

最后还有一些关于卷积过滤器的讨论，暂略……

附：词汇表

geometric 几何学的
affine transformation 仿射变换
mimic 模仿，模仿的
manual 手工的，人工的
thin-plate spline (TPS) 薄板样条插值
synthetically 综合地，合成地
inlier：可以被模型描述的正确数据（对应于outlier：偏离正常范围很远、无法适应模型的数据）
image manipulation 图像处理
prune 删除，修剪
non-rigid deformations 非刚性变形
in a manner 在某种意义上，在某种程度上
build on 依赖
descriptor 描述子
homography estimation 单应估计
differentiable 可微分的
clutter 杂乱，混乱
substantial 大量的，结实的，本质，重要材料
tentative 试验性的，暂定的，假设
analogous 相似的，类似的
retrieval 检索，恢复
discriminative 区别的，有识别力的
scalar product 点积
repetitive 重复的
consensus 一致
hierarchy 层级
metric 度量标准
illumination 光照

【文献阅读笔记】2017-CVPR-Convolutional neural network architecture for geometric matching