Content-Aware Unsupervised Deep Homography Estimation

作者：Jirong Zhang; Chuan Wang; Shuaicheng Liu; Lanpeng Jia; Nianjin Ye; Jue Wang; Ji Zhou; Jian Sun
机构：电子科技大学
年份：2020
期刊/会议：European Conference on Computer Vision (ECCV)
原文地址：Content-Aware Unsupervised Deep Homography Estimation

单应性估计是许多应用中的基本图像对齐方法。它通常通过提取和匹配稀疏特征点来进行，这些特征点在低光和低纹理图像中容易出错。另一方面，以前的深度单应性方法要么使用合成图像进行监督学习，要么使用航拍图像进行无监督学习，都忽略了在现实世界应用中处理深度差异和移动物体的重要性。为了克服这些问题，在这项工作中，我们提出了一种具有新架构设计的无监督深度单应性方法。本着传统方法中 RANSAC 程序的精神，我们专门学习了一个异常值掩码，以仅选择可靠的区域进行单应性估计。我们根据学习到的深度特征计算损失，而不是像以前那样直接比较图像内容。为了实现无监督训练，我们还为我们的网络制定了一个新的三元组损失。我们通过对新数据集进行全面比较来验证我们的方法，该数据集涵盖了任务难度不同的广泛场景。实验结果表明，我们的方法优于最先进的方法，包括深度解决方案和基于特征的解决方案。

Ⅰ 介绍

估计单应性可以对齐从不同角度拍摄的图像。但需要一个前提条件，那就是图像是经历旋转运动或是近似平面的。对于满足这种约束的情况，单应性可以直接用来对齐。对于不满足这种情况的场景，估计单应性也是使用更高级模型的前提，用于初始对齐。因此，单应性的估计至关重要。

作者比较了两种估计单应性的方法：

一种是传统的SIFT+RANSAC的方式，利用传统的特征点提取算法获得匹配点对，利用RANSAC算法筛选并通过直接线性变换 (DLT) 估计单应性。这种方法通常能取得良好的效果，但是十分依赖特征点的数量和质量，对于无纹理区域，重复图像或者光照变化的场景，基于特征的单应性估计是一项充满挑战的任务。
另一种是用深度神经网络。又包括有监督学习和无监督学习。其中有监督学习的方式需要将真实的单应性作为groundtruth，只能采用合成数据的方式获取，这种方法对于真实图像的泛化能力很弱。为了解决这个问题，有人提出无监督的单应性估计方式，但仍然有两个问题：一是全局损失函数不如用特征的方法有效。另一个是场景中移动和非平面物体对损失函数的影响。

为了解决上述的问题，作者提出一种内容意识学习的新架构，构建无监督单应性估计解决方案。这种方法适用于基线较小的情况，适用于连续帧、连拍图像或双摄相机拍摄的照片。

作者的主要贡献为：

一种新颖的网络结构，可以从具有小基线的两个图像中进行内容感知的鲁棒单应性估计。
为无监督训练设计的三元组损失，以便可以产生最佳单应矩阵作为输出，连同用于对齐的深度特征图和突出显示对齐内点的掩码，作为中间结果隐式学习。
一个全面的数据集涵盖了图像对齐模型无监督训练的各种场景，包括但不限于单应性、网格扭曲或光流。

与一种传统的基于特征的方法相比，即 SIFT + RANSAC 和一种基于 DNN 的无监督方法相比(a) 一个占主导地位的移动前景的例子。(b) 低纹理示例。(c) 低光示例。

Ⅱ 相关工作

传统的单应性估计：单应矩阵为一个 $3\times3$ 的8自由度的矩阵构成，为了解决单应性，传统方法利用特征提取和检测匹配图像。例如SIFT、SURF等等，然后采用鲁棒估计如RANSAC、MAGSAC等，用于模型估计期间的异常值拒绝。

深单应性：随着光流等各种深度图像对齐方法的成功，密集匹配，学习描述符和深层特征，一个深度单应性解决方案首先在2016年提出。网络以源图像和目标图像为输入，产生源图像的4个角位移向量，从而产生单应性。它使用 GT 单应性来监督训练。然而，生成具有 GT 单应性的训练图像时没有深度差异。

图像拼接：图像拼接方法是专注于在大基线下拼接图像的传统方法为了构建全景图。拼接的图像通常以巨大的视点差异捕获。在这项工作中，我们专注于具有小基线的图像，以用于多帧应用程序。

Ⅲ 算法

网络结构

作者的方法基于卷积神经网络。需要两个灰度图 $I_{a}$ 和 $I_{b}$ 作为输入，估计从 $I_{a}$ 到 $I_{b}$ 的单应性 ${\bf H} _{ ab}$ ，整个结构可以被分为三个部分：特征提取 $f(\cdot)$ 、掩码预测 $m(\cdot)$ 和单应估计 $h(\cdot)$ ， $f(\cdot)$ 和 $m(\cdot)$ 是纯卷积神经网络，可以接收任意大小的图像， $h(\cdot)$ 使用ResNet-34作为backbone并且生成8个值。

作者提出的网络结构

特征提取

不像之前提到的DNN的方法直接使用像素强度作为特征，作者提出的方法自动从输入图像中学习鲁棒的特征对齐，最终建立一个全卷积神经网络，输入图像大小为 $H\times W\times 1$ ，产生一个大小为 $H\times W\times C$ 的特征图。对于输入图像 $I_{a}$ 和 $I_{b}$ ，提取到的特征分别为：
$F_\beta=f(I_\beta),\qquad\beta\in\{a,b \} \tag{1}$

掩码估计

在非平面区域，特别是包括移动物体的情况下，不存在一个单应性可以将两张图片对齐。借助RANSAC的思想，作者构建一个子网络学习内点的位置。具体而言，利用子网络 $m(\cdot)$ 生成内部概率图或掩码，突出显示对单应性估计贡献很大的特征图中的内容。掩码 $F_a$ 和 $F_b$ 的大小与特征图大小相同。有了掩码之后，在将数据喂到单应矩阵估计前可以对特征提取后的特征进行加权。，获得带权重的特征图：
$M_\beta=m(I_\beta),\quad G_\beta=F_\beta M_\beta,\qquad\beta\in\{a,b\}\tag{2}$

单应估计

有了带权重的特征图 $G_a$ 和 $G_b$ ，可以构建一个 $H\times W\times 2C$ 的特征图 $[G_a,G_b]$ ，喂到单应估计中，输出4个2为偏置（8个值）作为输出，以此估计单应性。用 $h(\cdot)$ 表示这一过程，即
$H_{ab}=h([G_a,G_b])\tag{3}$
$h(\cdot)$ 为ResNet-34结构，输出大小固定为8.

鲁棒单应估计三元损失

单应矩阵 ${\bf H}_{ ab}$ 估计之后，将 $I_a$ 扭曲为 $I_{a}^\prime$ ，得到特征图 $F_a^\prime$ ，如果单应矩阵估计正确，那么 $F_a^\prime$ 和 $F_b$ 应该对齐，误差 $l_1$ 会尽可能小，考虑到实际情况，单应矩阵不可能完全将两幅图像对齐，采用 $M_a^\prime$ 和 $M_b$ 对齐图像。
$L_n(I_a^\prime,I_b) = \frac{\sum_{i}{M_a^\prime M_b\cdot\|F_a^\prime-F_b\|_1}}{\sum_iM_a^\prime M_b}\tag{4}$
下标 $i$ 表示掩码和特征图中的像素位置。

直接最小化(4)会使得 $F_a^\prime$ 和 $F_b$ 都为0，不能真实反映原始图像的对齐关系，定义另一种损失函数
$L(I_a,I_b)=\|F_a-F_b\|_1\tag{5}$
最小化(4)的同时最大化(5)，可以避免全零解。

在实际中，作者还产生了 $I_b$ 到 $I_a$ 的另一个单应矩阵 $H_{ba}$ ，还使用了(4)式得到计算 $I_b^\prime$ 到 $I_a$ 的损失函数 $L_n(I_b^\prime,I_a)$ ，将 ${\bf H}_{ ab}$ 和 ${\bf H}_{ba}$ 互为逆作为约束条件，因此最终的损失函数变为：
$\min_{m,f,h}L_n(I_a^\prime,I_b)+L_n(I_b^\prime,I_a)-\lambda L(I_a,I_b)+\mu\|H_{ab}H_{ba}-I\|_2^2\tag{6}$
在实验中，作者将 $\lambda$ 和 $\mu$ 分别设为2.0和0.01，结果如下图所示。

对我们的特征提取器有效性的消融研究，通过照度变化的例子来证明，分别显示在左右两列中。对于每个示例，输入和目标 GT 图像在第 1 行，然后是禁用特征提取器的结果 F( ⋅ ) （第 2 行）和我们的（第 3 行），包括学习的掩码和奇数列和偶数列中的对齐结果。正如所见，对于这种情况，我们的结果显然是稳定的。

第 1 行和第 2 行：我们为各种场景预测的掩码。(a) 和 (b) 包含大的动态前景。(c) 包含很少的纹理，(d) 是一个夜间示例。第 3 行和第 4 行：对内容感知掩码的消融研究。我们禁用掩码的两个或一个角色进行比较。错误显示在底部。

Ⅳ 实验

我们的数据集一览。左边6列，从上到下是数据集的5个类别。最右边的列显示了用于定量评估的人类标记点对应的两个示例。

与现有的基于 DNN 的方法的比较。第 1 列显示输入和 GT 目标图像，第 2 到 4 列是有监督、无监督和我们的方法。所有基于 DNN 的方法的错误都通过底部的条形图显示。

我们的方法与所有其他方法之间的定量比较，包括基于 DNN（第 3、4 行）和基于特征（第 5-12 行）的方法，在误差 (a) 和鲁棒性 (b) 方面，以及对掩模的消融研究（第 2-4 行）、三元组损失（第 5 行）、特征提取器（第 6 行）、主干（第 7-9 行）和 (c) 中的训练策略（第 10 行）。对于（b），我们计算匹配点在 3 个像素内时的内点百分比。对于每个场景，我们用红色标记最佳解决方案。对于我们击败其他人的场景，我们将第二个最佳解决方案标记为蓝色。

与 8 个基于特征的解决方案在 3 个示例上的比较，如 (a)(d)、(b)(e) 和 (c)(f) 所示。对于前两个例子，我们的方法产生了更准确的结果，而对于最后一个但并非最不重要的，大多数基于特征的解决方案都非常失败，这在低纹理或低光场景中经常发生。我们还在条形图中显示了所有方法的错误。

Ⅴ 结论

作者提出了一种新架构，用于具有内容感知能力的无监督深度单应性估计，适用于小型基线场景。与严重依赖图像特征质量而容易受到低纹理和低光场景影响的传统特征基方法或以前不太关注深度视差问题的基于 DNN 的解决方案不同，本文提出的网络学习了一个内容感知掩码在估计期间拒绝异常值，以便网络可以专注于可以通过单应性对齐的区域。为了实现它，我们设计了一种新颖的三元组损失来实现对我们网络的无监督训练。此外，我们提供了一个用于图像对齐的综合数据集。数据集分为5类场景，可用于未来图像对齐模型的研究，包括但不限于单应性、网格对齐和光流。大量的实验和消融研究证明了我们的网络以及三重损失设计的有效性，并揭示了我们的方法相对于最先进技术的优越性。

内容感知非监督深度单应估计