Content-Aware Unsupervised Deep Homography Estimation
- 作者:Jirong Zhang; Chuan Wang; Shuaicheng Liu; Lanpeng Jia; Nianjin Ye; Jue Wang; Ji Zhou; Jian Sun
- 机构:电子科技大学
- 年份:2020
- 期刊/会议:European Conference on Computer Vision (ECCV)
- 原文地址:Content-Aware Unsupervised Deep Homography Estimation
单应性估计是许多应用中的基本图像对齐方法。它通常通过提取和匹配稀疏特征点来进行,这些特征点在低光和低纹理图像中容易出错。另一方面,以前的深度单应性方法要么使用合成图像进行监督学习,要么使用航拍图像进行无监督学习,都忽略了在现实世界应用中处理深度差异和移动物体的重要性。为了克服这些问题,在这项工作中,我们提出了一种具有新架构设计的无监督深度单应性方法。本着传统方法中 RANSAC 程序的精神,我们专门学习了一个异常值掩码,以仅选择可靠的区域进行单应性估计。我们根据学习到的深度特征计算损失,而不是像以前那样直接比较图像内容。为了实现无监督训练,我们还为我们的网络制定了一个新的三元组损失。我们通过对新数据集进行全面比较来验证我们的方法,该数据集涵盖了任务难度不同的广泛场景。实验结果表明,我们的方法优于最先进的方法,包括深度解决方案和基于特征的解决方案。
Ⅰ 介绍
估计单应性可以对齐从不同角度拍摄的图像。但需要一个前提条件,那就是图像是经历旋转运动或是近似平面的。对于满足这种约束的情况,单应性可以直接用来对齐。对于不满足这种情况的场景,估计单应性也是使用更高级模型的前提,用于初始对齐。因此,单应性的估计至关重要。
作者比较了两种估计单应性的方法:
- 一种是传统的SIFT+RANSAC的方式,利用传统的特征点提取算法获得匹配点对,利用RANSAC算法筛选并通过直接线性变换 (DLT) 估计单应性。这种方法通常能取得良好的效果,但是十分依赖特征点的数量和质量,对于无纹理区域,重复图像或者光照变化的场景,基于特征的单应性估计是一项充满挑战的任务。
- 另一种是用深度神经网络。又包括有监督学习和无监督学习。其中有监督学习的方式需要将真实的单应性作为groundtruth,只能采用合成数据的方式获取,这种方法对于真实图像的泛化能力很弱。为了解决这个问题,有人提出无监督的单应性估计方式,但仍然有两个问题:一是全局损失函数不如用特征的方法有效。另一个是场景中移动和非平面物体对损失函数的影响。
为了解决上述的问题,作者提出一种内容意识学习的新架构,构建无监督单应性估计解决方案。这种方法适用于基线较小的情况,适用于连续帧、连拍图像或双摄相机拍摄的照片。
作者的主要贡献为:
- 一种新颖的网络结构,可以从具有小基线的两个图像中进行内容感知的鲁棒单应性估计。
- 为无监督训练设计的三元组损失,以便可以产生最佳单应矩阵作为输出,连同用于对齐的深度特征图和突出显示对齐内点的掩码,作为中间结果隐式学习。
- 一个全面的数据集涵盖了图像对齐模型无监督训练的各种场景,包括但不限于单应性、网格扭曲或光流。
Ⅱ 相关工作
传统的单应性估计:单应矩阵为一个的8自由度的矩阵构成,为了解决单应性,传统方法利用特征提取和检测匹配图像。例如SIFT、SURF等等,然后采用鲁棒估计如RANSAC、MAGSAC等,用于模型估计期间的异常值拒绝。
深单应性:随着光流等各种深度图像对齐方法的成功, 密集匹配 ,学习描述符和深层特征,一个深度单应性解决方案首先在2016年提出。网络以源图像和目标图像为输入,产生源图像的4个角位移向量,从而产生单应性。它使用 GT 单应性来监督训练。然而,生成具有 GT 单应性的训练图像时没有深度差异。
图像拼接:图像拼接方法是专注于在大基线下拼接图像的传统方法为了构建全景图。拼接的图像通常以巨大的视点差异捕获。在这项工作中,我们专注于具有小基线的图像,以用于多帧应用程序。
Ⅲ 算法
网络结构
作者的方法基于卷积神经网络。需要两个灰度图和作为输入,估计从到的单应性,整个结构可以被分为三个部分:特征提取、掩码预测和单应估计,和是纯卷积神经网络,可以接收任意大小的图像,使用ResNet-34作为backbone并且生成8个值。
特征提取
不像之前提到的DNN的方法直接使用像素强度作为特征,作者提出的方法自动从输入图像中学习鲁棒的特征对齐,最终建立一个全卷积神经网络,输入图像大小为,产生一个大小为的特征图。对于输入图像和,提取到的特征分别为:
掩码估计
在非平面区域,特别是包括移动物体的情况下,不存在一个单应性可以将两张图片对齐。借助RANSAC的思想,作者构建一个子网络学习内点的位置。具体而言,利用子网络生成内部概率图或掩码,突出显示对单应性估计贡献很大的特征图中的内容。掩码和的大小与特征图大小相同。有了掩码之后,在将数据喂到单应矩阵估计前可以对特征提取后的特征进行加权。,获得带权重的特征图:
单应估计
有了带权重的特征图和,可以构建一个的特征图,喂到单应估计中,输出4个2为偏置(8个值)作为输出,以此估计单应性。用表示这一过程,即
为ResNet-34结构,输出大小固定为8.
鲁棒单应估计三元损失
单应矩阵估计之后,将扭曲为,得到特征图,如果单应矩阵估计正确,那么和应该对齐,误差会尽可能小,考虑到实际情况,单应矩阵不可能完全将两幅图像对齐,采用和对齐图像。
下标表示掩码和特征图中的像素位置。
直接最小化(4)会使得和都为0,不能真实反映原始图像的对齐关系,定义另一种损失函数
最小化(4)的同时最大化(5),可以避免全零解。
在实际中,作者还产生了到的另一个单应矩阵,还使用了(4)式得到计算到的损失函数,将和互为逆作为约束条件,因此最终的损失函数变为:
在实验中,作者将和分别设为2.0和0.01,结果如下图所示。
Ⅳ 实验
Ⅴ 结论
作者提出了一种新架构,用于具有内容感知能力的无监督深度单应性估计,适用于小型基线场景。与严重依赖图像特征质量而容易受到低纹理和低光场景影响的传统特征基方法或以前不太关注深度视差问题的基于 DNN 的解决方案不同,本文提出的网络学习了一个内容感知掩码在估计期间拒绝异常值,以便网络可以专注于可以通过单应性对齐的区域。为了实现它,我们设计了一种新颖的三元组损失来实现对我们网络的无监督训练。此外,我们提供了一个用于图像对齐的综合数据集。数据集分为5类场景,可用于未来图像对齐模型的研究,包括但不限于单应性、网格对齐和光流。大量的实验和消融研究证明了我们的网络以及三重损失设计的有效性,并揭示了我们的方法相对于最先进技术的优越性。