内容感知非监督深度单应估计

Content-Aware Unsupervised Deep Homography Estimation

  • 作者:Jirong Zhang; Chuan Wang; Shuaicheng Liu; Lanpeng Jia; Nianjin Ye; Jue Wang; Ji Zhou; Jian Sun
  • 机构:电子科技大学
  • 年份:2020
  • 期刊/会议:European Conference on Computer Vision (ECCV)
  • 原文地址:Content-Aware Unsupervised Deep Homography Estimation

单应性估计是许多应用中的基本图像对齐方法。它通常通过提取和匹配稀疏特征点来进行,这些特征点在低光和低纹理图像中容易出错。另一方面,以前的深度单应性方法要么使用合成图像进行监督学习,要么使用航拍图像进行无监督学习,都忽略了在现实世界应用中处理深度差异和移动物体的重要性。为了克服这些问题,在这项工作中,我们提出了一种具有新架构设计的无监督深度单应性方法。本着传统方法中 RANSAC 程序的精神,我们专门学习了一个异常值掩码,以仅选择可靠的区域进行单应性估计。我们根据学习到的深度特征计算损失,而不是像以前那样直接比较图像内容。为了实现无监督训练,我们还为我们的网络制定了一个新的三元组损失。我们通过对新数据集进行全面比较来验证我们的方法,该数据集涵盖了任务难度不同的广泛场景。实验结果表明,我们的方法优于最先进的方法,包括深度解决方案和基于特征的解决方案。

Ⅰ 介绍

估计单应性可以对齐从不同角度拍摄的图像。但需要一个前提条件,那就是图像是经历旋转运动或是近似平面的。对于满足这种约束的情况,单应性可以直接用来对齐。对于不满足这种情况的场景,估计单应性也是使用更高级模型的前提,用于初始对齐。因此,单应性的估计至关重要。

作者比较了两种估计单应性的方法:

  • 一种是传统的SIFT+RANSAC的方式,利用传统的特征点提取算法获得匹配点对,利用RANSAC算法筛选并通过直接线性变换 (DLT) 估计单应性。这种方法通常能取得良好的效果,但是十分依赖特征点的数量和质量,对于无纹理区域,重复图像或者光照变化的场景,基于特征的单应性估计是一项充满挑战的任务。
  • 另一种是用深度神经网络。又包括有监督学习和无监督学习。其中有监督学习的方式需要将真实的单应性作为groundtruth,只能采用合成数据的方式获取,这种方法对于真实图像的泛化能力很弱。为了解决这个问题,有人提出无监督的单应性估计方式,但仍然有两个问题:一是全局损失函数不如用特征的方法有效。另一个是场景中移动和非平面物体对损失函数的影响。

为了解决上述的问题,作者提出一种内容意识学习的新架构,构建无监督单应性估计解决方案。这种方法适用于基线较小的情况,适用于连续帧、连拍图像或双摄相机拍摄的照片。

作者的主要贡献为:

  • 一种新颖的网络结构,可以从具有小基线的两个图像中进行内容感知的鲁棒单应性估计。
  • 为无监督训练设计的三元组损失,以便可以产生最佳单应矩阵作为输出,连同用于对齐的深度特征图和突出显示对齐内点的掩码,作为中间结果隐式学习。
  • 一个全面的数据集涵盖了图像对齐模型无监督训练的各种场景,包括但不限于单应性、网格扭曲或光流。
与一种传统的基于特征的方法相比,即 SIFT + RANSAC 和一种基于 DNN 的无监督方法相比(a) 一个占主导地位的移动前景的例子。(b) 低纹理示例。(c) 低光示例。

Ⅱ 相关工作

传统的单应性估计:单应矩阵为一个3\times3的8自由度的矩阵构成,为了解决单应性,传统方法利用特征提取和检测匹配图像。例如SIFT、SURF等等,然后采用鲁棒估计如RANSAC、MAGSAC等,用于模型估计期间的异常值拒绝。

深单应性:随着光流等各种深度图像对齐方法的成功, 密集匹配 ,学习描述符和深层特征,一个深度单应性解决方案首先在2016年提出。网络以源图像和目标图像为输入,产生源图像的4个角位移向量,从而产生单应性。它使用 GT 单应性来监督训练。然而,生成具有 GT 单应性的训练图像时没有深度差异。

图像拼接:图像拼接方法是专注于在大基线下拼接图像的传统方法为了构建全景图。拼接的图像通常以巨大的视点差异捕获。在这项工作中,我们专注于具有小基线的图像,以用于多帧应用程序。

Ⅲ 算法

网络结构

作者的方法基于卷积神经网络。需要两个灰度图I_{a}I_{b}作为输入,估计从I_{a}I_{b}的单应性{\bf H} _{ ab},整个结构可以被分为三个部分:特征提取f(\cdot)、掩码预测m(\cdot)和单应估计h(\cdot)f(\cdot)m(\cdot)是纯卷积神经网络,可以接收任意大小的图像,h(\cdot)使用ResNet-34作为backbone并且生成8个值。

作者提出的网络结构
特征提取

不像之前提到的DNN的方法直接使用像素强度作为特征,作者提出的方法自动从输入图像中学习鲁棒的特征对齐,最终建立一个全卷积神经网络,输入图像大小为H\times W\times 1,产生一个大小为H\times W\times C的特征图。对于输入图像I_{a}I_{b},提取到的特征分别为:
F_\beta=f(I_\beta),\qquad\beta\in\{a,b \} \tag{1}

掩码估计

在非平面区域,特别是包括移动物体的情况下,不存在一个单应性可以将两张图片对齐。借助RANSAC的思想,作者构建一个子网络学习内点的位置。具体而言,利用子网络m(\cdot)生成内部概率图或掩码,突出显示对单应性估计贡献很大的特征图中的内容。掩码F_aF_b的大小与特征图大小相同。有了掩码之后,在将数据喂到单应矩阵估计前可以对特征提取后的特征进行加权。,获得带权重的特征图:
M_\beta=m(I_\beta),\quad G_\beta=F_\beta M_\beta,\qquad\beta\in\{a,b\}\tag{2}

单应估计

有了带权重的特征图G_aG_b,可以构建一个H\times W\times 2C的特征图[G_a,G_b],喂到单应估计中,输出4个2为偏置(8个值)作为输出,以此估计单应性。用h(\cdot)表示这一过程,即
H_{ab}=h([G_a,G_b])\tag{3}
h(\cdot)为ResNet-34结构,输出大小固定为8.

鲁棒单应估计三元损失

单应矩阵{\bf H}_{ ab}估计之后,将I_a扭曲为I_{a}^\prime,得到特征图F_a^\prime,如果单应矩阵估计正确,那么F_a^\primeF_b应该对齐,误差l_1会尽可能小,考虑到实际情况,单应矩阵不可能完全将两幅图像对齐,采用M_a^\primeM_b对齐图像。
L_n(I_a^\prime,I_b) = \frac{\sum_{i}{M_a^\prime M_b\cdot\|F_a^\prime-F_b\|_1}}{\sum_iM_a^\prime M_b}\tag{4}
下标i表示掩码和特征图中的像素位置。

直接最小化(4)会使得F_a^\primeF_b都为0,不能真实反映原始图像的对齐关系,定义另一种损失函数
L(I_a,I_b)=\|F_a-F_b\|_1\tag{5}
最小化(4)的同时最大化(5),可以避免全零解。

在实际中,作者还产生了I_bI_a的另一个单应矩阵H_{ba},还使用了(4)式得到计算I_b^\primeI_a的损失函数L_n(I_b^\prime,I_a),将{\bf H}_{ ab}{\bf H}_{ba}互为逆作为约束条件,因此最终的损失函数变为:
\min_{m,f,h}L_n(I_a^\prime,I_b)+L_n(I_b^\prime,I_a)-\lambda L(I_a,I_b)+\mu\|H_{ab}H_{ba}-I\|_2^2\tag{6}
在实验中,作者将\lambda\mu分别设为2.0和0.01,结果如下图所示。

对我们的特征提取器有效性的消融研究,通过照度变化的例子来证明,分别显示在左右两列中。对于每个示例,输入和目标 GT 图像在第 1 行,然后是禁用特征提取器的结果 F( ⋅ ) (第 2 行)和我们的(第 3 行),包括学习的掩码和奇数列和偶数列中的对齐结果。正如所见,对于这种情况,我们的结果显然是稳定的。
第 1 行和第 2 行:我们为各种场景预测的掩码。(a) 和 (b) 包含大的动态前景。(c) 包含很少的纹理,(d) 是一个夜间示例。第 3 行和第 4 行:对内容感知掩码的消融研究。我们禁用掩码的两个或一个角色进行比较。错误显示在底部。

Ⅳ 实验

我们的数据集一览。左边6列,从上到下是数据集的5个类别。最右边的列显示了用于定量评估的人类标记点对应的两个示例。
与现有的基于 DNN 的方法的比较。第 1 列显示输入和 GT 目标图像,第 2 到 4 列是有监督、无监督和我们的方法。所有基于 DNN 的方法的错误都通过底部的条形图显示。
我们的方法与所有其他方法之间的定量比较,包括基于 DNN(第 3、4 行)和基于特征(第 5-12 行)的方法,在误差 (a) 和鲁棒性 (b) 方面,以及对掩模的消融研究(第 2-4 行)、三元组损失(第 5 行)、特征提取器(第 6 行)、主干(第 7-9 行)和 (c) 中的训练策略(第 10 行)。对于(b),我们计算匹配点在 3 个像素内时的内点百分比。对于每个场景,我们用红色标记最佳解决方案。对于我们击败其他人的场景,我们将第二个最佳解决方案标记为蓝色。
与 8 个基于特征的解决方案在 3 个示例上的比较,如 (a)(d)、(b)(e) 和 (c)(f) 所示。对于前两个例子,我们的方法产生了更准确的结果,而对于最后一个但并非最不重要的,大多数基于特征的解决方案都非常失败,这在低纹理或低光场景中经常发生。我们还在条形图中显示了所有方法的错误。

Ⅴ 结论

作者提出了一种新架构,用于具有内容感知能力的无监督深度单应性估计,适用于小型基线场景。与严重依赖图像特征质量而容易受到低纹理和低光场景影响的传统特征基方法或以前不太关注深度视差问题的基于 DNN 的解决方案不同,本文提出的网络学习了一个内容感知掩码在估计期间拒绝异常值,以便网络可以专注于可以通过单应性对齐的区域。为了实现它,我们设计了一种新颖的三元组损失来实现对我们网络的无监督训练。此外,我们提供了一个用于图像对齐的综合数据集。数据集分为5类场景,可用于未来图像对齐模型的研究,包括但不限于单应性、网格对齐和光流。大量的实验和消融研究证明了我们的网络以及三重损失设计的有效性,并揭示了我们的方法相对于最先进技术的优越性。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容