论文笔记《Globally and Locally Consistent Image Completion》

写在开始

在这里，对Iizuka等人的论文《Globally and Locally Consistent Image Completion》(2017年)做个简要的笔记。不足之处还请在评论区指出。

1 简述

Iizuka等人[1]提出了一种新的图像修复方法，该方法可以生成局部和全局一致的图像。利用全卷积神经网络，通过填补任意形状的缺失区域来修复任意分辨率的图像。为了训练图像修复网络，使得结果具有一致性，论文[1]使用全局和局部语境判别器。首先训练判别器，来区分真实图像和修复图像。全局判别器着眼于整个图像，评估图像在整体上是否一致，而局部判别器只关注以修复区域为中心的小块区域，保证生成补丁的局部一致性。然后训练图像修复网络，来欺骗这两个语境判别器网络。这就要求修复网络生成的图像无论是整体上还是细节上，都与真实图像难以区分。

2 问题

图像修复是一种技术，它选择内容并填充到目标区域中。这允许移除不需要的对象或生成基于图像的3D重建的闭塞区域。虽然已经提出了许多图像修复的方法，如基于补丁的图像合成[2,3,4,5]，这仍然是一个具有挑战性的问题，因为它通常需要对场景进行高层次的识别。不仅要修复纹理图案，理解需要修复的场景和对象的骨架也很重要。基于这一观察，Iizuka等人考虑了场景的局部连续性和全局一致性，提出在一个单一的框架中修复图像。

3 方法

Iizuka等人提出了一个基于卷积神经网络来进行局部和全局一致的图像修复方法。实验证明，通过使用全局和局部语境判别器，训练修复模型来生成真实的图像是可能的。接下来将会详细介绍所提出的网络模型。

3.1 整体网络模型

所提出的方法是基于深度卷积神经网络训练的图像修复任务。这种方法的架构如图1所示。它由一个修复网络和两个判别器网络组成。首先，一个单独的修复网络用于对图像进行修复。其次，两个判别网络(全局和局部语境判别器网络)使得修复网络生成的图像尽可能真实。这两个判别器网络仅用于修复网络的训练，在测试过程中不使用。全局判别器网络以整个图像作为网络输入，局部判别器网络仅以修复区域周围的一小块区域作为输入。在整个模型训练过程中，对判别器网络进行训练，判断所输入的图像是否是生成的；对修复网络进行训练，来欺骗两个判别器网络。只有将三种网络一起训练，修复网络才能真实地修复图像，并且生成图像具有多样性。

图1 基于全局与局部一致的图像修复模型

3.2 修复网络

修复网络基于全卷积网络，其模型结构如图1的前半部分所示。修复网络的输入是RGB图像，以及二进制通道Mask，Mask表示图像修复掩码(1表示要修复的像素)。修复网络的输出是修复后的RGB图像。由于不希望在修复区域以外的地方有任何更改，修复区域之外的输出像素等于输入RGB图像的对应位置的像素。该网络遵循编码-解码结构，首先降低图像分辨率，从而减少内存使用和计算的时间。然后使用反卷积层(deconvolution layers)将输出恢复到原始分辨率，反卷积层由较小步数的卷积层组成。与其他使用池化层来降低分辨率的架构不同，该修复网络模型只降低了分辨率两次，使用的是四分之一的原始大小的带阶卷积，这对于在缺失区域生成非模糊纹理非常重要。

扩展卷积层位于中间层。扩展卷积使用的是分散的内核，使得用大得多的输入面积来计算每个输出像素，但使用的参数和计算能力仍然相同。这对于图像修复任务非常重要，因为语境(上下文)对于现实主义非常关键。通过在低分辨率时使用扩展卷积，该模型在计算每个输出像素时，比使用标准卷积层时能直观地“看到”输入图像的更大区域。由此产生的网络模型在输入图像的307×307像素区域的影响下计算每个输出像素。当不使用扩张卷积是，网络模型将只使用一个99×99像素区域，不允许修复大于99×99像素的孔，如图2中所示。从图2中可看出空间支持(区域支持)的重要性。为了能够修复大区域，用于计算输出像素的区域必须包含孔外的像素。图2左侧中(蓝色方框为区域)，像素p1是在区域Ω1的影响下计算出来的，而像素p2则无法计算，因为区域Ω2不包含孔外的任何信息。然而，在图2右侧中(橙色方框为区域)，空间支持Ω2大于孔，允许修复中心像素p2。

图2 空间支持的重要性

3.3 语境判别器网络

语境判别器分为全局语境判别器网络和局部语境判别器网络，其目标是识别图像是真实的还是修复的。这两个网络基于卷积神经网络，将输入图像压缩成小的特征向量。两个判别器网络的输出通过连接层融合在一起，该连接层预测一个连续值，该值对应于图像为真实的概率。这些网络的概述如图3所示。

图3 判别器网络结构

全局语境判别器需要整个图像(256×256)作为输入。它由6个卷积层和1个全连接层组成。输出为单个1024维向量。所有的卷积层采用2×2像素步幅来降低图像分辨率，同时增加过滤器的数量。与修复网络相比，所有的卷积使用大小为5×5的过滤器。

局部语境判别器遵循相同的模式，除了输入是一个128×128像素补丁，该补丁围绕完整的区域。(注意，在训练时总是有一个单独完整的区域。然而，经过训练的修复网络可以同时填充任意数量的洞)。如果图像不是完整的，则随机选择图像的补丁，因为没有完整的区域将其居中。由于初始输入分辨率是全局判别器的一半，因此不需要使用全局判别器中第一层。输出是一个1024维的向量，表示修复区域周围的局部上下文信息。

最后，将全局和局部判别器的输出连接在一起，形成一个2048维的向量。该向量由一个全连接层进行处理，输出一个连续的值。全连接层使用sigmoid激活函数使输出值在[0,1]范围内，该值表示图像是真实的，而不是修复的概率。

3.4 训练

所提出的网络的损失函数包含如下两部分：

1)加权均方误差(MSE)损失：该损失是为了确保训练的稳定性；

$L(x,M_{c})=\left \| M_{c}\odot (C(x,M_{c})-x)\right \|^{2}$

2)生成对抗网络(GAN)损失：该损失是为了提高结果真实性。

$\underset{C}{min}\: \underset{D}{max}\:E[logD(x,M_{d})+log(1-D(C(x,M_{c}),M_{c}))]$

其中x表示输入图像， $M_{c}$ 表示修复网络掩码， $C(x,M_{c})$ 表示修复网络， $M_{d}$ 表示判别网络掩码， $D(x,M_{d})$ 表示判别网络，注意，在这里D由局部和全局语境判别器组成。因此，结合两种损失，总的网络损失函数为：

$\underset{C}{min}\: \underset{D}{max}\:E[L(x,M_{c})+logD(x,M_{d})+\alpha log(1-D(C(x,M_{c}),M_{c}))]$

其中α是一个表示权重的超参数。

已经知道整体网络的损失函数，那么整体网络的训练过程：1) 对修复网络进行 $T_{C}$ 次迭代训练；2) 固定修复网络，并对判别网络进行 $T_{D}$ 次迭代训练；3) 对修复网络和判别网络进行联合训练，直至训练结束。

4 实验结果

论文[1]中对该方法进行了多个实验，这里仅仅只列举具有代表性的实验结果，如图4所示。能够看出，该方法可以生成图像中其他地方不存在的新片段，例如完成面部所需的片段，而基于补丁的方法无法做到这一点。

图4 基于全局与局部一致的图像修复结果

5 其他

5.1 创新点

论文[1]的创新点有：

1)提出高性能网络模型，可修复任意缺失区域；

2)提出针对图像修复的全局和局部一致的对抗性训练方法；

3)将所提出的方法应用于具体数据集以得到更具挑战性的图像修复的结果。

5.2 优点

论文[1]所提出的方法优点有：

1)修复后的图像能够在局部以及全局保持一致；

2)修复后的图像更加自然；

3)能够生成图像中其他地方没有的新对象。

参考文献

[1] Iizuka S, Simo-Serra E, Ishikawa H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 107.

[2] Barnes C, Shechtman E, Finkelstein A, et al. PatchMatch: A randomized correspondence algorithm for structural image editing[C]//ACM Transactions on Graphics (ToG). ACM, 2009, 28(3): 24.

[3] Darabi S, Shechtman E, Barnes C, et al. Image melding: Combining inconsistent images using patch-based synthesis[J]. ACM Trans. Graph., 2012, 31(4): 82:1-82:10.

[4] Huang J B, Kang S B, Ahuja N, et al. Image completion using planar structure guidance[J]. ACM Transactions on graphics (TOG), 2014, 33(4): 129.

[5] Simakov D, Caspi Y, Shechtman E, et al. Summarizing visual data using bidirectional similarity[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2008: 1-8.

最后编辑于：2020.03.20 13:52:37

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,490评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,581评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,830评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,957评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,974评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,754评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,464评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,357评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,847评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,995评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,137评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,819评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,482评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,023评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,149评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,409评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,086评论 2赞 355

论文笔记《Globally and Locally Consistent Image Completion》

论文笔记《Globally and Locally Consistent Image Completion》

写在开始

目录

1 简述

2 问题

3 方法

3.1 整体网络模型

3.2 修复网络

3.3 语境判别器网络

3.4 训练

4 实验结果

5 其他

5.1 创新点

5.2 优点

参考文献

推荐阅读更多精彩内容