写在开始
在这里,对J Yu等人的论文《Free-form image inpainting with gated convolution》(2018年)做个简要的笔记。不足之处还请在评论区指出。
目录
1 简述
2 问题
3 方法
3.1 门控卷积
3.2 SN-PatchGAN以及网络模型
3.3 生成修复网络结构
4 实验结果
5 其他
5.1 创新点
5.2 优缺点
参考文献
1 简述
J Yu等人提出了一种新颖的基于深度学习的图像修复系统[1],使用自由形式的蒙版和输入来修复图像。该系统基于门控卷积,它从数百万张图像中学习,无需额外的标签工作。所提出的门控卷积解决了vanilla卷积问题,即将所有输入像素视为有效像素。门控卷积通过在所有层的每个空间位置为每个通道提供可学习的动态特征选择机制来使部分卷积一般化。此外,由于自由形状的蒙版可能以任何形状出现在图像中的任何位置,因此使用单个矩形蒙版的全局和局部GAN是不合适的。为此,通过在密集图像块上应用光谱归一化判别器,J Yu等人提出了一种新的GAN损失,称为SN-PatchGAN。它形式简单,训练快速且稳定。自动图像修复和用户指导扩展的结果表明,相比以前的方法,J Yu等人提出的系统能生成更高质量和更灵活的结果。论文[1]展示了所提出的系统可以帮助用户快速删除分散注意力的对象,修改图像布局,清除水印,编辑面部以及在图像中交互式创建新对象。此外,特征表示的可视化显示了门控卷积的有效性,并提供了对所提出的神经网络如何填充缺失区域的解释。http://jiahuiyu.com/deepfill2上提供了更高分辨率的结果和视频资料。
2 问题
论文[1]主要用于自由形式的蒙版的图像修复。由于孔洞可能以任何形状出现在图像的任意位置中,因此,为单个矩形掩模设计的全局和局部GAN[2]并不适合。除此之外,在修复自由蒙版时,深度生成卷积会导致视觉上的假象,如颜色差异、模糊和孔周围明显的边缘反应。基于上述问题,J Yu等人提出了基于门控卷积的图像修复系统。
3 方法
论文[1]基于上述问题提出了一种基于门控卷积的端到端生成网络和一种新的GAN损失的自由形式的图像修复系统。门控卷积在自由形式的蒙版和用户引导输入的情况下显著改善了修复效果。该系统还帮助用户快速删除分散注意力的对象、修改图像布局、清除水印、编辑人脸和交互式地创建照片中的新对象。同时,该系统还将学习到的特征表示可视化,以解释和理解在训练好的修复网络中提出的门控卷积。论文[1]中的定量结果、定性比较和用户研究表明,所提出的自由形式蒙版的图像修复系统的优越性。
3.1 门控卷积
J Yu等人提出了用于图像修复网络的门控卷积。门控卷积不是通过规则更新硬蒙版,而是从数据中自动学习软蒙版。它可以表示为:
其中是sigmoid函数,因此门控输出值介于0和1之间。
可以是任何激活函数(ReLU或者LeakyReLU)。
和
是两个不同的卷积过滤器。
所提出的门控卷积使网络能够为每个信道和每个空间位置学习动态特征选择机制。有趣的是,中间门控值的可视化表明它选择特征图时,不仅根据背景,蒙版,草图学习,而且还考虑某些通道中的语义分割。即使在深层,门控卷积也能够学习在单独的通道中突出显示蒙版区域和草图信息,以更好地生成图像修复结果。
3.2 SN-PatchGAN以及网络模型
以前的图像修复网络尝试修复具有单个矩形空洞的图像。附加的局部GAN使用围绕该空洞的补丁来改善结果[2,3]。然而,考虑自由形式图像修复的任务,其中可能存在多个具有任何形状和任何位置的空洞。受到总体GAN和局部GAN、MarkovianGANs、感知损失和最近关于谱归一化GAN研究的启发,J Yu等人开发了一种简单而高效的GAN损失,即SN-PatchGAN,用于训练自由形式的图像修复网络。它直接对卷积鉴别器的输出特征图中的每个点应用GAN损失。下面详细描述GAN损失。SN-PatchGAN在GAN训练时快速稳定,可产生高质量的修复效果。
卷积神经网络被用作判别器。其中输入由图像、蒙版和引导通道组成,输出是一个形状为的3维特征,其中h,w,c表示高度,宽度和通道的数量。如图1所示,内核大小5和步幅2的六跨距卷积被堆叠,来捕获Markovian补丁的特征统计信息。然后对这个特征图中每个元素应用GANs,聚焦在输入图像的不同位置和不同语义(表示在不同通道中),计算h*w*c个GAN。应该注意到在训练设置中,输出图中每个点的接受域仍然可以覆盖整个输入图像,因此不需要全局判别器。
论文[1]采用最近提出的称为谱归一化的权重归一化技术来进一步地稳定GAN的训练。使用谱归一化的默认快速近似算法,谱归一化是在SN-GAN中描述的。为了区分输入是真的还是假的,使用hinge loss作为目标函数:
其中表示频谱归一化判别器,G是带有不完整图像z的图像修复网络。
3.3 生成修复网络结构
生成修复网络(generative inpainting network)的细节如图2所示:
使用最新的生成修复网络,并使用提出的门控卷积和SN-PatchGAN损失进行自定义化。具体来说,我们采用论文[3]中提出的完整模型架构,该架构具有粗略和细化网络。粗网络如图2所示(为简单起见,图中忽略了细化网络,其细节可以在论文[3]中找到)。具有上下文关注模块的细化网络尤其提高了纹理细节的清晰度。对于粗略和细化网络,论文[1]使用简单的编码器解码器网络[3]代替在PartialConv中使用的U-Net[4]。用门控卷积替换所有vanilla卷。一个潜在的问题是门控卷积引入了额外的参数。为了与基线模型[3]保持相同的效率,将基础模型宽度减少了25%,并且在数量和质量上都没有发现明显的性能下降。所提出的修复网络以端到端的方式进行训练,可以在任意位置的自由形式的孔洞上进行测试。由于修复网络是完全卷积的,因此它也支持不同的输入分辨率。
使用SN-PatchGAN,所提出的修复网络每批样本的训练速度比基线模型[3]快5倍。修复网络不会使用感知损失,因为类似的补丁级信息已经在SN-PatchGAN中编码。与PartialConv[4]不同,PartialConv使用了6种不同的损失项和平衡超参数,而用于修复网络的最终目标函数仅由像素的ℓ1重建损失和SN-PatchGAN损失组成,默认损失平衡超参数为1:1。
4 实验结果
论文[1]中对该方法进行了多个实验,本文在这里仅仅只列举代表性的实验结果,如图3所示。
5 其他
5.1 创新点
对于实用的图像修复工具,实现用户交互是至关重要的,因为可能存在许多合理的解决方案,用于填充图像中的孔洞。为此,论文[1]提出了一个允许用户引导输入(即草图)的扩展。总之,论文[1]的创新点有:
1)引入门控卷积来学习所有层中每个空间位置的每个通道的动态特征选择机制,显著提高自由形式的蒙版和输入的颜色一致性和修复质量;
2)提出了一种新颖的GAN鉴别器SN-PatchGAN;
3)将提出的修复模型扩展为交互式模型,该模型可以将用户草图作为指导,以获得更多用户期望的修复结果;
4)第一次为图像修复任务提供了学习CNN特征表示的可视化和解释。可视化展示了门控卷积在浅层和深层中的功效。
5.2 优缺点
论文[1]所提出的方法优点有:
1)产生高质量的修复效果;
2)在重建时,可能会出现过度平滑和/或模糊的情况;
3)帮助用户快速删除分散注意力的对象,修改图像布局,清除水印,编辑人脸,并在照片中创建新的对象。
论文[1]所提出的方法缺点有:在修复图像时,可能会出现过度平滑和/或模糊的情况。
参考文献
[1] Yu J, Lin Z, Yang J, et al. Free-form image inpainting with gated convolution[J]. arXiv preprint arXiv:1806.03589, 2018.
[2] Iizuka S, Simo-Serra E, Ishikawa H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 107.
[3] Yu J, Lin Z, Yang J, et al. Generative image inpainting with contextual attention[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5505-5514.
[4] Liu G, Reda F A, Shih K J, et al. Image inpainting for irregular holes using partial convolutions[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 85-100.