概述
structural inpainting
,作者在context encoder[2]
的基础上进行改进,在网络中加入了feature reconstruction loss
,feature reconstruction loss
与MSE loss
的线性组合构成了structural loss
,以此来提升修复区域中结构信息的修复效果。
- 😛😜😝代码托管在github
网络结构与损失函数
structural inpainting
使用到了3种损失,feature reconstruction loss
、MSE loss
与adversarial loss
,其中MSE loss
与adversarial loss
的使用来源于context encoder
。在训练过程中,context encoder
与鉴别网络构成了对抗关系,context encoder
用来对缺失信息的图像进行修复,而鉴别网络用来对图像进行分类,判断图像是context encoder
修复出来的图像,还是ground truth
。而对于feature reconstruction loss
,则需要使用到VGG16
提取图像的特征来计算。
网络结构
如图1
所示,整个网络结构由三部分组成,context encoder
,鉴别网络与VGG16
,其中context encoder
和鉴别网络是需要训练的部分,而VGG16
在训练过程其权重值不变,使用VGG16
来提取图像的特征,以计算feature reconstruction loss
。图中,是待修复图像,为context encoder
的输出,包含了修复信息,为ground truth
,为ground truth
对应的鉴别网络输入,是鉴别网络。
经过context encoder
修复之后,得到,ground truth
截取中心部分的信息之后得到,与作为鉴别网络输入,让鉴别网络进行分类,计算得到adversarial loss
。与进入VGG16
分别提取特征,计算两张图像特征之间的差别,得到feature reconstruction loss
。
feature reconstruction loss
feature reconstruction loss
的思想来源于论文[3]
提出的perceptual loss
,perceptual loss
由feature loss
和style loss
组成,其中的一个要点就是使用VGG16
来提取生成图像与ground truth
的特征,比较两张图像在特征之间的差别,以此来指导网络权重的迭代调整。而之前,比较生成图像与ground truth
之间的差别,多数情况下使用的是MSE loss
,就是比较图像像素级别的差距。
[1]
作者认为adversarial loss
的使用,有利于修复缺失区域的纹理,但是对于修复区域的结构信息贡献较小,所以在网络训练中加入了feature reconstruction loss
,想要以此提升网络对图像结构的修复质量,并将MSE loss
与feature reconstruction loss
的线性组合成为了structural loss
。
feature reconstruction loss
的加入有提升网络对于结构信息的修复质量,这一点可以从图2
中看出,图2
对比了patch-based
、context encoder
与加了feature reconstruction loss
的context encoder
,可以看到,最右边一排的图像对比context encoder
,在图像结构方面的修复质量更好。
使用VGG16提取哪些特征
如图3
所示,对比了在VGG16
中不同的网络层中计算图像的特征之间的差距对于最终修复效果的影响,发现使用MSE loss
与VGG16
的conv1_1
、conv2_1
、conv3_1
的组合的效果最好,即需要对比两张图像在像素级别的差距,再使用VGG16
提取它们在conv1_1
、conv2_1
、conv3_1
层的特征并计算feature reconstruction loss
。
参考文献
[1]. Vo H V, Duong N Q K, Perez P. Structural inpainting[J]. arXiv preprint arXiv:1803.10348, 2018.
[2]. Pathak D, Krahenbuhl P, Donahue J, et al. Context encoders: Feature learning by inpainting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2536-2544.
[3]. Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]//European Conference on Computer Vision. Springer, Cham, 2016: 694-711.