论文地址 这篇论文为ICCV2019最佳论文,主要贡献在于设计了一个基于单张图片的图像生成模型,并将其应用到多个方向,包括图像随机生成,图像融合、手绘画转自然图像、图像编辑以及图像超分重建。最近找时间将学习到的部分进行总结整理。
创新点
设计一种基于单张自然图像训练的非条件GAN网络(由噪声作为输入直接生成);
无需修改模型,直接应用于多种图像任务;
GAN网络中的G网络与D网络具有相同的模型结构以及相同的感受野,并添加一种重建损失,保证GAN可以进行平稳训练;
设计一种coarse-to-fine的金字塔型GAN网络,每一层学习到前一层缺失的细节;
网络架构
上图为本论文使用的网络架构,由N个GAN网络组成金字塔形状的SinGAN结构。从训练到测试,论文都是基于Coarse-to-Fine思想,由下到上,尺度逐渐由粗糙到精细。在第n个尺度上,Gn网络的输入是第n+1个G网络的生成图像,经过上采样后与对应随机噪声相加的结果,学习生成图像样本,而D网络判断生成图像的真假。 值得一提的是,本论文的每一层D网络都是基于Patch判断的,经典的PatchD,从最粗糙层GN一直上升到最精细层G0,每个D的感受野固定,都是11*11,也就是说,在最粗糙的GN,patch大小为图像的1/2,此时GAN网络可以学习到图像的全局结构,而在最精细的G0,GAN网络学习的是局部细节。在此引用一篇解答文章,具体的公式如下:
训练过程
其中的重建损失保证最粗糙一层可以由噪声直接生成图像,保证了相近的图像风格。
结果
生成的随机图像
可以发现,SinGAN可以很好的学习图像的纹理和位置信息,同时对于阴影以及水中的倒影也有学习,不过第二行在夕阳下山峰的倒影并不是很真实,略微不符合自然规律。
模型应用的不同结果
SinGAN的层数的影响
下图显示在测试过程中SinGAN的层数对于最终图像的影响,在这里n=N表示从最粗糙部分完全由噪声生成,n=N-1表示由原始图像下采样并于噪声相加得到。
训练层数的影响
下图展示了SinGAN网络应用不同训练层数对于最终生成图像的影响,可以发现,当仅使用2层GAN训练时,由于感受野受限,模型只能学习到局部细节,而缺乏全局信息,随着训练层数的提高SinGAN可以学习到更多的全局信息。
结论
本文介绍了一种可以从单幅自然图像中学习的新型非条件生成框架--SinGAN。证明了其可以学习单一图像的完全分布,从噪声完全生成具有逼真细节、清晰纹理的自然图像。
参考
文章:https://arxiv.org/pdf/1905.01164.pdf
GitHub:https://github.com/tamarott/SinGAN/tree/master/SinGAN
参考文献: http://www.dataguru.cn/article-15165-1.html
CSDN:https://blog.csdn.net/weixin_44975887/article/details/103089483