在2018年最佳GAN论文中,我讨论了对GAN(生成对抗网络)领域的三个主要贡献,我很高兴介绍另外三篇有趣的研究论文。再一次,这个顺序纯粹是随机的,选择非常多主观。
用于高保真自然图像合成的大规模GAN训练:DeepMind提出的BigGAN利用Google TPU v3 Pod数百个核心的强大功能,大规模创建高分辨率图像。
相对论鉴别器:表征GAN中缺少的关键元素:作者提出通过引入改进的鉴别器来改进GAN的基本原理。
ESRGAN:增强型超分辨率生成对抗网络:2017 年的超分辨率GAN(SRGAN)是将低分辨率图像映射到高分辨率图像的最佳网络之一。这项工作通过几个有趣的技巧改进了SRGAN。有人可能会说这只是渐进式改进,但实施的想法真的很聪明!
1. 用于高保真自然图像合成的大规模GAN训练(Large Scale GAN Training for High Fidelity Natural Image Synthesis)
简述:
该论文已于18.09.2018提交。您可以使用Google Collab轻松运行BigGAN (https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb)。
主要内容:
一个从ImageNet数据集生成的图像及其相似图像,左上角的汉堡是人工生成
尽管GAN领域的进步令人印象深刻,但使用深度神经网络的图像生成仍然很困难。尽管人们对这个领域非常感兴趣,但我相信在生成图像时还有很多尚未开发的潜力。跟踪GAN进度和衡量其质量的方法之一是Inception分数(IS)。该指标既考虑了生成图像的质量,也考虑了它们的多样性。
当在 128x128 分辨率的 ImageNet 上训练时,当前最佳结果仍然仅达到了 52.5 的 IS,而真实数据有 233 的 IS。本文提出的模型—BigGAN—可以达到 166.3 的 Inception 分数(IS)。
作者展示了 GAN 可以从训练规模中显著获益,并且能在参数数量很大和八倍批大小于之前最佳结果的条件下,仍然能以 2 倍到 4 倍的速度进行训练。作者引入了两种简单的生成架构变化,提高了可扩展性,并修改了正则化方案以提升条件化(conditioning),这可论证地提升了性能。这样可以创建无与伦比的高分辨率图像(512x512)。
方法:
与我评估的其他论文相比,本研究的重要性并非来自对GAN框架的任何重大修改。在这里,主要贡献来自于使用大量可用的计算能力(由谷歌提供),以使训练更加强大。这涉及使用较大的模型(相对于现有技术的网络参数增加4倍)和较大的批次(增加几乎一个数量级)。结果证明这是非常有益的:
使用大批量(一批2048张图像)允许每批次覆盖更多模式。这样,判别器和生成器受益于更好的梯度。
将每层中的宽度(通道数)加倍可以增加模型的容量,从而有助于提高性能。有趣的是,增加深度会对性能产生负面影响。
额外使用类嵌入可加速训练过程。使用类嵌入意味着在数据集的类标签上调整生成器的输出。
最后,该方法还受益于分层潜在空间 - 注入噪声向量,分成多层,而不是仅在初始层。这不仅可以提高网络性能,还可以加快培训过程。ž
结果:
大规模训练可以实现高质量的生成图像。然而,它带来了自身的挑战,例如不稳定。作者表明,即使稳定性可以通过正规化方法(尤其是判别器)来实施,但网络的质量必然会受到影响。我们可以在崩溃刚好发生之后立刻停止训练,并从之前保存的检查点进行结果报告。
类和潜在空间中的良好插值能力证实该模型不是简单地记忆数据。它能够提出自己的令人难以置信的发明
尽管挑选最佳结果可能很诱人,但该论文的作者也对失败案例进行了评论。虽然诸如a)之类的简单类允许无缝图像生成,但困难的类b)对于生成器来说很难再现。有许多因素会影响这种现象,例如,在数据集中表示类的程度,以及我们的眼睛对特定对象的敏感程度。虽然景观图像中的小瑕疵不太可能引起我们的注意,但我们对“怪异”的人脸或姿势非常警惕。
2. 相对论鉴别器:表征GAN中缺少的关键元素
简述:
该论文已于02.06.2018提交。这项研究令人印象深刻的原因之一是,似乎整个工作都是由一个人完成的。作者考虑了所有事情
撰写一篇关于她的发明的简短博客文章(https://ajolicoeur.wordpress.com/relativisticgan/),
发布记录良好的源代码(https://github.com/AlexiaJM/RelativisticGAN),
并在reddit上发表相关的有趣讨论(https://www.reddit.com/r/MachineLearning/comments/8vr9am/r_the_relativistic_discriminator_a_key_element/)。
主要内容:
在标准生成对抗网络(SGAN)中,鉴别器 D 用于估计输入数据为真实样本的概率,而生成器 G 用于提高数据以假乱真的概率。在标准GAN框架中,生成器试图使伪图像看起来更真实,但是没有概念所生成的图像实际上可以比真实图像“更真实”。作者声称这些是缺失的部分,它们应该首先被纳入标准的GAN框架。由于这些限制,建议训练生成器不仅应该增加伪数据是真实的概率,还应该降低实际数据是真实的概率。这种观察也是由基于IPM的GAN推动的,它实际上受益于相对论鉴别器的存在。
方法:
为了从标准GAN转换为“相对论”GAN,我们需要修改鉴别器。可以通过以下方式概念化相对论GAN(RGAN)的一个非常简单的示例:
在标准方程中,鉴别器可以是一种功能
在相对论GAN中,鉴别器估计实数据的概率比随机抽样的假数据更真实,
X是一个图像(真实的或假的),C(x)是一个为输入图像分配分数的函数(评估x的真实程度)和σ将得分转换为0到1之间的概率。如果鉴别器接收到看起来伪造的图像,则会分配非常低的分数,因此概率很低,相反,真实的输入给我们高分和高概率。
为了使相对论鉴别器在全局范围内起作用并避免在采样对时的随机性,作者建立了这个概念来创建相对论平均鉴别器(RaD)。
这意味着只要鉴别接收到一个真实的图像,它评估这个图像在这次迭代中如何比批量的平均假图像更逼真。类似地,收到一张假图像,将其与一批中所有真实图像的平均值进行比较。这种相对论鉴别器的表达允许我们间接地比较真实和假数据的所有可能组合,而不强制算法的二次时间复杂度。
结果:
该图显示了标准GAN中鉴别器输出的示例
人工创建的猫(128x128分辨率),来自RaLSGAN的输出。不仅标准的LSGAN产生不太逼真的图像,它也更不稳定。
我的印象是,本文可能会开始一种新的趋势 - 在不同的GAN问题中使用相对论鉴别器。实验表明,该方法可能有助于解决诸如稳定性或劣质图像质量等许多问题。它还可以加快网络的训练速度。我真的很喜欢这样一个事实:作者质疑了GAN架构的一个非常基本的要素。令人兴奋的是,已经有最先进的出版物引用了相对论的鉴别器(即使这篇论文在6月份出版)。
ESRGAN:增强的超分辨率生成对抗网络(
ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)
简述
该文件已于18.09.2018提交。该代码可在github上(https://github.com/xinntao/ESRGAN)公开获取。有趣的事实:有些人使用ESRGAN来改善一些旧游戏中的纹理,例如
Morrowind(https://www.youtube.com/watch?v=PupePmY9OA8&t=184s)
Doom2(https://www.youtube.com/watch?v=u9S8lnGqKkg&t=64s)
Castle Wolfenstein(https://www.youtube.com/watch?v=uyRfptKJutU)。
主要内容:
SRGAN的输出与ESRGAN的输出,生成的HR图像是LR输入的四倍。ESRGAN在锐度和细节方面优于其前身。
SRGAN是2017年超分辨率(SR)算法领域的最先进技术。它的任务是拍摄低分辨率(LR)图像并输出其高分辨率(HR)表示。网络的第一个优化目标是最小化恢复的HR图像和地面实况之间的均方误差(MSE)。这相当于最大化峰值信噪比(PSNR),这是用于评估SR算法的常用度量。然而,这有利于过于光滑的纹理。这就是为什么网络的第二个目标是尽量减少感知损失。这有助于捕获纹理细节和高频内容。结果,网络已经学会在这两个相互矛盾的目标之间找到一个最佳点。通过强制GAN跟踪目标,网络产生LR输入的高质量HR表示。一年后,SRGAN方法(由Twitter的科学家创建)得到了中国和新加坡研究人员的改进。新网络可以创建更逼真的纹理。这是通过几个聪明的技巧实现的。
SRGAN基于ResNet架构。尽管ESRGAN具有类似的设计,但它引入了对基本块的一些更改 - 从剩余块到剩余块(RRDB)中的剩余块的转换 - 以获得更好的性能。
方法:
ESRGAN采用SRGAN并采用了几种巧妙的技巧来提高生成图像的质量。这四项改进是:
引入对生成器架构的更改(从Residual Blocks切换到RRDB,删除批量规范化)。
用相对论鉴别器代替普通鉴别器(如前面讨论的论文中所述)。
关于感知损失,在激活之前使用特征图,而不是在激活之后。
预先训练网络以首先针对PSNR进行优化,然后使用GAN对其进行微调。
首先,我们从网络中删除批量规范化。其次,我们介绍了结合多级剩余网络和密集连接的RRDB。这为网络提供了更高的捕获信息的能力。
引入网络架构的主要变化 - 当原始SRGAN中的生成器使用残余块时,ESRGAN还受益于密集连接(如DenseNet的作者所提出的)。这不仅可以增加网络的深度,还可以实现更复杂的结构。这样,网络可以学习更精细的细节。此外,ESRGAN不使用批量标准化。学习如何规范化层之间的数据分布是许多深度神经网络中的一般做法。但是,在SR算法(特别是使用GAN的算法)的情况下,它往往会引入令人不快的伪像并限制泛化能力。删除批量标准化可提高稳定性并降低计算成本(减少学习参数)。
用相对论的判别者取代普通的鉴别者 - 真正有趣的是,在论文发表后不久,社区已经采用了相对论鉴别器的概念。使用相对论平均判别器,网络不仅可以从生成的数据接收梯度,还可以从实际数据接收梯度。这提高了边缘和纹理的质量。
重新审视感知损失 - 感知损失试图比较重建图像之间的感知相似性G和地面真实图像。通过预先训练的VGG网络运行两个输入,我们在第j次卷积和激活后以特征图的形式接收它们的表示。SRGAN的任务之一是尽量减少这些表示之间的差异。ESRGAN的情况仍然如此。
随着我们越来越深入,激活后的层往往会给我们提供更少的信息。这导致监督薄弱和性能低下。因此,使用预激活特征映射更有益。
另外,与GT图像相比,激活后特征图还导致不一致的重建亮度。
网络插值 - 正如我之前提到的,算法试图实现两个目标。这不仅是生成的图像与地面实况之间的感知相似性,而且是最低可能的PSNR。这就是为什么最初网络正在接受培训以最小化PSNR(使用L1损耗)。然后,预训练网络用于初始化发电机。这不仅允许避免发生器的不期望的局部最小值,而且还从一开始就为鉴别器提供非常好的超分辨率图像。作者指出,可以通过初始网络(PSNR优化之后)和最终网络(GAN训练之后)的权重之间的内插来获得最佳结果。这允许控制PSNR与感知相似性的权衡。
结果:
实验类似于在SRGAN上进行的实验。目标是将LR图像缩放4倍,并获得尺寸为128x128的高质量SR图像。
目前,ESRGAN是超分辨率的最先进技术。
插入两个相互矛盾的目标:最小化PSNR或最大化感知相似性
作者在PIRM-SR挑战中对他们的网络进行了测试,其中ESRGAN以最佳感知指数赢得了第一名。
那些是我最喜欢的六篇研究论文,它们与GAN和计算机视觉结合。如果您想在此列表中添加或更改内容,我很想知道您的候选人!每个人都有一个伟大的2019年!
更多信息扫描二维码关注