CVPR 2019 | 微软文字转图像技术又进化，提出两种 GAN 的升级模型

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。

来源 | AI科技评论

能显著提高生成图像的质量~

编者按：目前基于描述的绘图机器人在图像生成质量以及包含多个目标和丰富关系的更复杂场景中生成图像仍然存在较大挑战。来自微软人工智能研究院、JD 人工智能研究院及纽约州立大学奥尔巴尼分校的众多相关学者正在开发一项新的人工智能技术，相关机器人可以从类似于说明的日常场景描述文本中生成图像，其显著提高了生成图像的质量，相关成果发表在微软官网博客上。

如果你被要求画这样一张图片——几个穿着滑雪服的人站在雪地里，你很可能会先在画布中间合理位置画出三四个人的轮廓，然后继续画他们脚下的滑雪板。虽然没有具体说明，但你可能会决定给每个滑雪者都增加一个背包，以配合他们预期的运动。最后，你会仔细地填充细节，也许把他们的衣服涂成蓝色，围巾涂成粉色，把所有的背景都涂成白色，让这些人看起来更真实，并确保他们周围的环境符合描述。最后，为了使场景更加生动，你甚至可以用一些棕色的石头与白雪对比突出表示这些滑雪者在山里。

现在有一个机器人可以做到这一切。

微软研究院正在开发的新的人工智能技术可以理解自然语言描述，绘制图像布局草图，合成图像，然后根据提供的布局和单个词汇细化细节。换句话说，这个机器人可以从类似于说明的日常场景描述文本中生成图像。根据于加利福利亚州长滩市举行的 CVPR 2019 上发表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述，标准测试结果表明，相对于前一代最先进的复杂日常场景文本转图像技术，上述机器人有成熟的机制，可显著提高生成图像的质量。该论文是微软人工智能研究院 Pengchuan Zhang、 Qiuyuan Huang、 Jianfeng Gao，微软的 Lei Zhang，JD 人工智能研究院的 Xiaodong He，以及纽约州立大学奥尔巴尼分校 Wenbo Li、Siwei Lyu（Wenbo Li 曾在微软人工智能研究院实习）合作的成果。

基于描述的绘图机器人面临两个主要挑战。第一个挑战是在日常场景中会出现很多种类的物体，机器人应该能理解所有种类的物体并将其画出来。前述文本转图像生成方法使用图像—说明对，这些方法仅为生成单个目标提供非常粗粒度的监督信号，限制了它们对物体的图像生成质量。在这项新技术中，研究人员使用了 COCO 数据集，该数据集包含 80 个常见目标分类里面 150 万个目标实例的标签和分割图，使得机器人能够学习这些目标的概念和外观。这种用于目标生成的细粒度监督信号显著提高了这些常见目标类型的生成质量。

第二个挑战是理解和生成一个场景中多个目标之间的关系。在几个特定领域，例如人脸、鸟类和常见目标，在生成只包含一个主要目标的图像方面已经取得了巨大的成功。然而，在文本转图像的生成技术中，在包含多个目标和丰富关系的更复杂场景中生成图像仍然是一个重大的挑战。这个新的绘图机器人从 COCO 数据集共现模式中学会了生成目标的布局，然后根据预先生成的布局生成图像。

目标驱动的专注图像生成

微软人工智能研究院的绘图机器人核心是一种被称为生成式对抗网络（ GAN）的技术。GAN 由两个机器学习模型组成：一个是根据文本描述生成图像的生成器，另一个是根据文本描述判断生成图像可靠性的鉴别器。生成器试图让假照片通过鉴别器，而鉴别器不希望被愚弄。两者共同工作，鉴别器推动生成器趋向完美。

绘图机器人在一个包含 10 万幅图像的数据集上进行训练，每个图像都有突出的目标标签和分割图，以及五个不同的标题，允许模型构思单个目标和目标之间的语义关系。例如，GAN 在比较有狗和没有狗的描述的图像时，学习狗应该是什么样子。

GANs 在生成只包含一个突出目标，例如人脸、鸟类或狗的图像时表现很好，但是在生成更复杂的日常场景时，图像生成的质量就会停滞不前，比如描述为「一个戴头盔的女人正在骑马」的场景（参见图 1）。这是因为这类场景包含了多个目标（女人、头盔、马），这些目标之间有着丰富的语义关系（女人戴头盔、女人骑马）。机器人首先必须理解这些概念，并将它们放在具有意义的布局的图像中。然后，需要一个更强的监督信号来教 GANs 进行目标生成和布局生成，从而完成语言理解与图像生成任务。

图 1：具有多个目标和关系的复杂场景

当人类绘制这些复杂的场景时，我们首先决定绘制的主要目标，并通过在画布上为这些目标设置边框来进行布局。然后，通过反复检查该目标相应的描述来实现对每个目标的聚焦。为了捕捉人类的上述特点，研究人员创造了一种被他们称为目标驱动的专注 GAN，或 ObjGAN，来对人类以目标为注意力中心的行为进行数学建模。ObjGAN 通过将输入文本分解成单独的单词并将这些单词与图像中的特定目标进行匹配，从而实现上述人类的特点。

人类通常会从两个方面来改进绘图：单个目标的真实感和图像补丁的质量。ObjGAN 通过引入两个鉴别器来模拟这种行为---智能目标鉴别器和智能补丁鉴别器。智能目标鉴别器试图确定生成的目标是否真实，以及该目标是否与语句描述一致。智能补丁鉴别器试图判断这个补丁是否真实，以及这个补丁是否与语句描述一致。

相关工作：故事可视化

最先进的文本转图像模型能够基于单一语句描述生成真实的鸟类图像。然而，文本转图像生成技术可以远远不止基于单一语句合成单一图像。由微软研究院 Jianfeng Gao，微软动态 365 人工智能研究员 Zhe Gan、Jingjing Liu 和 Yu Cheng，杜克大学 Yitong Li、David Carlson 和 Lawrence Carin，腾讯人工智能研究院 Yelong Shen，以及卡耐基梅隆大学 Yuexin Wu 所著的论文「StoryGAN: A Sequential Conditional GAN for Story Visualization」中更进一步的提出了一个称之为故事可视化的新任务。给定一个多语句段落，该段落构成的完整故事可以被可视化，即生成一系列的图像，且每个语句对应一个图像。这是一个具有挑战性的任务，因为绘图机器人不仅需要想象一个适合故事的场景，为故事中出现的不同角色之间的交互建模，而且还必须能够在动态场景和角色之间保持全局一致性。这一挑战还没有任何单一图像或视频生成方法能够解决。

研究人员提出了一种基于序列条件 GAN 框架新的故事-图像-序列生成模型，称之为 StoryGAN。该模型的独特之处在于，它由一个可以动态跟踪故事流的深层上下文编码器和两个故事与图像层级的鉴别器组成，从而增强图像质量和生成序列的一致性。StoryGAN 还可以自然地扩展为交互式图像编辑，其可以根据文本指令按顺序编辑输入的图像。在这种情况下，一系列用户指令将作为「故事」输入。因此，研究人员修改了现有的数据集，创建了 CLEVR-SV 和 Pororo-SV 数据集，如图 2 所示。