论文阅读：SeqAttnGAN

在四月下旬，小李冒个泡。下周就是五一了，时间太快了，然而小李还是没有开学哈哈哈哈。今天依旧是论文阅读。

论文名称：《Sequential Attention GAN for Interactive Image Editing via Dialogue》
论文地址：https://arxiv.org/abs/1812.08352
论文阅读参考：https://blog.csdn.net/Forlogen/article/details/100020030
本篇文章只记录个人阅读论文的笔记，具体翻译、代码等不展开，详细可见上述的连接

Background

Task(what to do)
Interactive Image Editing via conversational language, where users can guide an agent to edit images via multi-turn dialogue
通俗的来说，要完成的任务是，通过会话语言进行交互式图像编辑，用户可以在其中通过多回合对话来编辑图像。
如下图所示，根据对话进行图片编辑：

Challenge

contextual consistency between a generated image and the given textual description;

step-by-step region-level modification to maintain visual consistency across the image sequence.
挑战主要有两点：
第一，生成的图像和给定的文本描述之间的上下文一致性
第二，逐步进行区域级修改，以在整个图像序列上保持视觉一致性。

Related work
a.Image Generation and Editing
b.Dialogue-based Vision Tasks

Work

Do?
a.We propose a new task - interactive image editing via conversational language, which allows a dialogue agent to interact with a user for iterative image editing via multi-turn dialogue.
b.We introduce two new datasets for this task, Zap-Seq and
DeepFashion-Seq. Consisting of image sequences paired with free-formed descriptions in diverse vocabularies, the two datasets provide reliable benchmarks for measuring sequential image editing models.
c.We propose a new conditional GAN framework, SeqAttnGAN, which can fully utilize dialogue history to synthesize images that conform to users’ iterative feedback in a sequential fashion.
总的概括一下，分为三点：
第一，我们提出了一项新任务-通过会话语言进行交互式图像编辑，该任务允许对话代理与用户互动以通过多回合对话进行迭代图像编辑。
第二，我们为引入了两个新的数据集：Zap-Seq和DeepFashion-Seq。
第三，我们提出了一个新的条件GAN框架SeqAt tnGAN，该框架可以充分利用对话历史来按顺序合成符合用户迭代反馈的尺寸图像。

Model
整个模型如下图所示：

整个模型的示意图是按对话的轮数展开的，为了在图像编辑过程中完全保留顺序信息，在这里，我们通过完整的会话对模型进行端到端训练。
首先，我们在这边的任务简化为：
给定一个初始输入图像 $x_0$ ，以及给出自然语言描述{ $o_1，...o_T$ }的序列，然后最后生成图像序列{ $x^1，...，x^T$ }。
接下来讲一下步骤
初始步骤
使用在ImageNet上预训练的ResNet-101，将输入图像 $x_0$ 编码为特征向量 $h_0$ 。每个文字描述 $o_t$ 通过双向LSTM（BiLSTM）进行编码，其中每个单词对应两个隐藏状态，每个方向对应一个隐藏状态。然后我们将其两个隐藏状态连接起来，以获得单词特征矩阵 $e_t$ (word feature)。同时，BiLSTM的最后隐藏状态被串联到一个全局句子特征向量中。将所有词的表示采用简单的拼接或是其他的方式便可以得到Sentence feature.

Dialogue State Tracker
初始时，使用一张图像的表示作为Dialogue State Tracker(对话状态跟踪器,实际上GRU网络)的初始状态，Dialogue State Tracker负责融合输入的表示Sentence feature和图像的表示，即对话状态跟踪器将当前文本描述 $o_t$ 的句子特征向量 $e_t$ 与隐藏状态 $h_{t-1}$ 融合，以获得更新的隐藏状态 $h_t$
之后，经过注意模块与上采样模块（F）获得对话上下文感知（dialugue-context-aware image feature）的图像特征集 $h'_t$ 。
最后经过生成器G生成图像x
补充一下：后续阶段中，在得到输入的表示Sentence feature和上一阶段Dialogue State Tracker的输出 $h_{t-1}$ 后，并不是根据Dialogue State Tracker的输出来上采样得到G的输入，而是使用注意力模块（Attention Module）得到 $h'_t$ 。其中注意力模块根据上采样得到的表示和用户此时的输入，实现在生成图像的某个局部时应该关注于文本哪个位置的描述，最后得到隐状态 $h'_t$ ，再将其输入到G中生成此阶段的图像。

（ϵt是在每个步骤t中从标准正态分布采样的噪声矢量）
与AttnGAN相比，我们的模型在对话序列中使用注意力模块，其中所有对话共享相同的图像生成器G和判别器D。

这部分生成器和判别器的损失

Deep Multimodal Similarity Regularizer
DMSR用来匹配G生成的图像和用户输入之间的相似性，这里相当于起到正则化的作用。
给定训练样本{ $x_0，x_1，o_1，……，x_T，o_T$ }，我们首先将其转换为T个图文对。具体而言，对于每个 $t = 1 ，…… T$ ，我们将 $x_t$ 用作输入图像，然后将 $x_{t-1}$ 的图像属性值（在原始数据集中提供）的级联及其关联的文本描述 $o_t$ 拼接为向量的文本向量 $\widehat{o}_{t}$ 。
以此方式，一个训练样本被转换成T个图像-文本对{xt，oˆt} Tt ＝ 1。随后，在训练过程中，给定M个图像-文本对 $\left\{ x_{t}, \widehat{o}_{t} \right\} _{t=1}^{T}$ ，文本 $\widehat{o}_{t}$ 匹配图像 $x_t$ 的后验概率为定义为：

其中γ 是平滑系数，R(⋅) 为图像的子区域和文本中的词之间注意力权重计算。
那么配对数据的损失函数为

通过引入正则化器的判别能力，该模型可以生成特定于区域的图像特征，以更好地与用户的文本输入对齐，并改善生成图像的视觉多样性。生成器G的最终目标定义为:

Experiments

Datasets
Zap-Seq和DeepFashion Seq，分别来自两个现有数据集-UT Zap50K和DeepFashion。 UT-Zap50K包含从Zappos.com收集的50,025张鞋子图像，而DeepFashion包含大约290,000张来自不同设置（例如商店，街道快照）的衣服图像。每个图像都带有参考属性列表。
为了构建用于图像编辑任务的顺序数据集，我们从两个数据集中检索图像序列，每个序列包含3-5张图像，并且每对连续图像在某些属性上略有不同。从UT-Zap50K中总共提取了8,734个图像序列，从DeepFashion中提取了4,820个序列。
Baselines
a.Stackgan
b.Attngan
c.Tagan
Quantitative Evaluation
a.IS
b.FID
c.SSIM
Human Evaluation
a.consistency to the given description and the previous image
b.visual quality and naturalness
(与给定描述和上一张图片的一致性，视觉品质和自然度)

Result

消融研究
针对注意力模块和DAMSM regularizer.

总体来看，seqattngan的表现是不错的，它实现的更像是根据用于的输入来选择对应的图像，不太像对于同一图像的细节补充和修改，另外对于模型的实现也有很多可以再做改进的地方，比如文中所提到的我们探索如何通过将学习的表示分解为属性和其他因素来生成更一致的图像序列。

Ending~
小李累了，下期五月见了吧！

论文阅读：SeqAttnGAN

论文阅读：SeqAttnGAN

Background

Work

Experiments

相关阅读更多精彩内容

友情链接更多精彩内容