论文阅读:SeqAttnGAN

在四月下旬,小李冒个泡。下周就是五一了,时间太快了,然而小李还是没有开学哈哈哈哈。今天依旧是论文阅读。

论文名称:《Sequential Attention GAN for Interactive Image Editing via Dialogue》
论文地址:https://arxiv.org/abs/1812.08352
论文阅读参考:https://blog.csdn.net/Forlogen/article/details/100020030

本篇文章只记录个人阅读论文的笔记,具体翻译、代码等不展开,详细可见上述的连接

Background

Task(what to do)
Interactive Image Editing via conversational language, where users can guide an agent to edit images via multi-turn dialogue
通俗的来说,要完成的任务是,通过会话语言进行交互式图像编辑,用户可以在其中通过多回合对话来编辑图像。
如下图所示,根据对话进行图片编辑:


Challenge

  1. contextual consistency between a generated image and the given textual description;
  2. step-by-step region-level modification to maintain visual consistency across the image sequence.
    挑战主要有两点:
    第一,生成的图像和给定的文本描述之间的上下文一致性
    第二,逐步进行区域级修改,以在整个图像序列上保持视觉一致性

Related work
a.Image Generation and Editing
b.Dialogue-based Vision Tasks

Work

Do?
a.We propose a new task - interactive image editing via conversational language, which allows a dialogue agent to interact with a user for iterative image editing via multi-turn dialogue.
b.We introduce two new datasets for this task, Zap-Seq and
DeepFashion-Seq. Consisting of image sequences paired with free-formed descriptions in diverse vocabularies, the two datasets provide reliable benchmarks for measuring sequential image editing models.
c.We propose a new conditional GAN framework, SeqAttnGAN, which can fully utilize dialogue history to synthesize images that conform to users’ iterative feedback in a sequential fashion.
总的概括一下,分为三点:
第一,我们提出了一项新任务-通过会话语言进行交互式图像编辑,该任务允许对话代理与用户互动以通过多回合对话进行迭代图像编辑。
第二,我们为引入了两个新的数据集:Zap-Seq和DeepFashion-Seq。
第三,我们提出了一个新的条件GAN框架SeqAt tnGAN,该框架可以充分利用对话历史来按顺序合成符合用户迭代反馈的尺寸图像。

Model
整个模型如下图所示:


整个模型的示意图是按对话的轮数展开的,为了在图像编辑过程中完全保留顺序信息,在这里,我们通过完整的会话对模型进行端到端训练。
首先,我们在这边的任务简化为:
给定一个初始输入图像x_0,以及给出自然语言描述{o_1,...o_T}的序列,然后最后生成图像序列{x^1,...,x^T}。
接下来讲一下步骤
初始步骤
使用在ImageNet上预训练的ResNet-101,将输入图像x_0编码为特征向量h_0。每个文字描述o_t通过双向LSTM(BiLSTM)进行编码,其中每个单词对应两个隐藏状态,每个方向对应一个隐藏状态。然后我们将其两个隐藏状态连接起来,以获得单词特征矩阵e_t(word feature)。同时,BiLSTM的最后隐藏状态被串联到一个全局句子特征向量中。将所有词的表示采用简单的拼接或是其他的方式便可以得到Sentence feature.

Dialogue State Tracker
初始时,使用一张图像的表示作为Dialogue State Tracker(对话状态跟踪器,实际上GRU网络)的初始状态,Dialogue State Tracker负责融合输入的表示Sentence feature和图像的表示,即对话状态跟踪器将当前文本描述o_t的句子特征向量e_t与隐藏状态h_{t-1}融合,以获得更新的隐藏状态h_t
之后,经过注意模块与上采样模块(F)获得对话上下文感知(dialugue-context-aware image feature)的图像特征集h'_t
最后经过生成器G生成图像x
补充一下:后续阶段中,在得到输入的表示Sentence feature和上一阶段Dialogue State Tracker的输出h_{t-1}后,并不是根据Dialogue State Tracker的输出来上采样得到G的输入,而是使用注意力模块(Attention Module)得到h'_t 。其中注意力模块根据上采样得到的表示和用户此时的输入,实现在生成图像的某个局部时应该关注于文本哪个位置的描述,最后得到隐状态h'_t ,再将其输入到G中生成此阶段的图像。
(ϵt是在每个步骤t中从标准正态分布采样的噪声矢量)
与AttnGAN相比,我们的模型在对话序列中使用注意力模块,其中所有对话共享相同的图像生成器G和判别器D。

这部分生成器和判别器的损失

Deep Multimodal Similarity Regularizer
DMSR用来匹配G生成的图像和用户输入之间的相似性,这里相当于起到正则化的作用
给定训练样本{x_0,x_1,o_1,……,x_T,o_T},我们首先将其转换为T个图文对。具体而言,对于每个t = 1 ,…… T,我们将x_t用作输入图像,然后将x_{t-1}的图像属性值(在原始数据集中提供)的级联及其关联的文本描述o_t拼接为向量的文本向量\widehat{o}_{t}
以此方式,一个训练样本被转换成T个图像-文本对{xt,oˆt} Tt = 1。随后,在训练过程中,给定M个图像-文本对\left\{ x_{t}, \widehat{o}_{t} \right\} _{t=1}^{T},文本\widehat{o}_{t}匹配图像x_t的后验概率为定义为:
其中γ 是平滑系数,R(⋅) 为图像的子区域和文本中的词之间注意力权重计算。
那么配对数据的损失函数为
通过引入正则化器的判别能力,该模型可以生成特定于区域的图像特征,以更好地与用户的文本输入对齐,并改善生成图像的视觉多样性。生成器G的最终目标定义为:

Experiments

Datasets
Zap-Seq和DeepFashion Seq,分别来自两个现有数据集-UT Zap50K和DeepFashion。 UT-Zap50K包含从Zappos.com收集的50,025张鞋子图像,而DeepFashion包含大约290,000张来自不同设置(例如商店,街道快照)的衣服图像。每个图像都带有参考属性列表。
为了构建用于图像编辑任务的顺序数据集,我们从两个数据集中检索图像序列,每个序列包含3-5张图像,并且每对连续图像在某些属性上略有不同。从UT-Zap50K中总共提取了8,734个图像序列,从DeepFashion中提取了4,820个序列。
Baselines
a.Stackgan
b.Attngan
c.Tagan
Quantitative Evaluation
a.IS
b.FID
c.SSIM
Human Evaluation
a.consistency to the given description and the previous image
b.visual quality and naturalness
(与给定描述和上一张图片的一致性,视觉品质和自然度)

Result


消融研究
针对注意力模块和DAMSM regularizer.

总体来看,seqattngan的表现是不错的,它实现的更像是根据用于的输入来选择对应的图像,不太像对于同一图像的细节补充和修改,另外对于模型的实现也有很多可以再做改进的地方,比如文中所提到的我们探索如何通过将学习的表示分解为属性和其他因素来生成更一致的图像序列。


Ending~
小李累了,下期五月见了吧!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容