论文学习5“Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”文章学习

这篇文章是2015年ICML上的一篇文章,把attention机制引入到图像领域的文章,作者Kelvin Xu 、Yoshua Bengio等人,来自多伦多大学和蒙特利尔大学。

Image caption是计算机视觉的最初始任务,不仅要获得图片里的物体,还要表达他们之间的关系。目前现存的方法大都是encoder — decoder架构,利用CNN、RNN、LSTM等神经网络完成caption工作,比如说只使用CNN对图像进行特征提取,然后利用提取的特征生成caption,还有结合CNN和RNN的,使用CNN提取图像特征,将Softmax层之前的那一层vector作为encoder端的输出并送入decoder中,使用LSTM对其解码并生成句子,这种方法也是本文所采取的方法,只是在此基础上嵌入了soft和hard attention机制。

除了神经网络之外,caption还有两种典型的方法:

1、使用模板的方法,填入一些图像中的物体;

2、使用检索的方法,寻找相似描述。

这两种方法都使用了一种泛化的手段,使得描述跟图片很接近,但又不是很准确。所以作者在此基础上提出了自己的模型架构,将soft 和hard attention引入到caption,并利用可视化手段理解attention机制的效果。

模型:

模型的总体架构如上图所示,也是由encoder和decoder组成。

Encoder,模型使用CNN来提取 L 个 D 维的特征vector作为注释向量,每一个都对应图像的一个区域,如下式。

   与此前的工作使用Softmax层之前的全连接层提取图像特征不同,本文所提取的这些vector来自于 low-level 的卷积层,这使得decoder可以通过选择所有特征向量的子集来选择性地聚焦于图像的某些部分,也就是将attention机制嵌入。

Decoder,解码阶段用LSTM网络生成caption,集合为下式,其中C是句子长度,K是词表大小,y是各个词的one-hot编码所构成的集合。

LSTM模型结构如下,对应输入门、输出门、忘记门数学公式如下:

输入、遗忘和输出门由sigmod激活,所以得到的值在0—1之间,可以直接作为概率值,候选向量ct 和ht由tanh激活,值在-1—1之间。三个输入量分别是,Eyt−1是look-up得到词 yt−1的 m 维词向量;ht−1是上一时刻的隐状态;z^t∈RD是LSTM真正意义上的“输入”,代表的是捕捉了特定区域视觉信息的上下文向量。

针对最后一个式子的隐含变量值,作者给出了隐状态和细胞状态的初始值的计算方式,使用两个独立的多层感知机,感知机的输入是各个图像区域特征的平均:

根据以上,我们就可以通过最大概率求得当前时刻输出的词,并作为下一时刻的输入,从而获得caption结果,如下式。

Attention,上文说到zt是LSTM真正的输入,是一个和时间相关的动态变量,不同时间关注在不同的图像区域内,那么这里就可以和attention结合起来,规定特定时间内关注某个区域。实现attention的方式,就是:zt由时间和位置区域决定,对于每个时间的每个区域都定义一个权重值ati。为了满足权重的归一化,我们通过softmax函数实现,如下式,Softmax的输入需要包含位置信息和前一时刻隐层值:

zt就可以表示出来,而φ函数怎么定义使得hard attention和soft attention的产生:

    Hard attention,这里权重ati所起的作用的是否被选中,只有0.1两个选项,所以引入了变量st,i,当区域i被选中时为1,否则为0。

那么问题就是st,i什么时候是1,什么时候为0。在文章里,作者将st视作隐变量,为参数是位置信息的多元伯努利分布,公式如下:

针对多元伯努利分布,利用最大似然估计,求得变分下限,类似于EM的思想,下式通过杰森不等式求得。

然后对参数矩阵求梯度进行优化,

用 N 次蒙特卡洛采样来近似:

在蒙特卡洛方法估计梯度时,可以使用滑动平均来减小梯度的方差:

为进一步减小方差,引入多元贝努利分布的熵H(s),而且对于一张给定图片,50%的概率将s设置为它的期望值α。这两个技术提升了随机算法的鲁棒性,最终的结果是:

 λr和λe是交叉验证设置的两个超参数,这个学习规则类似于强化学习。

Soft attention,在这里,不像hard对特定时间特定区域只有关注和不关注,soft里对每个区域都关注,只是关注的重要程度不一样,所以此处的权重ati就对应着此区域所占比重,那么zt就可以直接通过比重加权求和得到。

现在的模型为光滑的,可以使用BP算法通过梯度进行学习。文章定义了归一化加权几何平均值(NWGM)

该式表示caption的结果可以通过文本向量很好近似,也就是caption结果有效。也表示soft attention是关于attention位置的边缘似然的近似。在训练soft attention时,文章引入了一个双向随机正则,目的是为了让attention平等的对待图片的每一区域。另外,还定义了阈值β

,目的是让解码器决定是把重点放在语言建模还是在每个时间步骤的上下文中。

Soft attention最终是通过最小化下式进行训练。

实验:

   作者用了三个数据集进行实验,Flickr8k采用RMSProp优化方法, Flickr30k和COCO采用Adam进行优化,用vgg在ImageNet上进行预训练,采取64的mini-batch,用bleu和meteor作为指标进行评分,下表是实验结果,可以看出本文所提出的方法取得了很好的结果。

可视化,为了更好地了解attention的效果,我们对模型进行了可视化,如下图所示,可以看出attention机制可以学习到类似于人注意力一样的信息。

结论:

本文作者经机器翻译的attention机制启发,将其应用到image caption领域,并提出了hard 和 soft 两种attention机制,相比较来说,hard attention更难训练,所以他的效果也更好。这篇文章无疑是打开了attention图像领域的先河。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容