注意力模型与标题生成

Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., ... & Bengio, Y. (2015, June). Show, attend and tell: Neural image caption generation with visual attention. In International conference on machine learning (pp. 2048-2057).


本文介绍了两种不同的注意力机制模型(硬的随机注意机制和软的确定注意机制),模型的功能是输入一张图片,生成一个k字标题。

一、两种机制的共同框架

1、编码器(如何处理图片):

对图片进行卷积特征提取,提取L个特征向量ai,每个向量都是从D个维度表示了一部分图像。

2、解码器(如何生成标题):

模型使用一个长的短期记忆(LSTM)网络,该网络会根据一个上下文向量Zt、隐藏状态ht-1和已生成标题Eyt-1,每隔一段时间生成一个标题的字。上下文向量Zt指图像的输入部分在时间t时的动态表示。下图是LSTM的流程,i是输入,C是记忆,f是遗忘,o是输出,h是隐藏状态,输入门(input gate)确定i的权重,输入调制门(input modulator)确定i对存储器的贡献,遗忘门确定遗忘权重,输出门确定输出权重,模型需要学习这些权重。


LSTM

计算上下文向量Zt:对于每一个特征向量ai,有一个对应的权重αi,它表示位置i产生下一个标题字的概率(硬的随机注意机制)或表示把ai和位置i混合在一起的相对重要性(软的确定注意机制,不太懂,可能不是这个意思)。αi可根据注意模型fatt计算,Zt可根据αi和ai计算,公式如下。



二、硬注意和软注意

硬注意机制和软注意机制是注意模型fatt的替代机制。

硬注意:如果模型将在某位置生成第t个字,那么记这个位置为st。st,i是一个indicator one-hot变量,如果在第i个位置提取出视觉特征,那么令st,i为1。将st作为中间变量,得到一个以{αi}为参数的伯努利分布,且可根据αi可计算出Zt。(猜的,第一个公式的意思可能是位置i接下来生成标题的可能性,第二个公式计算第t个字最有可能在哪个位置生成。)


软注意:(没看懂)


三、实验


用三个数据集测试了四个模型,分别用BLEU和METEOR两种研究标准表示结果。软注意和硬注意模型的表现较好。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转自软件所的张俊林老师 注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的...
    高斯纯牛奶阅读 9,388评论 0 3
  • 论文地址:https://arxiv.org/pdf/1502.03044.pdf参考代码:https://git...
    xieyan0811阅读 2,958评论 0 0
  • 1. 前言 本文翻译自《Attention?Attention!》博客 最近几年,注意力——在深度学习社区中,已然...
    Silence_Dong阅读 48,129评论 2 29
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 12,199评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 5,857评论 4 1

友情链接更多精彩内容