Multihop Attention Networks for QA Matching

文章链接:MAN

原作代码地址:pytorch

出处:SIGIR’18, July 8-12, 2018, Ann Arbor, MI, USA

推荐理由:

作者在introduction和related work中把前人的工作介绍得非常详细,诚意满满,至少在我眼里看来并不是在划水,比较适合入门。

作者想法比较新颖,利用动态记忆网络(DMNS)的思想进行建模,同时作者摒弃了在AS任务中用co-attention进行交互这种比较火的做法,坚持用one-way attention建模。

文章结构比较清晰易懂,并且有开源代码,但是也要吐槽一下文中代码的位置真的超级不明显,只是惊鸿一瞥读文章的同学大概是找不到的,作者的代码只是工程任务的代码,算不上是严格意义的代码,anyway,向开放源码的前辈致敬!

下面就开始详细的介绍论文了!

首先作者diss了以往注意力存在的缺点:以往基于注意力的方法的一个共同特点是,问题由一个特征向量表示,并应用一轮注意力来学习答案的表示。然而,在许多情况下,答案的不同部分可能与问题的不同部分有关。作者根据这一点展开本文的工作,构建一个attention,也就是标题说的multihop attention来获得问题的不同部分的语义,然后再通过sequentional attention获得答案的语义表示;进行多次匹配得出score,最后将score相加得到最终的score表示。

文章中介绍了四种Attention:

MLP Attention

其实MLP Attention相当于一个加法注意力机制,这里将问题的表示和答案的表示进行相加然后再通过一个relu_mlp进行激活,然后用softmax进行归一化得到attention权重。至于这里为什么问题向量用 

 来表示,而答案向量用 

 来表示呢?因为文中

其实是表示问题的某一个部分,它的维度为(batch_size, 1, 2*dim),

则表示答案每个timestep的向量表示,它的维度也为(batch_size, 1, 2*dim)

Bilinear Attention

Bilinearl Attention就是我们常说的co-attention,也是在AS任务中比较火的attention,反正从一些出名的模型的消融实验分析可以看出这部分是很重要的, 

 其实就是在构建一个词级相似度矩阵,当然词级相似度矩阵还有这种简单的

形式。

Sequential Attention

Sequential Attention最早用在阅读理解上,作者在本文中也证明了Sequential Attention在AS任务中的有效性。Sequential Attention主要是考虑了上下文的联系这样可以为向量表示带来语境信息,其实,看过Wang(IARNN)的同学可能会发现,Sequential Attention其实和IARNN-Word如出一辙, 

 是问题向量与答案向量的点积,然后再送入BiLSTM中,接着将lstm的输出进行一个softmax得到权重 

 ,最后作者将权重与答案向量相乘求和得到经过attention后的答案向量。

Self-Attention

Self-Attention的作用是捕获句子的全局位置结构信息,从上面的公式我们可以很容易就知道所谓自注意力就是自己和自己玩,Self-Attention现在也是用的比较多的attention机制,在自然语言的各个领域都大放异彩,比较有名的比如说google那帮大佬的Attention is all you need,NLI领域的A Structured self attention等

我们可以看到模型的总体结构图,图(b)是基于Sequential Attention的模型,图(d)是基于Self-Attention的模型,图(a),图(c)则是图(b),图(d)的局部表示。

 相当于问题每个timestep的向量,(9)中的三个公式告诉我们三件事情,第一, 

 就是通过带tanh的前馈网络计算出来的;第二,

就是根据老套路,经过softmax得来的;第三,我们的重点在于更新

,求和相当于压缩成长度为1的向量了,也就是我们关注到了问题中的一个重要的部分了。那么这个流程是怎么启动的呢?看下面公式:

首先更新 

 ,

相当于把lstm的输出做一个mean-pooling操作,而

就等于

,这样一来二去,这个流程就说得通了。细心的同学可以发现,这其实和NLI领域的A Structured self attention里面的做法很相似,但是明显本文的attention更加复杂。

计算出了问题向量,那如何得出答案向量呢?毕竟我们最后是要做一个相似度匹配的啊。看下图:

其实,这就是Sequential Attention的一个结构图,在本文中,我们只不过把图中的 

 替换成

了,这样我们也不难得到最后的

了,然后就是对应paper的中心——Multihop!

作者经过实验,发现K=2是最好的。

实验结果

总结:

1.个人觉得直接把最后的结果相加是有点问题的,比如说,在AS任务中,我们希望凸显的是句子相似的部分,所以我们更希望9+1>5+5,但是在本文中9+1 = 5+5,我觉得这应该可以成为未来改进的地方。

2.用tensorflow实现了模型,发现运行速度很慢,我觉得应该是问题那部分的attention的原因吧,毕竟太复杂了。在wikiQA数据集上,实现了Multihop-self-LSTM的效果,但是Multihop-sequential-LSTM的效果一直没达到。

3.后续会放上github

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容