An Introductory Survey on Attention Mechanisms in NLP Problems论文阅读

作者:佐治亚理工学院(美国)

1 引言

以机器翻译为例子说明,传统的encoder-decoder框架使用的RNN,有两个明显的缺点:

(1)RNN具有遗忘性,经过几个时间步之后,老的信息会被遗忘;

(2)没有清晰的词对齐,是散乱的。

2 公式化

一般形式:


其中a的形式有如下几种:(其实还存在很多形式,作者并未全部列出。)


3 变化

在下面这种情况下,attention无法直接将Q与(3)对应上:


所以需要更复杂的attention去处理这种情况:


3.1 Multi-dimensional Attention

前面第2节介绍的通常我们称为1D Attention或者vector Attention,这点也是很好理解的。

使用Multi-dimensional的动机是为了获取多维度的信息。


这个表里面是1D扩展为2D的例子。

drawback:虽然multi-attention方法能够同时获取多维度的信息,但是其表示能力会下降。

sloutions: 在2D attention矩阵上加F范数来进行约束。

3.2 Hierarchical Attention

在这小节里,比较出名的是HAN,这种NAACL2016的一篇用来做文档分类的文章,比较具有代表性。HAN的结构是从

bottom-up构建的。

另外,还有一个GEC任务上的基于Top-down构建的。

3.3 Self Attention

这就是大名鼎鼎的,也是最近在NLP上取得比较大进步的技术方案。具体的细节这里不做过多赘述,主要从两个例子来说明Self-attention的作用。

(1)Self-attention被称为internal attention

example:Volleyball match is in progress between ladies

这里的match是这句话的头,是所有其他词的中心,所以我们希望attention学到这种内部固有的依赖关系。

(2)Self-attention与word embedding是相关的。

example:

I arrived at the bank after crossing the street

I arrived at the bank after crossing the river

这里的单词bank在不同的上下文情况下有不同的意思,所以我们希望模型能学到带有上下文语义信息的token embeddings。

其中的Transformer就是一个很好的例子。

3.4 Memory-based Attention

这里对应到前面给的那个例子,很有意思。提到Memory,就是模型要存储一些信息到memory里。这里的例子可以很好的说明:


Figure2 是具体的过程,Figure3是真实的例子说明。

3.5 Task-specific Attention

这些具体的任务是将attention的思想应用到其中,并且取得一定效果。具体的有:自动摘要、结构化的attention网络、机器翻译里的local attention模型等等。

其中的自动摘要中的attention思想是指:一篇文章中最重要的句子,肯定与其他重要的句子有更显著的linked。

4 Application

其实上面已经提到了Attention的很多NLP应用了,可以认为这里是更进一步的补充。

4.1 Attention for Ensemble

很显然能够想到在Ensemble中使用attention思想。

4.2 Attention for Gating

本人对这个应用影响比较深刻的是另外一篇文章,有兴趣的可以去参考:名字暂时忘记了,后期不上。

其主要思想在input上增加了attention机制。

4.3 Attention for Pre-training

这里当然要提到最近才出现的BERT,这是近几年NLP上的一些技术的集大成者,也给我一些人生路上的思考。

BERT模型使用的训练语料和模型都是很大的,这就好比人生路上的经历,当你经历了很多之后,才能去掉糟粕,留下精华。在需要的时候发挥巨大的作用,就像BERT模型在11项任务上都取得很好的性能一样。

但是BERT模型仍有它的不足,当遇到复杂的问题时,这些预训练好的模式并不一定能适用。这也就好比即使你经历再多,遇到棘手的问题时,仍然需要付出一定的努力才能攻克。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352

推荐阅读更多精彩内容

  • 原文地址 要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时...
    Henrywood阅读 1,717评论 0 5
  • 要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM...
    MiracleJQ阅读 2,776评论 1 6
  • 原文地址 AM模型是2015年NLP领域重要的进展之一。 一、引言 感受:从认知心理学里面的人脑注意力模型引入的概...
    EdwardLee阅读 3,102评论 0 3
  • 近日,谷歌官方在 Github开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型...
    MiracleJQ阅读 6,365评论 1 11
  • 聊天机器人[http://lib.csdn.net/base/robot](也可以称为语音助手、聊天助手、对话机器...
    mlion阅读 2,790评论 1 11