深度语言模型-ELMo

简介

2018年3月,ELMo这篇paper发表,《Deep contextualized word representations》, 是NAACL18 Best Paper。
ELMo是指一个训练好的模型, 而非一个向量, 是动态的,是一个过程。当给出一句话时,模型会根据上下文来判断每个词对应的词向量,最后输出。这样做之后明显的好处之一就是对于多义词,可以结合前后语境对多义词进行理解。解决了word2vec的静态权重问题。

原理:

image.png

损失:

image.png

对于给定的k-1个词,推断第k个词为目标词的概率,然后将该概率最大化。

输入:

word embedding使用的Jozefowicz的CNN-BIG-LSTM, 和Word2Vec,glove等都是同类的词向量。可以表示为xkLM, 即第0层的E1E2E3...、EN

中间过程

图中虚线框是某一个中间层,即一个Encoder,实际应用时,可以加很多中间层Encoder,比如我们常说的12层的模型,也就是是中间有12个这种Encoder,即这种虚线框里的部件。可以看到图中的这一个中间层,是由两个Bi-LSTM(双向LSTM)组成. 其中:

  • 一个是从fisrt word 到 last word, 正序Bi-LSTM,其输出为:
    image.png

    表示第j层encoder,第k个的词的正向Bi-LSTM输出。

  • 另一个是从last word 到 first word, 逆序Bi-LSTM,其输出为:
    image.png

    表示第j层encoder,第k个的词的逆向Bi-LSTM输出。
    这样以来,每一层每一个词都会有一个输出,我们称为Rk, 如下所示:
    image.png

    Rk表示第k层的所有输出,包括正向Bi-LSTM输出,逆向Bi-LSTM输出,以及拼接上最原始的WordEmbeding向量xkLM

输出

经过上面中间过程后,对于L层(L个encoder)的ELMO网络,每个词就会有L个正向向量表示,即L个正向特征表示。L个逆向特征表示。再加一个输入的word embeding表示,所以每个词有2L+1个特征表征。

那么针对每个词,我们在定义两个参数,或者叫权重 γ 和 sj,其中用法如下:

image.png

ELMoktask就是整个ELMO网络最终的关于第k个词的向量输出。
其计算也很简单,就是给每一层第k个词的输出hk,jLM(包括正向Bi-LSTM,和反向Bi-LSTM两部分)乘以该层的整体权重sj, 请注意此时的sj是在正向Bi-LSTM,和反向Bi-LSTM共享的,即该层两个网络用的是同一个 sj。然后将所有层的乘以本层权重sj后的输出结果相加求和,最后再乘以整体网络的参数γ,就得到了ELMo*ktask
其实,这个过程就是改词每一层的输出的线性组合。

特点

  • ELMo学到了什么???或者说解决哪些问题
    实验表明:
  1. 解决Word sense disambiguation(词义消歧)问题
    单独用每层输出测试,发现越高层,对语义理解越好,表示对词义消歧做的越好。越能捕获词意信息。
  2. 解决POS tagging(词性标注)问题
    单独用每层输出测试,发现底层的输出更能学到词的句法信息和词性信息。

缺点

  • 特征抽取器选择方面,ELMO 使用了 LSTM 而不是新贵 Transformer,很多研究已经证明了 Transformer 提取特征的能力是要远强于 LSTM 的。如果 ELMO 采取 Transformer 作为特征提取器,那么估计 Bert 的反响远不如现在的这种火爆场面。
  • ELMO 采取双向拼接这种融合特征的能力可能比 Bert一体化的融合特征方式弱,但是,这只是一种从道理推断产生的怀疑,目前并没有具体实验说明这一点。
  • 貌似ELMO这种双向都做,然后拼接看上去能够解决这个问题,但由于融合模式过于简单,所以效果其实并不是太好。

一句话总结

每一层都用了两个方向的Bi-LSTM, 然后将每层的输出和原始word2vec Embedding拼接,然后将拼接后的向量线性加和得到最后的向量表示。

利用预训练的ELMO模型,训练下游任务时,分两步

对于下游任务的一句话 S
首先: S先走预训练好的ELMO网络,拿到该网络对该句话每个词的提取的特征,即Embeding向量。
然后: 利用第一步中得到的EMbeding向量在下游任务中,进行训练。 此时之前ELMO预训练的网络参数就不变了,仅用于提取特征。
反复执行上面两步。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容

  • 做一名知识的搬运工 介绍 语言模型(LM)是很多自然语言处理(NLP)任务的基础。语言模型是指对于语言序列,计算该...
    612twilight阅读 5,031评论 0 2
  • 学习笔记 循环神经网络 循环神经网络(Recurrent Neural Networks)是另一种可以用来进行语言...
    612twilight阅读 875评论 0 1
  • 本文另两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一级半 除了在word级别的embed...
    weizier阅读 6,585评论 0 18
  • 推荐指数: 6.0 书籍主旨关键词:特权、焦点、注意力、语言联想、情景联想 观点: 1.统计学现在叫数据分析,社会...
    Jenaral阅读 5,706评论 0 5
  • 城空了,有树长出来 我的城死了 铸起它的人,杀死它的人 不愿因为这件事而骄傲 一座城的终结 永远因为终结这件事而显...
    于十六阅读 2,852评论 6 17