Introduction

作者认为好的词表征应该同时兼顾两个问题：一是单词在语义和语法上的复杂特点；二是随着语言环境的改变，这些用法也应该随之变化。

为此，作者提出了 deep contextualized word representation （深度情景化词表征）。

这种算法的特点是每个词的表征都是整个输入语句的函数。

具体做法：

现在大语料上以 language model为目标训练处 Bi-LSTM模型，利用它产生词语的表征（pre-trained biLM模型）；（ELMo因此得名 embedding from language model）

为了应用在下游NLP任务重，一般先利用下游任务的语料库（此时，忽略掉label）进行 language model的微调（fine tuning），这种微调相当于一种 domain transfer;

然后才是利用label的信息进行supervised learning。

ELMo表征是“深”的，就是说它们是BiLM的所有层的内部表征的函数。这样做的好处是能够产生丰富的词语表征。高层的LSTM的状态可以捕捉词语以一种和语境相关的那方面的特征（比如可以应用在语义消歧），而地层的LSTM可以找到语法方面的特征（比如可以做词性标注）。如果把它们结合在一起，会在下游的NLP任务中显出优势。

bidirectional language models

ELMo : embedding from language model，确切说是来自于bidirectional language models

最后编辑于：2019.05.10 06:34:44

ELMo算法介绍

Introduction

bidirectional language models

推荐阅读更多精彩内容