Specializing Word Embeddings (for Parsing) by Information Bottleneck
来源:EMNLP2019 最佳论文
链接:https://arxiv.org/abs/1910.00163
代码:未公布
动机
预训练的语言模型+微调的模式提升了很多nlp任务的baseline,例如emlo,bert,gpt模型等。研究表明预训练的词向量包含了丰富的语法和语义信息,并且这些预训练的模型中不同网络层获得的词向量对不同的下游任务效果不同。本文提出了一种方法variational information bottleneck(VIB),用于压缩预训练得到的词向量,仅仅保留其对下游任务有用的部分,以依存句法分析任务为例。
预备知识
Information Bottleneck(信息瓶颈)
信息瓶颈是用于分析深度神经网络的理论框架,最先由文献提出,被称为有望最终打开深度学习黑箱的一把钥匙。这一想法是指神经网络就像把信息挤进瓶颈一样,只留下与一般概念最为相关的特征,去掉大量无关的噪音数据。
解决方法
上图是论文提出的整个流程的模型图:
- 输入一个句子,通过emlo或者其他预训练的语言模型,得到预训练句中每个词对应的向量
- 预训练得到的词向量进行压缩,得到每个词对应的tag,论文提出了两种tag,一种是离散的,一种是连续向量表示
- 从所有tag中获得parser结构。