提出了一种用于中文序列标注的词库增强型BERT,通过Lexicon Adapter layer 将外部词库知识融入到BERT层中
将词汇整合到了底层,在BERT的transformer层之间集成lexicon信息,通过将一个汉语句子与一个现有词汇进行匹配,将其转换为一个字符-单词对序列。词典适配器用于动态提取最相关的匹配项,每个字符的单词使用字符到单词的双线性注意机制,词典适配器应用于BERT中相邻transformer之间,词典特征和BERT表示通过BERT中的多层编码器充分交互
证实了底层特征集成有助于跨度边界检测和跨度类型确定。
BERT Adapter旨在学习下游任务的任务特定参数。在预先训练好的模型层之间添加适配器,只为特定任务来调整添加的适配器中的参数。
We apply the Lexicon Adapter between the 1-st and 2-nd Transformer in BERT and fine-tune both BERT and pre-trained word embedding during training.
两个主要区别:
LEBERT同时具有character特征和lexicon特征作为给定的输入,汉语句子被转换为一个character-words对序列
transformer之间连接有一个lexicon adapter,将lexicon knowledge整合到Bert中
1. Char-Words Pair Sequence
we first build a Trie based on the D(a Chinese Lexicon D),
2. Lexicon Adapter
对于第i个位置的 char-words 对序列,输入表示为
h(i,c)表示的是character向量,由当前transformer输出,x(i,ws)表示的是word embedding
为了对齐两种不同的表示,将查找到的x(ij,w),进行下面的维度计算
为了从所有匹配的单词中找出最相关的单词,引入了character-to-word的注意机制
对于第i个character,其word组合为Vi,和h(i,c),W矩阵计算全局ai,再对于第j个word, a(i,j)*v(ij,w),求和计算后的到z(i,w)
最后得到lexicon的权重信息
3. Lexicon Enhanced BERT
如何 inject lexcion信息在第k层 和 第(k+1)层 Transformer
适配器输入一个character向量和成对的word feature。通过对字符和单词的双线性attention,将lexcion特征加权为一个向量,然后将该向量添加到character向量,然后进行layer normalization.