提出机构:阿里巴巴达摩院
论文链接:https://arxiv.org/pdf/1908.04577.pdf
作者认为Bert的预训练任务忽略了语言结构(language structure)信息,因此StructBert在Bert原有的MaskLM的训练目标上,增加了两个基于语言结构的训练目标:词序(word-level ordering)和句序(sentence-level ordering)任务。
Contribution
原理
Input Representation和模型架构同Bert,即多层Transformer。
改进在于保存了Bert现有的预训练任务MaskLM和NSP的情况下,新增了两个预训练目标:Word Structural Objective和Sentence Structural Objective。
Word Structural Objective
从未被mask的序列中随机选择部分子序列(使用超参数K来确定子序列长度,论文选择的K值=3,即trigram),将子序列中的词序打乱,让模型重建原来的词序。作者从重新排列的子序列中选择5%,进行词序的打乱。
Sentence Structural Objective
给定句子对(S1, S2),判断S2是否是S1的下一个句子,或上一个句子,或毫无关联的句子(从NSP的0/1分类变成了三分类问题)。
采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对。
句子的输入格式同Bert相同,也是用[SEP]分隔。
预训练细节
Base和Large模型和Bert的架构保持一致。
实验结果
Glue
用了grid search进行了调参
SNLI
句对关系数据集。
SQuAD
针对两个新提出的Objective的消融实验