题目:Transformer-XL: Attentive Language Models
Beyond a Fixed-Length Context
摘要:Transformer 网络具有学习更长期依赖性的潜力,但这种潜力往往会受到语言建模中上下文长度固定的限制。因此,我们提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题,它可以在不破坏时间一致性的情况下,让 Transformer 超越固定长度学习依赖性。具体来说,它是由片段级的循环机制和全新的位置编码策略组成的。我们的方法不仅可以捕获更长的依赖关系,还可以解决上下文碎片化的问题。
模型:
1)片段级递归机制:上面两图分别是传统的transformer和transformer-XL模型的对比,可以看到,tansformer-XL模型在计算下一片段的隐藏层状态时用到了上一片段的隐藏层信息,这样可以捕获更长距离的上下文信息
2)相对位置编码方案:
上面分别是原始的绝对位置编码和改进后的相对位置编码,将Uj替换成了Ri,j,Ri,j描述了i和j之间的相对距离