Self-Attention with Relative Position Representations

Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Position Representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, March. arXiv: 1803.02155.

非递归的模型(attention,CNN等)并没有考虑输入序列中元素的顺序,因此在很多任务中可能需要显式地编码位置信息。这篇文章将元素与元素之间的相对位置表示引入了self-attention机制。在两个机器翻译的任务中,引入相对位置表示的self-attention比绝对位置编码的self-attention有明显的提升。

背景知识

注:e_{ij}的计算方式采用的是Scaled Dot-Product,详见Attention Mechanism

模型

Relation-aware Self-Attention

在普通self-attention的基础上,这篇文章引入了两个与相对位置相关的向量:a _ { i j } ^ { V } , a _ { i j } ^ { K } \in \mathbb { R } ^ { d _ { a } },之所以采用d_a维向量的表示形式,主要是为了套用原来self-attention的计算公式。
也就是说,如果attention的目标词是x_i的话,那么在计算x_jx_i的注意力特征的时候,需要额外考虑x_jx_i的两个与位置相关的向量。
引入这两个向量之后,上述self-attention的计算可以修改为:
\begin{aligned} z _ { i } &= \sum _ { j = 1 } ^ { n } \alpha _ { i j } \left( x _ { j } W ^ { V } + a _ { i j } ^ { V } \right) \\ \alpha _ { i j } &= \frac { \exp e _ { i j } } { \sum _ { k = 1 } ^ { n } \exp e _ { i k } } \\ e _ { i j } &= \frac { x _ { i } W ^ { Q } \left( x _ { j } W ^ { K } + a _ { i j } ^ { K } \right) ^ { T } } { \sqrt { d _ { z } } }\\ \end{aligned}

Relative Position Representations

Relative Position Representations的目标是给出a _ { i j } ^ { V } , a _ { i j } ^ { K }的计算方式。作者假设如果序列中两个元素的距离超过k,则这两元素之间的位置信息就没有意义了。同时,a _ { i j } ^ { V } , a _ { i j } ^ { K }应该只跟相对位置有关,而与x_i, x_j没有关系。作者直接将a _ { i j } ^ { V } , a _ { i j } ^ { K }定义为了可训练的向量,本质上是训练w ^ { K } = \left( w _ { - k } ^ { K } , \ldots , w _ { k } ^ { K } \right)w ^ { V } = \left( w _ { - k } ^ { V } , \ldots , w _ { k } ^ { V } \right)
\begin{aligned} a _ { i j } ^ { K } & = w _ { \operatorname { clip }( j - i , k ) } ^ { K } \\ a _ { i j } ^ { V } & = w _ { \operatorname { clip } ( j - i , k ) } ^ { V } \\ \operatorname { clip } ( x , k ) & = \max ( - k , \min ( k , x ) ) \end{aligned}

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容