背景知识

Attention Mechanism

这篇文章把普通的self-attention的输出表示为：
$\begin{aligned} z _ { i } &= \sum _ { j = 1 } ^ { n } \alpha _ { i j } \left( x _ { j } W ^ { V } \right)\\ \alpha _ { i j } &= \frac { \exp e _ { i j } } { \sum _ { k = 1 } ^ { n } \exp e _ { i k } } \\ e _ { i j } &= \frac { \left( x _ { i } W ^ { Q } \right) \left( x _ { j } W ^ { K } \right) ^ { T } } { \sqrt { d _ { z } } } \end{aligned}$

注： $e_{ij}$ 的计算方式采用的是Scaled Dot-Product，详见Attention Mechanism

Localness Modeling

Localness Modeling as a Gaussian Bias

在普通self-attention的基础上，这篇文章引入了高斯分布，上述self-attention的计算可以修改为：
$\begin{aligned} z _ { i } &= \sum _ { j = 1 } ^ { n } \alpha _ { i j } \left( x _ { j } W ^ { V } \right)\\ \alpha _ { i j } &= \frac { \exp (e _ { i j } + G_{ij}) } { \sum _ { k = 1 } ^ { n } \exp (e _ { i k }+G_{ik}) } \\ e _ { i j } &= \frac { \left( x _ { i } W ^ { Q } \right) \left( x _ { j } W ^ { K } \right) ^ { T } } { \sqrt { d _ { z } } } \end{aligned}$
其中，
$G _ { ij } = - \frac { \left( j - P _ { i } \right) ^ { 2 } } { 2 \sigma _ { i } ^ { 2 } }$
其中， $P_i$ 被称为中心位置，而一般 $\sigma _ { i }$ 被设置为 $\frac { D _ { i } } { 2 }$ ， $D_i$ 代表窗口大小。

这里 $G$ 的设计与DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding这篇文章中的backward/forward mask的设计思路一致

中心位置和窗口大小通过下面这个式子计算得出：
$\left[ \begin{array}{c}{P_{i}} \\ {D_{i}}\end{array}\right]=I \cdot \operatorname{sigmoid}\left(\left[ \begin{array}{c}{p_{i}} \\ {z_{i}}\end{array}\right]\right)$
上述这个式子的目的是将 $P_i$ 与 $D_i$ 调节到0和 $n$ （输入序列的长度）之间。