注意力机制

为什么会有注意力机制提出来

类似于人类看图片，当人们看到一张图片的时候，都会下意识的将注意力放到比较明显的地方或者是自己比较感兴趣的地方，当我们做英文的阅读理解的时候，一般都是先看题目，再带着问题去看全文，将注意力更多的放在与问题相关的地方，文本表示也应该类似。
背景变量c

在以往的encode-decode当中，一般都将编码器的最后一步隐藏状态作为背景向量c，不论对于什么样子的目标都是不会变的，这样显然不是很合理的。

背景变量应当随着时间步的变化同时也应该产生相应的变化，第t步解码器的背景向量 $c_{t’}$ 根据第 $t$ 步的隐藏状态 $h_t$ 和第 $t-1$ 步解码器的隐藏状态 $s_{{t'}-1}$ 决定。
背景变量 $c_{t'}$ 的计算

第t步解码器的背景向量 $c_{t’}$ 根据第 $t$ 步的隐藏状态 $h_t$ 和第 $t-1$ 步解码器的隐藏状态 $s_{t'}$ 决定。
$C_{t'}=\sum_{t=1}^T\alpha_{t{t'}}h_t$
上式中， $h_t$ 为编码器t时间步的隐藏状态， $\alpha_{t{t'}}$ 为一个概率分布，为 $h_t$ 做加权平均。
$\alpha_{t{t'}}={exp(a(s_{{t'}-1}, h_t))\over \sum_{k=1}^Texp(a(s_{{t'}-1}, h_k))}$
$a$ 代表一种运算，如果其代表点乘的话，则 $a(s,h)=s^Th$