注意力机制
一、最开始的注意力机制
-
为什么会有注意力机制提出来
类似于人类看图片,当人们看到一张图片的时候,都会下意识的将注意力放到比较明显的地方或者是自己比较感兴趣的地方,当我们做英文的阅读理解的时候,一般都是先看题目,再带着问题去看全文,将注意力更多的放在与问题相关的地方,文本表示也应该类似。
-
背景变量c
在以往的encode-decode当中,一般都将编码器的最后一步隐藏状态作为背景向量
c,不论对于什么样子的目标都是不会变的,这样显然不是很合理的。背景变量应当随着时间步的变化同时也应该产生相应的变化,第
t步解码器的背景向量根据第
步的隐藏状态
和第
步解码器的隐藏状态
决定。
-
背景变量
的计算
第
t步解码器的背景向量根据第
步的隐藏状态
和第
步解码器的隐藏状态
决定。
上式中,为编码器t时间步的隐藏状态,
为一个概率分布,为
做加权平均。
代表一种运算,如果其代表点乘的话,则
设为查询项,也即
,
为键项
,
为值项
,则上式可以简化成为
,也即
- 可以在解码器的每个时间步使用不同的背景变量,并对输入序列中不同时间步编码的信息分配不同的注意力