1.Encoder-Decoder 模型
Encoder-Decoder 模型
其中,
为输入(假设为待翻译的句子),
为输出(假设为目标翻译句子),
为中间语义变量
和
为任意非线性变换,如RNN,CNN
2.Attention模型
Attetion 在 Encoder-Decoder 基础上,使输出不再共享同一个
,每个
对应一个
。注意力的意思就是对于一个输出
,可能更关注
而比较少关注其他输入,即
主要被
影响,计算
时,
的权重也更大
引入注意力机制后的Attetion模型.png
下面讨论的值如何计算
假设Encoder和Decoder都是RNN模型
如图,
为输入的隐藏层,
为输出的隐藏层,都可以在计算
前算出
向量由
和
经某种变换
并经过softmax层得出:
计算w的过程
3. 对Attetnion模型进行更一般化的表示
attention模型权重的一般化计算方法
如图,Query相当于上面提到的RNN的Encoder中的隐藏层
,Key相当于RNN的Encoder中的隐藏层
,a相当于
,Value相当于输入
,Attention Value相当于中间语义