1.Encoder-Decoder 模型
其中,为输入(假设为待翻译的句子),为输出(假设为目标翻译句子),为中间语义变量
和为任意非线性变换,如RNN,CNN
2.Attention模型
Attetion 在 Encoder-Decoder 基础上,使输出不再共享同一个,每个对应一个。注意力的意思就是对于一个输出,可能更关注而比较少关注其他输入,即主要被影响,计算时,的权重也更大
下面讨论的值如何计算
如图,为输入的隐藏层,为输出的隐藏层,都可以在计算前算出
向量由和经某种变换并经过softmax层得出:
3. 对Attetnion模型进行更一般化的表示
如图,Query相当于上面提到的RNN的Encoder中的隐藏层,Key相当于RNN的Encoder中的隐藏层,a相当于,Value相当于输入,Attention Value相当于中间语义