登录注册写文章

【NLP模型】Attetion注意力机制

【NLP模型】Attetion注意力机制

参考 https://www.jianshu.com/p/e14c6a722381

1.Encoder-Decoder 模型

Encoder-Decoder 模型

其中， $x_1x_2 \cdots x_4$ 为输入（假设为待翻译的句子）， $y_1y_2 \cdots y_4$ 为输出（假设为目标翻译句子）， $c$ 为中间语义变量

$c=g(x_1,x_2 \cdots x_4)$

$\left\{ \begin{aligned} y_1 = f(c) \\ y_2 = f(c,y_1) \\ y_i = f(c,y_1,y_2 \cdots y_{i-1}) \end{aligned} \right.$

$g$ 和 $f$ 为任意非线性变换，如RNN，CNN

2.Attention模型

Attetion 在 Encoder-Decoder 基础上，使输出 $y_i$ 不再共享同一个 $c$ ，每个 $y_i$ 对应一个 $c_i$ 。注意力的意思就是对于一个输出 $y_1$ ，可能更关注 $x_1$ 而比较少关注其他输入，即 $y_1$ 主要被 $x_1$ 影响，计算 $c_1$ 时， $x_1$ 的权重也更大

引入注意力机制后的Attetion模型.png

$c_i = g(\omega_1*x_1 +\omega_2*x_2 + \cdots + \omega_i*x_i)$

$\left\{ \begin{aligned} y_1 = f(c_1) \\ y_2 = f(c_2,y_1) \\ y_i = f(c_i,y_1,y_2 \cdots y_{i-1}) \end{aligned} \right.$

下面讨论 $\omega$ 的值如何计算

假设Encoder和Decoder都是RNN模型

如图， $h_i$ 为输入的隐藏层， $H_i$ 为输出的隐藏层，都可以在计算 $y_i$ 前算出

向量 $\omega$ 由 $h_i$ 和 $H_i$ 经某种变换 $F$ 并经过softmax层得出：

计算w的过程

3. 对Attetnion模型进行更一般化的表示

attention模型权重的一般化计算方法

如图，Query相当于上面提到的RNN的Encoder中的隐藏层 $h$ ，Key相当于RNN的Encoder中的隐藏层 $H$ ，a相当于 $\omega$ ，Value相当于输入 $x$ ，Attention Value相当于中间语义 $c$

最后编辑于：2019.12.03 12:22:40

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

关于《注意力模型--Attention注意力机制》的学习
此文大部分参考深度学习中的注意力机制(2017版)张俊林的博客，不过添加了一些个人的思考与理解过程。在github...
布口袋_天晴了阅读 69,303评论 9赞 34
NLP Attention机制
要是关注深度学习在自然语言处理方面的研究进展，我相信你一定听说过Attention Model（后文有时会简称AM...
MiracleJQ阅读 2,795评论 1赞 6
深度学习中的注意力机制
转载自：http://blog.csdn.net/tg229dvt5i93mxaq5a6u/article/det...
苟且偷生小屁屁阅读 6,998评论 0赞 8
NLP中的Attention Model
原文地址要是关注深度学习在自然语言处理方面的研究进展，我相信你一定听说过Attention Model（后文有时...
Henrywood阅读 1,737评论 0赞 5
Attention is all we need
一、背景注意力模型（Attention Model）被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型...
河海中最菜阅读 2,402评论 1赞 2

赞1赞

赞赏

手机看全文