Transformer Network

coursera deeplearning
一、组成


image.png

二、self-attention
self-attention 是 Transformer Network 中比较核心的部分,目的是使文本中某个单词与其他单词产生联系,产生联系后的单词为 z

1、在 self-attention 当中输入单词数和输出单词数一致


v2-ace271b3d7094074aabfc743afd2e841_r.jpg

2、计算过程

a single attention function:
image.png
image.png

Q : 向量
K : 向量
V : 向量
dk : 向量维度
认为两个向量越相近,相乘值越高

三、Multi-head attention
多头注意力机制就是将多个 single attention function 的结果进行 concat 拼接,拼接后再与一个矩阵相乘,认为不同的输入 z 关注不同距离的注意力 attention

对第 i one head:
image.png

Mutil-Head :


image.png
image.png

四、Position Encoding
为了体现单词之间的相对关系,使用 Position Encoding , 在 Input Embedding 之后与 Position Encoding 相加

五、encoder & decoder
encoder : 生成 K V 矩阵
decoder : 生成 Q 矩阵
交互如下:


image.png
image.png
image.png

六、其他
Norm : 使用了归一化但和 BN 不同
Feed Forward : 全连接
N× : 有 N 个 encoder 和 N 个 decoder

参考
https://zhuanlan.zhihu.com/p/46990010
https://www.bilibili.com/video/BV1Di4y1c7Zm?p=7
https://www.bilibili.com/video/BV1L54y1a7Y3

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容