登录注册写文章

self-attention学习笔记

奋斗的小绵羊

self-attention学习笔记

1.引入Slef-Attention的原因

image.png

在自然语言处理中，使用RNN（这里指的的是LSTM）处理输入输出数据的时候，LSTM可以解决长文本依赖，因为他可以依赖于前面的文本，且不能够做并行计算，导致运算的速度非常慢。

image.png

所以有很多学者就会使用CNN去替代RNN，CNN需要叠加许多层，就可以看到所有的序列信息，并且可以并行计算。但是存在一个问题，就是需要叠加很多层，这样也间接的导致了效率变低。

image.png

所以引入的self-attention机制，就可以解决这两个问题：

1.看到每一个节点对所有节点的依赖
2.可以进行叠加运算
如右图所示，b¹可以依赖于a¹，a²，a³，a⁴，b²也是如此。

2.self-attention原理讲解

2.1大致原理讲解

image.png

1.计算a
x¹，x²，x³，x⁴会乘上一个矩阵W得到a¹，a²，a²，a³。
2.计算q，k，v
通过a与一个矩阵w计算可以得到q，k，v，三个值
其中每个值的作用和计算过程如下：
q：query（用于去匹配其他值的）， qⁱ=W^qaⁱ
k：key（用于被匹配）, kⁱ=W^kaⁱ
v：抽取的信息, vⁱ=W^vaⁱ
3.计算 $\alpha$

image.png

那每一个query q去对每一个key k做attention,其实就是q¹与kⁱ做点乘计算
其中： $\alpha$ _1,i=q¹kⁱ $\sqrt{d}$
4.计算 $\widehat{\alpha}$
这个算法就是将所有的 $\alpha<sub>1,i</sub>$ 相加在一起，然后进行一个soft-max输出，得到每一个 $\alpha$ 的概率分布。

image.png
5.计算b
将的 $\widehat{\alpha}$ 与每个v_i做一个点乘，然后再相加，就得到了b，也就最终的输出。
这整个过程就是self-attention机制,计算每个节点与其他节点之间的依赖.

image.png

2.2 数学计算方式

q,k,v的矩阵计算

image.png

因为q是w_q与每一个a进行点乘得到的,所以可以把所有的a看做一个矩阵,就是w_q与a矩阵计算的结果,这样就达到了并行计算了.
k,v的计算过程也是如此.
计算 $\alpha$

image.png

$\alpha$ 是由q¹与每一个k计算的结果(忽略 $\sqrt{d}$ ),所以可以把所有的k看做一个矩阵,这样就是k矩阵与q的矩阵计算.
计算 $\widehat{\alpha}$

image.png

把之前计算的 $\alpha$ 放入一个soft-max函数得到 $\widehat{\alpha}$
计算b

image.png

将 $\widehat{\alpha}$ 与v矩阵做点乘,然后把所有点乘的结果相加就得到了b
整个过程抽象化如下图所示:

image.png

最后编辑于：2022.07.09 08:18:24

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

从Attention到Transformer
前段时间在做命名实体识别项目，用到了Bert模型，最终的效果非常好。看了Bert的论文，知道Bert用到了双向Tr...
刘单纯阅读 3,693评论 0赞 0
论文共读笔记（2）理解Transformer的三层境界--Attention is all y...
[TOC]@author by xubing 0x00、先导知识 0.1 Seq2Seq 0.2 Attentio...
徐卜灵阅读 9,905评论 0赞 3

Attention Is All You Need ：论文解读
论文地址：https://arxiv.org/pdf/1706.03762.pdf[https://arxiv.o...
涓涓自然卷阅读 9,280评论 0赞 0
论文笔记：Attention is all you need
今天做完深度学习的论文分享，将这篇论文记录下来，以便日后回顾查看。PS:简书不支持 MathJax 编辑公式，简直...
是neinei啊阅读 94,908评论 15赞 66
《深度学习》学习笔记
本文是李宏毅教授《机器学习》课程的学习笔记，简要地介绍了深度学习的基本概念及常见网络架构，包括卷积神经网络、自注意...
偶尔写一写阅读 8,592评论 0赞 12

赞1赞

赞赏

手机看全文