今天是 2021 年第一天,在此祝大家新年快乐! 相关视频都发布在西瓜视频上,西瓜视频账号为 zidea。
cover.jpg
自注意力机制(Self Attention)
这里老师不错,就是学习氛围不太好
户型不错就是价格有段
- 观察数据集
大量等于 x 的样本对应
的平均值就是作为估计值
有关自注意力层应用,在原始论文中是将 self-attention 和 LSTM 结合使用,这里介绍将 self-attention 和 SimpleRNN 结合使用,其实道理都是一样的,我们主要是学习如何将 self-attention 融入到循环神经网络中。
在之前介绍 SimpleRNN 中,我们知道更新 是通过上一个时刻和当前时刻输入
一起来更新当前的隐含状态
引入自注意力机制后,我们更新隐含状态 就是用当前上时刻得到
来代替
来和输入
一起更新隐含状态
的
self_attention_001.png
self_attention_002.png
self_attention_003.png
然后以此类推来更新下一个时刻隐含状态,用隐含状态 后,利用
和
计算得到得到当前时刻的隐含状态
。
self_attention_005.png
然后通过计算 可以得到隐含状态
self_attention_006.png
这样我们可以使用这些权重 和
想
self_attention_007.png
self_attention_008.png
self_attention_009.png
self_attention_010.png
- 每一轮都会用 context 看一轮之前输入隐含状态。
- 自注意力机制还会关注每一个输入,