【维度变化的过程汇总4(多头注意力机制2)】2021-06-09

得到了QKV三个矩阵

【5,4,129,64】做矩阵乘法算得分———

得分矩阵为【5,4,129,129】(用Q和K相乘)——


经过一个softmax层,只改变大小,不改变矩阵维度得到权重矩阵weights——



权重矩阵和values相乘【5,4,129,129】*【5,4,129,64】=context



context=【5,4,129,64】——维度交换重新排列



context=【5,129,256】


这一层返回的是context和weights








矩阵乘法

q=【5,4,129,64】

K=【5,4,64,129】/8(dk=64)

sores=【5,4,129,129】


得分矩阵

计算注意力

计算context



scores

先将scores,经过一个softmax层得到一个权重矩阵

权重矩阵和values相乘


矩阵相乘


维度交换


输出得context和权重
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容