得到了QKV三个矩阵
【5,4,129,64】做矩阵乘法算得分———
得分矩阵为【5,4,129,129】(用Q和K相乘)——
经过一个softmax层,只改变大小,不改变矩阵维度得到权重矩阵weights——
权重矩阵和values相乘【5,4,129,129】*【5,4,129,64】=context
context=【5,4,129,64】——维度交换重新排列
context=【5,129,256】
这一层返回的是context和weights
q=【5,4,129,64】
K=【5,4,64,129】/8(dk=64)
sores=【5,4,129,129】
计算注意力
先将scores,经过一个softmax层得到一个权重矩阵
权重矩阵和values相乘