感觉这个视频讲的特别清楚: 第一节 第二节 所以做了这个图记录一下: 自注意力计算过程.png 矩阵是我们需要学习的矩阵 的时候要除以,其中为向量维数 都是对向量的操作 最终的结果可以看做一个单词在句子中的重要程度。