IP属地:湖北
Encoder和Decoder中的计算核心就是Self-Attention,只是Decoder中多了一个Encoder-Decoder Atte...
输出的是dec_output 和attn_weight 1.计算attention 2.计算出来的结果加上原来的X 3.之后进行层归一化 和之前...
1.这里输入的targets 添加一个模型的维度 变化之后每一列的数值是一样的 最后一个维度256为词嵌入的维度 加入位置参数
上一层得到一个层归一化之后的矩阵【5,129,256】,层归一化之后的矩阵做一个全连接 激活函数为glu 因为在这中间包含了Relu激活函数,而...
上一层输出了一个context=【5,129,256】和原来的矩阵(输入之前的矩阵【5,129,256】)相加,相加之后的结果做一个层归一化 h...
得到了QKV三个矩阵 【5,4,129,64】做矩阵乘法算得分——— 得分矩阵为【5,4,129,129】(用Q和K相乘)—— 经过一个soft...
加入位置信息之后的矩阵【5,129,256】——经过一个全连接层 【5,129,768(256*3)】——切成QKV三个矩阵【5,129,256...
【5,129,256】———维度不发生变化数值发生变化 位置矩阵不存在模型的维度变化 输入的矩阵*16+一个维度相同的位置矩阵