Encoder和Decoder中的计算核心就是Self-Attention,只是Decoder中多了一个Encoder-Decoder Attention。其实计算原理和Se...
Encoder和Decoder中的计算核心就是Self-Attention,只是Decoder中多了一个Encoder-Decoder Attention。其实计算原理和Se...
输出的是dec_output 和attn_weight 1.计算attention 2.计算出来的结果加上原来的X 3.之后进行层归一化 和之前进行的计算attention的...
1.这里输入的targets 添加一个模型的维度 变化之后每一列的数值是一样的 最后一个维度256为词嵌入的维度 加入位置参数
上一层得到一个层归一化之后的矩阵【5,129,256】,层归一化之后的矩阵做一个全连接 激活函数为glu 因为在这中间包含了Relu激活函数,而均值为零的数据,有一半的数据为...
上一层输出了一个context=【5,129,256】和原来的矩阵(输入之前的矩阵【5,129,256】)相加,相加之后的结果做一个层归一化 http://blog.scie...
得到了QKV三个矩阵 【5,4,129,64】做矩阵乘法算得分——— 得分矩阵为【5,4,129,129】(用Q和K相乘)—— 经过一个softmax层,只改变大小,不改变矩...
加入位置信息之后的矩阵【5,129,256】——经过一个全连接层 【5,129,768(256*3)】——切成QKV三个矩阵【5,129,256】 ——将129*256的矩阵...
【5,129,256】———维度不发生变化数值发生变化 位置矩阵不存在模型的维度变化 输入的矩阵*16+一个维度相同的位置矩阵
输入维度【5,522,40】——添加维度【5,1,522,40】—— 第一次卷积【5,64,260,20】——第二次卷积【5,128,129,10】——维度交换128和129...
加入位置矩阵后的变化(不改变维度) 【5,129,256】 256*256*3 第三维度上切片,横着截断 将129*256的矩阵拆开, 拆成4个129*64的矩阵 原来每一行...
总结: 维度不发生变化 具体的数值发生变化 输入的矩阵*16(256的根)然后再加上一个生成的矩阵 生成的位置矩阵是如何生成的 根据数据的第二个维度 129 生成一个[0:1...
测试文件scratch_10 函数 输入维度[5,129,256] 经过一个全连接 [5,129,1024] 经过一个激活函数 relu [5,129,1024] 去掉非负数...
文章总结:在进行编码之前进行了一个位置嵌入,下一篇看位置函数的矩阵变化 'residual_dropout': 0.1, 函数pre_ffn_forward(在全连接之前的处理)
1.具体的矩阵运算 对应位置的数字相乘之后加上偏置项 小于0的数设置为0 大于0的数设置为本身 单个卷积矩阵 输出的结果 因为激活函数为RELU 大于零的部分保留 小于零的部...
1.输入的语音数据 输入的所有数据 输入的掩码,掩码取的是size的最大长度 2.将数据和掩码放入卷积层 输出的维度和掩码 3.具体变化过程 #1.x = x.unsquee...
参数: self实例化参数 inputs 输入 张量 inputs_mask:对应的掩码张量 输入的掩码
1.数据集dataset(4个) 2.在一个batch中batch size=8