文章总结:在进行编码之前进行了一个位置嵌入,下一篇看位置函数的矩阵变化 卷积之后的输入维度 可能用到的参数 True 'residual_dropout': 0.1,函数pre_ffn_forward(在全连接之前的处理) 函数 位置嵌入函数