上一层输出了一个context=【5,129,256】和原来的矩阵(输入之前的矩阵【5,129,256】)相加,相加之后的结果做一个层归一化
http://blog.sciencenet.cn/blog-3428464-1256155.html
层归一化的详细说明
使得每一行的均值为零方差为模型维度256
简单来说就是减去每一层的均值,乘以每一层的方差开根号(标准差)
http://blog.sciencenet.cn/blog-3428464-1256155.html
层归一化的详细说明
简单来说就是减去每一层的均值,乘以每一层的方差开根号(标准差)