【维度变化的过程汇总3(多头注意力机制)】2021-06-09

加入位置信息之后的矩阵【5,129,256】——经过一个全连接层


【5,129,768(256*3)】——切成QKV三个矩阵【5,129,256】


——将129*256的矩阵拆开,拆成4个129*64的矩阵,原来每一行是256个数,现在的每一行是64个数一行拆成4行具体的操作是将矩阵的数据全部被展开然后重新排列【5,129,4,64】——第二维度和第三维度转换【5,4,129,64】

全连接层



对张量进行切片

split进行切片

什么叫横着截断【一个长为768的序列排成一列,256,256,256】

dim=-1,意思就是在第三个维度上(最后一个维度)截断


将129*256的矩阵拆开,

拆成4个129*64的矩阵

原来每一行是256个数,现在的每一行是64个数

一行拆成4行

具体的操作是将矩阵的数据全部被展开然后重新排列

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容