登录注册写文章

【维度变化的过程汇总8（self.block1）】2021-06-23

【维度变化的过程汇总8（self.block1）】2021-06-23

每一层的输出

输出的是dec_output

和attn_weight

1.计算attention

和之前的计算方法应该是一样的

x

2.计算出来的结果加上原来的X

标准化

3.之后进行层归一化

和之前进行的计算attention的步骤是一样的

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

【维度变化的过程汇总9（self.block2）】2021-06-28
Encoder和Decoder中的计算核心就是Self-Attention，只是Decoder中多了一个Encod...
star星陨阅读 260评论 0赞 0
源码解析目标检测的跨界之星DETR（四）、Detection with Transformer
Date: 2020/07/25 Coder: CW Foreword: 本文是该系列的重点之一，通过对DETR中...
CW不要无聊的风格阅读 6,492评论 2赞 12

Transformer架构详解
Google 2017年论文Attention is all you need提出了Transformer模型，完...
魏鹏飞阅读 8,911评论 0赞 5
AI基础知识总结
1 为什么要对特征做归一化特征归一化是将所有特征都统一到一个大致相同的数值区间内，通常为[0,1]。常用的特征归...
顾子豪阅读 7,110评论 2赞 22
Transformer 模型的 PyTorch 实现
Google 2017年的论文 Attention is all you need 阐释了什么叫做大道至简！该论文...
top_小酱油阅读 7,619评论 1赞 4

友情链接更多精彩内容

赞1赞

赞赏

手机看全文