仅在记录分享, 摘自《心理学》部分章节 现实世界 提高学习能力 为了更高效地学习这门课,你需要做一些看起来有点奇怪的事情:为难自己。但是,通过正...
https://www.bestblogs.dev/article/d5f1a70[https://www.bestblogs.dev/arti...
Q1: Transformer 中的 Softmax 的作用是归一化吗? A: Softmax 并非仅仅“归一化”。它的主要功能是把注意力得分(...
问答(QA)汇总 Q1: vLLM 指的是什么? A: vLLM(全称 “vLLM”)是一个专为大规模语言模型(Large Language ...
1️⃣ create_padding_mask 的实现与作用 Q: create_padding_mask 在项目中实现在哪里?它的输入是什么?...
Q1:DecoderLayer 包含哪些子层? A1:DecoderLayer 由三大子层组成: 自注意力子层(self‑attn) 交叉注意...
Q1: Encoder 中的参数 num_layers 代表什么? A: num_layers 指的是 编码器层的数量。在实现中,Encode...
Q1: Transformer 论文中架构的 add&norm 是什么,有什么用?A1: “Add & Norm” 指在每个子层(注意力层、前馈...
Transformer 学习笔记之可缩放点积注意力(Scaled‑Dot‑Product Attention) Q1: 在 scaled_dot...