240 发简信
IP属地:广东
  • <<心理学>> 之 提高学习能力的方法

    仅在记录分享, 摘自《心理学》部分章节 现实世界 提高学习能力 为了更高效地学习这门课,你需要做一些看起来有点奇怪的事情:为难自己。但是,通过正...

  • OpenClaw 学习

    https://www.bestblogs.dev/article/d5f1a70[https://www.bestblogs.dev/arti...

  • Transformer 中 Softmax 与 Sigmoid 的作用、原理及区别

    Q1: Transformer 中的 Softmax 的作用是归一化吗? A: Softmax 并非仅仅“归一化”。它的主要功能是把注意力得分(...

  • vLLM —— 大语言模型推理加速框架

    问答(QA)汇总 Q1: vLLM 指的是什么? A: vLLM(全称 “vLLM”)是一个专为大规模语言模型(Large Language ...

  • Transformer 中 Mask、Attention 与前向/前馈 易混淆点整理

    1️⃣ create_padding_mask 的实现与作用 Q: create_padding_mask 在项目中实现在哪里?它的输入是什么?...

  • Transformer DecoderLayer 结构与工作原理详解

    Q1:DecoderLayer 包含哪些子层? A1:DecoderLayer 由三大子层组成: 自注意力子层(self‑attn) 交叉注意...

  • Transformer Encoder 参数 num_layers 详解及取值建议

    Q1: Encoder 中的参数 num_layers 代表什么? A: num_layers 指的是 编码器层的数量。在实现中,Encode...

  • Transformer 中的前馈网络、残差连接与层归一化(Add & Norm)

    Q1: Transformer 论文中架构的 add&norm 是什么,有什么用?A1: “Add & Norm” 指在每个子层(注意力层、前馈...

  • Transformer 学习笔记之可缩放点积注意力(Scaled‑Dot‑Product Attention)

    Transformer 学习笔记之可缩放点积注意力(Scaled‑Dot‑Product Attention) Q1: 在 scaled_dot...

个人介绍
Letter better than never .
Bad pen better than good memory.