大模型相关计划资料汇总

简单计划：

megatron deepspeed 代码阅读笔记（20230925更新中） - 知乎 (zhihu.com)
[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 - 罗西的思考 - 博客园 (cnblogs.com)
[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 - 罗西的思考 - 博客园 (cnblogs.com)
[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现 - 罗西的思考 - 博客园 (cnblogs.com)
[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行 - 掘金 (juejin.cn)
[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush - 罗西的思考 - 博客园 (cnblogs.com)

罗西的思考 - 博客园 (cnblogs.com)
附加：张量并行的原理以及集合通信，分布式相关
[★]大模型的重计算
1F1B Megatron-LM 中分布式相关概览 - 知乎 (zhihu.com)

大模型各个模块细节， flash attn, group attn, MHA, kvcache, transformer中tokenizer之类等
kernel开发和优化 cuda
相关重点：
4.1.多头注意力，频率太高了。coding轮，概念轮都考。复习的点包括：时间/空间复杂度，优化（kv-cache，MQA，GQA），手写多头代码。各种Norm，这个频率也不低，不过比较标准的内容，没有啥特意要说的，有的考手写，有的考概念和理解（为什么管用）。
4.2. 框架相关内容，各种并行方式，优缺点。DeepSpeed，Megatron可以看看源代码，Flash-Attention等内容。这个点也经常考代码题。
4.3. BERT，GPT等比较主流大模型，一些细节，比如位置编码，训练loss，激活，架构些许不同这种。自回归重点。
4.4. 大模型训练，这个可能主要是工作经验相关，经常问比如训练loss炸掉了，如何解决，一些技巧之类的。面试时有些面试官会问一些很细节的东西，感觉是在确认确实上手跑过基座训练不是吹水。
4.5.数据预处理，BPE，tokenization，mask相关概念和对模型/训练影响，数据配比（有paper）。
4.6. evaluation，如何评估大模型，安全性，有效性，公开数据，个别考过手写eval框架（多选，生成）。
4.7 https://zhuanlan.zhihu.com/p/663184400 10大问题
RLHF, reinforcement learning humman feedback
额外信息整理大模型分布式训练并行技术（一）-概述 - 知乎 (zhihu.com)
Norm相关资料什么是BatchNorm/InstanceNorm/LayerNorm - 知乎 (zhihu.com)
昇腾大模型|结构组件-1——Layer Norm、RMS Norm、Deep Norm - 知乎 (zhihu.com)

PS：
a. 大模型源码解读：https://zhuanlan.zhihu.com/p/634377071
b. megatron: https://cloud.tencent.com/developer/article/1997465?areaSource=106000.1&traceId=MjnKrrE_ablCF3bVJvJay 所有相关资料

大模型相关计划资料汇总

推荐阅读更多精彩内容