简单计划:
-
megatron deepspeed 代码阅读笔记(20230925更新中) - 知乎 (zhihu.com)
[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 - 罗西的思考 - 博客园 (cnblogs.com)
[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 - 罗西的思考 - 博客园 (cnblogs.com)
[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现 - 罗西的思考 - 博客园 (cnblogs.com)
[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行 - 掘金 (juejin.cn)
[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush - 罗西的思考 - 博客园 (cnblogs.com)
罗西的思考 - 博客园 (cnblogs.com)
附加:张量并行的原理以及集合通信, 分布式相关
[★]大模型的重计算
1F1B Megatron-LM 中分布式相关概览 - 知乎 (zhihu.com)
大模型各个模块细节, flash attn, group attn, MHA, kvcache, transformer中tokenizer之类等
kernel开发和优化 cuda
相关重点:
4.1.多头注意力,频率太高了。coding轮,概念轮都考。复习的点包括:时间/空间复杂度,优化(kv-cache,MQA,GQA),手写多头代码。各种Norm,这个频率也不低,不过比较标准的内容,没有啥特意要说的,有的考手写,有的考概念和理解(为什么管用)。
4.2. 框架相关内容,各种并行方式,优缺点。DeepSpeed,Megatron可以看看源代码,Flash-Attention等内容。这个点也经常考代码题。
4.3. BERT,GPT等比较主流大模型,一些细节,比如位置编码,训练loss,激活,架构些许不同这种。自回归重点。
4.4. 大模型训练,这个可能主要是工作经验相关,经常问比如训练loss炸掉了,如何解决,一些技巧之类的。面试时有些面试官会问一些很细节的东西,感觉是在确认确实上手跑过基座训练不是吹水。
4.5.数据预处理,BPE,tokenization,mask相关概念和对模型/训练影响,数据配比(有paper)。
4.6. evaluation,如何评估大模型,安全性,有效性,公开数据,个别考过手写eval框架(多选,生成)。
4.7 https://zhuanlan.zhihu.com/p/663184400 10大问题RLHF, reinforcement learning humman feedback
Norm相关资料什么是BatchNorm/InstanceNorm/LayerNorm - 知乎 (zhihu.com)
昇腾大模型|结构组件-1——Layer Norm、RMS Norm、Deep Norm - 知乎 (zhihu.com)
PS:
a. 大模型源码解读:https://zhuanlan.zhihu.com/p/634377071
b. megatron: https://cloud.tencent.com/developer/article/1997465?areaSource=106000.1&traceId=MjnKrrE_ablCF3bVJvJay 所有相关资料