大模型相关计划资料汇总

简单计划:

  1. megatron deepspeed 代码阅读笔记(20230925更新中) - 知乎 (zhihu.com)
    [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 - 罗西的思考 - 博客园 (cnblogs.com)
    [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 - 罗西的思考 - 博客园 (cnblogs.com)
    [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现 - 罗西的思考 - 博客园 (cnblogs.com)
    [源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行 - 掘金 (juejin.cn)
    [源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush - 罗西的思考 - 博客园 (cnblogs.com)

罗西的思考 - 博客园 (cnblogs.com)
附加:张量并行的原理以及集合通信, 分布式相关
[★]大模型的重计算
1F1B Megatron-LM 中分布式相关概览 - 知乎 (zhihu.com)

  1. 大模型各个模块细节, flash attn, group attn, MHA, kvcache, transformer中tokenizer之类等

  2. kernel开发和优化 cuda

  3. 相关重点:
    4.1.多头注意力,频率太高了。coding轮,概念轮都考。复习的点包括:时间/空间复杂度,优化(kv-cache,MQA,GQA),手写多头代码。各种Norm,这个频率也不低,不过比较标准的内容,没有啥特意要说的,有的考手写,有的考概念和理解(为什么管用)。
    4.2. 框架相关内容,各种并行方式,优缺点。DeepSpeed,Megatron可以看看源代码,Flash-Attention等内容。这个点也经常考代码题。
    4.3. BERT,GPT等比较主流大模型,一些细节,比如位置编码,训练loss,激活,架构些许不同这种。自回归重点。
    4.4. 大模型训练,这个可能主要是工作经验相关,经常问比如训练loss炸掉了,如何解决,一些技巧之类的。面试时有些面试官会问一些很细节的东西,感觉是在确认确实上手跑过基座训练不是吹水。
    4.5.数据预处理,BPE,tokenization,mask相关概念和对模型/训练影响,数据配比(有paper)。
    4.6. evaluation,如何评估大模型,安全性,有效性,公开数据,个别考过手写eval框架(多选,生成)。
    4.7 https://zhuanlan.zhihu.com/p/663184400 10大问题

  4. RLHF, reinforcement learning humman feedback

  5. 额外信息整理 大模型分布式训练并行技术(一)-概述 - 知乎 (zhihu.com)

  6. Norm相关资料什么是BatchNorm/InstanceNorm/LayerNorm - 知乎 (zhihu.com)
    昇腾大模型|结构组件-1——Layer Norm、RMS Norm、Deep Norm - 知乎 (zhihu.com)

PS:
a. 大模型源码解读:https://zhuanlan.zhihu.com/p/634377071
b. megatron: https://cloud.tencent.com/developer/article/1997465?areaSource=106000.1&traceId=MjnKrrE_ablCF3bVJvJay 所有相关资料

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 随着ChatGPT的迅速出圈,加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说,...
    吃果冻不吐果冻皮阅读 4,304评论 0 2
  • 使用Transformers加载大模型, 并使用流式输出进行文本生成 使用Transformers加载大模型, 并...
    IT_小马哥阅读 3,793评论 0 0
  • 概念理解 BRDF,双向反射分布函数。大致就是在给定表面点上,输入入射向量和出射向量,算出出射辐射率和入射辐照度的...
    小小青蛙不怕风吹雨打阅读 4,010评论 0 0
  • 1 简介 最近一直被大语言模型刷屏。本文是周末技术分享会的提纲,总结了一些自然语言模型相关的重要技术,以及各个主流...
    xieyan0811阅读 6,117评论 0 2
  • 目前Foundation Model或者是大模型,特别地火,接下来介绍什么是大模型,大模型的基本概念;接着看看大模...
    ZOMI酱阅读 4,342评论 0 3