大模型

机制

训练

异构模型/数据并行:

训推混部:

长序列:

MoE:

  • FasterMoE:影子专家(训练时在线实时计算影子专家的收益,进行专家参数拷贝,减少跨设备Token传输)、细粒度调度(拆分All2All和计算,通信和计算部分掩盖)
  • SMARTMoE:动态专家调度(离线构建仅专家放置可变的并行策略池,在线基于历史专家热度预测后续几百步热度,根据预测结果搜索更优的专家放置策略,评估收益,进行专家迁移调度)

重计算

微调

OpenAI O1带火了基于RLHF和思维链(COT)的微调/后训练方式。

弹性训练

建模

框架

模型

Llama, opensoraplan, deepseek

GLaM

谷歌,万亿MoE,谷歌|基于大型语言模型的大规模多语言浅融合

  • Massively Multilingual Shallow Fusion with Large Language Models
  • 提出在自动语音识别的浅层融合中使用大规模多语种语言模型(GLaM),在许多语言中取得了显著的改进。
  • 尽管 GLaM 模型很大(1.9GB),但由于其 MoE 架构,其推理计算量与 140M 稠密语言模型相似。
  • 每一层的专家都由一个门控网络控制,该网络根据输入数据激活专家。
  • 当专家数增加时,每个decoding步(Token)动态选择2个专家,输出将是两个专家输出的加权组合。
  • 共有 32 个 MoE 层,每个 MoE 层的 64 个专家,1.2T 的总参数。
  • 推理期间每个令牌预测仅激活97B(1.2T 的 8%)参数的子网络,推理计算量基本恒定。
  • 语音+文本多模态,语音-文本数据集,文本-文本数据集。

算子

FlashAttention利用GPU内存层次结构设计的策略,通过分块技术加速注意力计算,但导致了Softmax结果量化困难。INT8-FlashAttention论文通过证明SoftMax无需重量化,可以直接由计算得到,提升了计算性能。
(full-INT8)的推理速度与FP8类型的推理速度基本相同,但相比FP8-FlashAttention可兼容不支持FP8硬件如A100。并且INT8-FlashAttention采用的Per Token和Per Channel的量化方式计算精度相比FP8-FlashAttention版本可以提升10倍(误差8%->0.8%)。
我们在自适应精度里也提出了类似的Per Token量化,和分而治之的混精策略。可以参考该论文,尝试用在FlashAttention里。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容