DeepSeek V3/R1技术亮点
| 适用场景 | 技术创新 | 模型效果影响 | 训练效率影响 | 推理效率影响 | 部署友好性影响 |
|---|---|---|---|---|---|
| V3/R1训推通用 | 细粒度专家 | 解决专家精细度和知识共享问题 | 减少TP通信开销 | 减少激活参数量 | 降低算力需求 |
| MLA | -- | 降低显存占用,提升计算效率 | 压缩KV - cache大小 | 降低显存需求 | |
| MTP | 提升模型预测能力 | 提升训练数据利用率 | 推理加速1.8倍 | -- | |
| FP8量化(Kernel级细粒度量化) | 相比非量化精度损失<0.25% | 降低显存及算力消耗 | 量化推理加速 | 要求硬件支持FP8 | |
| 跨节点路由(基于PTX精准控制SM占用) | -- | 提升通信带宽利用率 | 提升通信带宽利用率 | -- | |
| EP并行通信掩盖 | -- | 细粒度计算&并行设计,接近100%的EP通信掩盖 | 不同数据批之间互相掩盖,提升推理效率 | 降低通信需求 | |
| V3训练 | DualPipe双向流水 | -- | 减少50%的流水并行气泡,优化通信开销 | -- | -- |
| R1训练 | 高效率GRPO强化学习算法 | 提升模型推理能力 | 避免了value model的训练,降低训练复杂度 | -- | 降低RL训练部署难度 |
| 无标注数据RL训练 | 让模型通过迭代提升能力上限 | 无需数据标注,加速整体流程 | -- | 简化整体训练流程 | |
| 大模型推理能力蒸馏 | 大幅度提升小模型的推理能力 | 复杂RL训练替换为简易SFT | -- | 简化小模型后训练流程 | |
| V3/R1推理 | 冗余专家 | -- | -- | 高负载专家复制多份,减轻卡间负载不均衡问题 | 增加推理服务部署的卡数需求 |
| 混合并行推理+PD分离部署 | -- | -- | PD阶段并行策略独立设计,提升推理吞吐,优化推理时延 | 增加推理服务部署的卡数需求 |
解释
-
TP通信开销:
- 含义:TP即张量并行(Tensor Parallelism),在这种并行模式下,不同计算设备处理张量的不同部分,设备间需交换数据以完成计算,此数据交换产生的时间、带宽等资源消耗即TP通信开销。
- 举例:在矩阵乘法的张量并行计算中,不同GPU分别计算矩阵不同部分,最后需汇总结果,数据在GPU间传输会占用通信带宽,耗费时间,这些就是TP通信开销。
-
激活参数量:
- 含义:神经网络中,激活函数对输入数据进行非线性变换,激活参数量指激活函数涉及的参数数量。减少激活参数量可降低模型计算量与存储需求。
- 举例:在多层感知机(MLP)中,每层神经元使用激活函数(如ReLU),若减少激活函数相关参数,可减少激活参数量。
-
KV - cache:
- 含义:主要用于Transformer架构模型推理,Key - Value缓存,存储注意力计算中的中间结果(键值对)。推理时,新输入与缓存结果结合计算注意力分数,减少重复计算,提升推理速度。
- 举例:在语言生成模型推理时,每生成一个新单词,利用KV - cache中已计算的键值对,避免重新计算所有位置注意力,加快生成速度。
-
流水并行气泡:
- 含义:在PP流水线并行(Pipeline Parallelism)中,模型按层或模块分给不同设备,数据像在流水线中依次传递处理。但因各层计算时间不同步,会出现部分设备等待数据或计算完成后空闲情况,这些空闲时间即流水并行气泡,降低了整体效率。
- 举例:假设神经网络有三层,设备A处理第一层,设备B处理第二层,设备C处理第三层。若第一层计算快,第二层慢,设备B处理完第一层数据后等待第二层数据,此等待时间就是气泡。
-
value model:
- 含义:在强化学习中,价值模型用于评估智能体在特定状态下采取行动的长期价值,预测状态价值或动作价值,辅助智能体决策。
- 举例:在Atari游戏的强化学习中,价值模型评估游戏某状态下采取不同操作(如向左、向右、跳跃等)能获得的长期奖励,指导智能体选择最佳动作。
-
RL训练:
- 含义:强化学习(Reinforcement Learning)训练,智能体与环境交互,通过试错学习最优策略。智能体采取行动,环境反馈奖励或惩罚,智能体据此调整策略,目标是最大化长期累积奖励。
- 举例:机器人在未知环境探索,每次移动视为行动,到达目标获正奖励,碰撞障碍物得负奖励,通过不断尝试学习到达目标的最佳路径。
-
SFT:
- 含义:通常指监督微调(Supervised Fine - Tuning),基于预训练模型,用有标注数据进一步训练,使模型适应特定任务。
- 举例:预训练语言模型BERT在通用文本上训练,针对情感分类任务,用标注好情感倾向的文本数据微调,使模型在该任务上表现更好。
-
推理吞吐:
- 含义:指模型在推理过程中,单位时间内能够处理的输入数据量,反映了模型推理的效率。吞吐量越高,意味着模型在相同时间内可以处理更多的推理请求。
- 举例:对于一个图像识别模型,推理吞吐可以表示为每秒能够处理的图像数量。如果一个模型每秒能处理100张图像,那么它的推理吞吐就是100张/秒。
-
推理时延:
- 含义:指从输入数据进入模型开始,到模型输出推理结果所花费的时间。推理时延越短,模型对输入的响应速度就越快。
- 举例:在自动驾驶场景中,车载的目标检测模型从获取到摄像头图像,到输出检测到的目标信息,如果花费了0.1秒,那么这个模型的推理时延就是0.1秒。