DeepSeek V3/R1技术亮点总览

DeepSeek V3/R1技术亮点

适用场景	技术创新	模型效果影响	训练效率影响	推理效率影响	部署友好性影响
V3/R1训推通用	细粒度专家	解决专家精细度和知识共享问题	减少TP通信开销	减少激活参数量	降低算力需求
	MLA	--	降低显存占用，提升计算效率	压缩KV - cache大小	降低显存需求
	MTP	提升模型预测能力	提升训练数据利用率	推理加速1.8倍	--
	FP8量化（Kernel级细粒度量化）	相比非量化精度损失<0.25%	降低显存及算力消耗	量化推理加速	要求硬件支持FP8
	跨节点路由（基于PTX精准控制SM占用）	--	提升通信带宽利用率	提升通信带宽利用率	--
	EP并行通信掩盖	--	细粒度计算&并行设计，接近100%的EP通信掩盖	不同数据批之间互相掩盖，提升推理效率	降低通信需求
V3训练	DualPipe双向流水	--	减少50%的流水并行气泡，优化通信开销	--	--
R1训练	高效率GRPO强化学习算法	提升模型推理能力	避免了value model的训练，降低训练复杂度	--	降低RL训练部署难度
	无标注数据RL训练	让模型通过迭代提升能力上限	无需数据标注，加速整体流程	--	简化整体训练流程
	大模型推理能力蒸馏	大幅度提升小模型的推理能力	复杂RL训练替换为简易SFT	--	简化小模型后训练流程
V3/R1推理	冗余专家	--	--	高负载专家复制多份，减轻卡间负载不均衡问题	增加推理服务部署的卡数需求
	混合并行推理+PD分离部署	--	--	PD阶段并行策略独立设计，提升推理吞吐，优化推理时延	增加推理服务部署的卡数需求

解释

TP通信开销：
- 含义：TP即张量并行（Tensor Parallelism），在这种并行模式下，不同计算设备处理张量的不同部分，设备间需交换数据以完成计算，此数据交换产生的时间、带宽等资源消耗即TP通信开销。
- 举例：在矩阵乘法的张量并行计算中，不同GPU分别计算矩阵不同部分，最后需汇总结果，数据在GPU间传输会占用通信带宽，耗费时间，这些就是TP通信开销。
激活参数量：
- 含义：神经网络中，激活函数对输入数据进行非线性变换，激活参数量指激活函数涉及的参数数量。减少激活参数量可降低模型计算量与存储需求。
- 举例：在多层感知机（MLP）中，每层神经元使用激活函数（如ReLU），若减少激活函数相关参数，可减少激活参数量。
KV - cache：
- 含义：主要用于Transformer架构模型推理，Key - Value缓存，存储注意力计算中的中间结果（键值对）。推理时，新输入与缓存结果结合计算注意力分数，减少重复计算，提升推理速度。
- 举例：在语言生成模型推理时，每生成一个新单词，利用KV - cache中已计算的键值对，避免重新计算所有位置注意力，加快生成速度。
流水并行气泡：
- 含义：在PP流水线并行（Pipeline Parallelism）中，模型按层或模块分给不同设备，数据像在流水线中依次传递处理。但因各层计算时间不同步，会出现部分设备等待数据或计算完成后空闲情况，这些空闲时间即流水并行气泡，降低了整体效率。
- 举例：假设神经网络有三层，设备A处理第一层，设备B处理第二层，设备C处理第三层。若第一层计算快，第二层慢，设备B处理完第一层数据后等待第二层数据，此等待时间就是气泡。
value model：
- 含义：在强化学习中，价值模型用于评估智能体在特定状态下采取行动的长期价值，预测状态价值或动作价值，辅助智能体决策。
- 举例：在Atari游戏的强化学习中，价值模型评估游戏某状态下采取不同操作（如向左、向右、跳跃等）能获得的长期奖励，指导智能体选择最佳动作。
RL训练：
- 含义：强化学习（Reinforcement Learning）训练，智能体与环境交互，通过试错学习最优策略。智能体采取行动，环境反馈奖励或惩罚，智能体据此调整策略，目标是最大化长期累积奖励。
- 举例：机器人在未知环境探索，每次移动视为行动，到达目标获正奖励，碰撞障碍物得负奖励，通过不断尝试学习到达目标的最佳路径。
SFT：
- 含义：通常指监督微调（Supervised Fine - Tuning），基于预训练模型，用有标注数据进一步训练，使模型适应特定任务。
- 举例：预训练语言模型BERT在通用文本上训练，针对情感分类任务，用标注好情感倾向的文本数据微调，使模型在该任务上表现更好。
推理吞吐：
- 含义：指模型在推理过程中，单位时间内能够处理的输入数据量，反映了模型推理的效率。吞吐量越高，意味着模型在相同时间内可以处理更多的推理请求。
- 举例：对于一个图像识别模型，推理吞吐可以表示为每秒能够处理的图像数量。如果一个模型每秒能处理100张图像，那么它的推理吞吐就是100张/秒。
推理时延：
- 含义：指从输入数据进入模型开始，到模型输出推理结果所花费的时间。推理时延越短，模型对输入的响应速度就越快。
- 举例：在自动驾驶场景中，车载的目标检测模型从获取到摄像头图像，到输出检测到的目标信息，如果花费了0.1秒，那么这个模型的推理时延就是0.1秒。

DeepSeek V3/R1技术亮点总览

DeepSeek V3/R1技术亮点总览

DeepSeek V3/R1技术亮点

解释

相关阅读更多精彩内容

友情链接更多精彩内容