DeepSeek V3/R1技术亮点总览

DeepSeek V3/R1技术亮点

适用场景 技术创新 模型效果影响 训练效率影响 推理效率影响 部署友好性影响
V3/R1训推通用 细粒度专家 解决专家精细度和知识共享问题 减少TP通信开销 减少激活参数量 降低算力需求
MLA -- 降低显存占用,提升计算效率 压缩KV - cache大小 降低显存需求
MTP 提升模型预测能力 提升训练数据利用率 推理加速1.8倍 --
FP8量化(Kernel级细粒度量化) 相比非量化精度损失<0.25% 降低显存及算力消耗 量化推理加速 要求硬件支持FP8
跨节点路由(基于PTX精准控制SM占用) -- 提升通信带宽利用率 提升通信带宽利用率 --
EP并行通信掩盖 -- 细粒度计算&并行设计,接近100%的EP通信掩盖 不同数据批之间互相掩盖,提升推理效率 降低通信需求
V3训练 DualPipe双向流水 -- 减少50%的流水并行气泡,优化通信开销 -- --
R1训练 高效率GRPO强化学习算法 提升模型推理能力 避免了value model的训练,降低训练复杂度 -- 降低RL训练部署难度
无标注数据RL训练 让模型通过迭代提升能力上限 无需数据标注,加速整体流程 -- 简化整体训练流程
大模型推理能力蒸馏 大幅度提升小模型的推理能力 复杂RL训练替换为简易SFT -- 简化小模型后训练流程
V3/R1推理 冗余专家 -- -- 高负载专家复制多份,减轻卡间负载不均衡问题 增加推理服务部署的卡数需求
混合并行推理+PD分离部署 -- -- PD阶段并行策略独立设计,提升推理吞吐,优化推理时延 增加推理服务部署的卡数需求

解释

  1. TP通信开销
    • 含义:TP即张量并行(Tensor Parallelism),在这种并行模式下,不同计算设备处理张量的不同部分,设备间需交换数据以完成计算,此数据交换产生的时间、带宽等资源消耗即TP通信开销。
    • 举例:在矩阵乘法的张量并行计算中,不同GPU分别计算矩阵不同部分,最后需汇总结果,数据在GPU间传输会占用通信带宽,耗费时间,这些就是TP通信开销。
  2. 激活参数量
    • 含义:神经网络中,激活函数对输入数据进行非线性变换,激活参数量指激活函数涉及的参数数量。减少激活参数量可降低模型计算量与存储需求。
    • 举例:在多层感知机(MLP)中,每层神经元使用激活函数(如ReLU),若减少激活函数相关参数,可减少激活参数量。
  3. KV - cache
    • 含义:主要用于Transformer架构模型推理,Key - Value缓存,存储注意力计算中的中间结果(键值对)。推理时,新输入与缓存结果结合计算注意力分数,减少重复计算,提升推理速度。
    • 举例:在语言生成模型推理时,每生成一个新单词,利用KV - cache中已计算的键值对,避免重新计算所有位置注意力,加快生成速度。
  4. 流水并行气泡
    • 含义:在PP流水线并行(Pipeline Parallelism)中,模型按层或模块分给不同设备,数据像在流水线中依次传递处理。但因各层计算时间不同步,会出现部分设备等待数据或计算完成后空闲情况,这些空闲时间即流水并行气泡,降低了整体效率。
    • 举例:假设神经网络有三层,设备A处理第一层,设备B处理第二层,设备C处理第三层。若第一层计算快,第二层慢,设备B处理完第一层数据后等待第二层数据,此等待时间就是气泡。
  5. value model
    • 含义:在强化学习中,价值模型用于评估智能体在特定状态下采取行动的长期价值,预测状态价值或动作价值,辅助智能体决策。
    • 举例:在Atari游戏的强化学习中,价值模型评估游戏某状态下采取不同操作(如向左、向右、跳跃等)能获得的长期奖励,指导智能体选择最佳动作。
  6. RL训练
    • 含义:强化学习(Reinforcement Learning)训练,智能体与环境交互,通过试错学习最优策略。智能体采取行动,环境反馈奖励或惩罚,智能体据此调整策略,目标是最大化长期累积奖励。
    • 举例:机器人在未知环境探索,每次移动视为行动,到达目标获正奖励,碰撞障碍物得负奖励,通过不断尝试学习到达目标的最佳路径。
  7. SFT
    • 含义:通常指监督微调(Supervised Fine - Tuning),基于预训练模型,用有标注数据进一步训练,使模型适应特定任务。
    • 举例:预训练语言模型BERT在通用文本上训练,针对情感分类任务,用标注好情感倾向的文本数据微调,使模型在该任务上表现更好。
  8. 推理吞吐
    • 含义:指模型在推理过程中,单位时间内能够处理的输入数据量,反映了模型推理的效率。吞吐量越高,意味着模型在相同时间内可以处理更多的推理请求。
    • 举例:对于一个图像识别模型,推理吞吐可以表示为每秒能够处理的图像数量。如果一个模型每秒能处理100张图像,那么它的推理吞吐就是100张/秒。
  9. 推理时延
    • 含义:指从输入数据进入模型开始,到模型输出推理结果所花费的时间。推理时延越短,模型对输入的响应速度就越快。
    • 举例:在自动驾驶场景中,车载的目标检测模型从获取到摄像头图像,到输出检测到的目标信息,如果花费了0.1秒,那么这个模型的推理时延就是0.1秒。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容