deepseek v3 技术报告中文翻译

摘要

我们提出了 DeepSeek-V3，这是一个强大的混合专家模型（MoE），总参数量为 6710 亿，每个 token 激活 370 亿 参数。为了实现高效推理和经济训练，DeepSeek-V3 采用了多头潜在注意力机制（MLA）和 DeepSeekMoE 架构，这些架构已在 DeepSeek-V2 中得到充分验证。此外，DeepSeek-V3 率先提出了一种无辅助损失的负载均衡策略，并设定了多 token 预测训练目标以提升性能。我们在 14.8 万亿 高质量且多样化的 token 上对 DeepSeek-V3 进行了预训练，随后通过监督微调（SFT）和强化学习（RL）阶段充分释放其潜力。综合评估表明，DeepSeek-V3 超越了其他开源模型，并与领先的闭源模型表现相当。尽管性能卓越，DeepSeek-V3 的完整训练仅需 2.788M H800 GPU 小时。此外，其训练过程非常稳定，在整个训练过程中未出现任何不可恢复的损失突增或需要回滚的情况。模型检查点可在 https://github.com/deepseek-ai/DeepSeek-V3 获取。

介绍

近年来，大型语言模型（LLMs）经历了快速的迭代和演进（Anthropic, 2024; Google, 2024; OpenAI, 2024a），逐步缩小了与人工通用智能（AGI）之间的差距。除了闭源模型外，开源模型，包括 DeepSeek 系列（DeepSeek-AI, 2024a,b,c; Guo et al., 2024）、LLaMA 系列（AI@Meta, 2024a,b; Touvron et al., 2023a,b）、Qwen 系列（Qwen, 2023, 2024a,b）和 Mistral 系列（Jiang et al., 2023; Mistral, 2024），也取得了显著进展，努力缩小与闭源模型之间的差距。为了进一步突破开源模型的能力边界，我们扩大了模型规模，并推出了 DeepSeek-V3，这是一个拥有 6710 亿参数的大型混合专家模型（MoE），其中每个 token 激活 370 亿参数。

我们始终以长远的眼光，致力于在模型性能和经济成本之间取得平衡。因此，在架构设计上，DeepSeek-V3 仍然采用了多头潜在注意力机制（MLA）（DeepSeek-AI, 2024c）以实现高效的推理，以及DeepSeekMoE（Dai et al., 2024）以实现经济高效的训练。这两种架构已在 DeepSeek-V2（DeepSeek-AI, 2024c）中得到验证，证明了其在保持强大模型性能的同时，能够实现高效的训练和推理。除了基础架构外，我们还采用了两种额外策略来进一步提升模型能力。首先，DeepSeek-V3 率先采用了无辅助损失的负载均衡策略（Wang et al., 2024a），旨在减少因鼓励负载均衡而对模型性能产生的负面影响。其次，DeepSeek-V3 采用了多 token 预测的训练目标，我们观察到这一策略能够显著提升模型在评估基准上的整体表现。

为了实现高效的训练，我们支持 FP8 混合精度训练，并对训练框架进行了全面优化。低精度训练已成为高效训练的一种有前景的解决方案（Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b），其发展与硬件能力的进步密切相关（Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a）。在本研究中，我们引入了一种 FP8 混合精度训练框架，并首次在超大规模模型上验证了其有效性。通过对 FP8 计算和存储的支持，我们既加速了训练过程，又减少了 GPU 内存的使用。在训练框架方面，我们设计了 DualPipe 算法 以实现高效的流水线并行，该算法减少了流水线气泡，并通过计算-通信重叠隐藏了训练中的大部分通信开销。这种重叠确保了随着模型的进一步扩展，只要我们保持恒定的计算-通信比，仍然可以在节点间使用细粒度的专家模块，同时实现近乎零的全员通信开销。此外，我们还开发了高效的跨节点全员通信内核，以充分利用 InfiniBand (IB) 和 NVLink 的带宽。同时，我们对内存占用进行了精细优化，使得在不使用昂贵的张量并行的情况下训练 DeepSeek-V3 成为可能。通过这些努力，我们实现了极高的训练效率。

在预训练阶段，我们使用 14.8T 高质量且多样化的 token 对 DeepSeek-V3 进行了训练。整个预训练过程非常稳定，在整个训练过程中，我们没有遇到任何不可恢复的损失突增或需要回滚的情况。接下来，我们对 DeepSeek-V3 进行了两阶段的上下文长度扩展。在第一阶段，最大上下文长度扩展到 32K，在第二阶段进一步扩展到 128K。随后，我们对 DeepSeek-V3 的基础模型进行了后训练，包括监督微调（SFT）和强化学习（RL），以使其与人类偏好对齐并进一步释放其潜力。在后训练阶段，我们从 DeepSeek-R1 系列模型中蒸馏了推理能力，同时精心平衡了模型准确性和生成长度之间的关系。

我们对 DeepSeek-V3 进行了一系列全面的基准测试评估。尽管其训练成本经济，综合评估表明，DeepSeek-V3-Base 已成为当前最强的开源基础模型，尤其在代码和数学领域表现突出。其聊天版本也在多个标准和开放式基准测试中超越了其他开源模型，并与领先的闭源模型（包括 GPT-4o 和 Claude-3.5-Sonnet）表现相当。

最后，我们再次强调 DeepSeek-V3 的经济训练成本，如表 1 所示，这是通过我们在算法、框架和硬件上的优化协同设计实现的。在预训练阶段，每训练一万亿 token 仅需 180K H800 GPU 小时，即在我们拥有 2048 张 H800 GPU 的集群上仅需 3.7 天。因此，我们的预训练阶段在不到两个月内完成，总成本为 2664K GPU 小时。加上上下文长度扩展所需的 119K GPU 小时 和后训练所需的 5K GPU 小时，DeepSeek-V3 的完整训练仅消耗 2.788M GPU 小时。假设 H800 GPU 的租赁价格为每小时 2 美元，我们的总训练成本仅为 557.6 万美元。需要注意的是，上述成本仅包括 DeepSeek-V3 的官方训练，不包括前期在架构、算法或数据上的研究和消融实验相关成本。

我们的主要贡献包括：

架构：创新的负载均衡策略与训练目标

在 DeepSeek-V2 高效架构的基础上，我们率先提出了一种无辅助损失的负载均衡策略，最大限度地减少了因鼓励负载均衡而导致的性能下降。
我们研究了多 token 预测（MTP）目标，并证明其对模型性能有益。该目标还可用于推测解码以加速推理。

预训练：追求极致的训练效率

我们设计了一种 FP8 混合精度训练框架，并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
通过算法、框架和硬件的协同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，实现了近乎完全的计算-通信重叠。这显著提高了训练效率并降低了训练成本，使我们能够在不增加额外开销的情况下进一步扩展模型规模。
以仅 2.664M H800 GPU 小时 的经济成本，我们完成了 DeepSeek-V3 在 14.8T token 上的预训练，生成了当前最强的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。

后训练：从 DeepSeek-R1 进行知识蒸馏

我们引入了一种创新方法，将长链思维（CoT）模型（特别是 DeepSeek R1 系列模型之一）的推理能力蒸馏到标准 LLM（尤其是 DeepSeek-V3）中。我们的管道巧妙地将 R1 的验证和反思模式融入 DeepSeek-V3，显著提升了其推理性能。同时，我们还控制了 DeepSeek-V3 的输出风格和长度。

核心评估结果总结

知识领域：
1. 在教育类基准测试（如 MMLU、MMLU-Pro 和 GPQA）中，DeepSeek-V3 超越了所有其他开源模型，在 MMLU 上达到 88.5，在 MMLU-Pro 上达到 75.9，在 GPQA 上达到 59.1。其表现与 GPT-4o 和 Claude-Sonnet-3.5 等领先闭源模型相当，缩小了开源与闭源模型在该领域的差距。
2. 在事实性基准测试中，DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 上均表现出色，在开源模型中领先。虽然在英文事实性知识（SimpleQA）上略逊于 GPT-4o 和 Claude-Sonnet-3.5，但在中文事实性知识（中文 SimpleQA）上超越了这些模型，展现了其在中文事实性知识上的优势。
代码、数学与推理：
1. DeepSeek-V3 在所有非长链思维的开源和闭源模型中，在数学相关基准测试上达到了最先进的性能。特别是在 MATH-500 等特定基准测试中，甚至超越了 o1-preview，展示了其强大的数学推理能力。
2. 在代码相关任务中，DeepSeek-V3 成为代码竞赛基准测试（如 LiveCodeBench）中表现最佳的模型，巩固了其在该领域的领先地位。在工程相关任务中，虽然 DeepSeek-V3 略低于 Claude-Sonnet-3.5，但仍显著领先于其他所有模型，展现了其在多样化技术基准测试中的竞争力。

通过这些贡献，DeepSeek-V3 不仅在性能上达到了新的高度，还在训练效率和成本控制上树立了新的标杆。

在本文的剩余部分，我们首先详细介绍了 DeepSeek-V3 模型架构（第 2 节）。随后，我们介绍了我们的基础设施，包括计算集群、训练框架、对 FP8 训练的支持、推理部署策略以及对未来硬件设计的建议。接下来，我们描述了预训练过程，包括训练数据的构建、超参数设置、长上下文扩展技术、相关评估以及一些讨论（第 4 节）。之后，我们讨论了后训练的工作，包括监督微调（SFT）、强化学习（RL）、相应的评估和讨论（第 5 节）。最后，我们对本工作进行总结，讨论了 DeepSeek-V3 的现有局限性，并提出了未来研究的潜在方向（第 6 节）。

2. 架构

我们首先介绍 DeepSeek-V3 的基础架构，其特点是采用多头潜在注意力机制（MLA）（DeepSeek-AI, 2024c）以实现高效推理，以及 DeepSeekMoE（Dai et al., 2024）以实现经济高效的训练。接着，我们提出了一种多 token 预测（MTP）训练目标，我们观察到该目标能够显著提升模型在评估基准上的整体性能。对于未明确提及的其他细节，DeepSeek-V3 遵循了 DeepSeek-V2（DeepSeek-AI, 2024c）的设置。

2.1 基础架构

DeepSeek-V3 的基础架构仍然基于 Transformer（Vaswani et al., 2017）框架。为了实现高效推理和经济训练，DeepSeek-V3 同样采用了 MLA 和 DeepSeekMoE，这两者已在 DeepSeek-V2 中得到了充分验证。与 DeepSeek-V2 相比，一个例外是我们额外引入了一种无辅助损失的负载均衡策略（Wang et al., 2024a）用于 DeepSeekMoE，以减轻因确保负载均衡而导致的性能下降。图 2 展示了 DeepSeek-V3 的基础架构，我们将在本节简要回顾 MLA 和 DeepSeekMoE 的细节。

图 2 | DeepSeek-V3 基础架构示意图。遵循 DeepSeek-V2 的设计，我们采用 MLA 和 DeepSeekMoE 以实现高效推理和经济训练。

2.1.1 多头潜在注意力机制（MLA）

在注意力机制方面，DeepSeek-V3 采用了 MLA 架构。设 𝑑 表示嵌入维度，𝑛ℎ 表示注意力头的数量，𝑑ℎ 表示每个头的维度，h𝑡 ∈ R𝑑 表示给定注意力层中第 𝑡 个 token 的注意力输入。MLA 的核心是对注意力键（Key）和值（Value）进行低秩联合压缩，以减少推理过程中的 Key-Value（KV）缓存：

image.png

其中，c𝐾𝑉𝑡 ∈ R𝑑𝑐 是键（Key）和值（Value）的压缩潜在向量；𝑑𝑐（≪ 𝑑ℎ𝑛ℎ） 表示键值压缩维度；𝑊𝐷𝐾𝑉 ∈ R𝑑𝑐×𝑑 是下投影矩阵；𝑊𝑈𝐾 和 𝑊𝑈𝑉 ∈ R𝑑ℎ𝑛ℎ×𝑑𝑐 分别是键和值的上投影矩阵；𝑊𝐾𝑅 ∈ R𝑑𝑅ℎ×𝑑 是用于生成携带旋转位置嵌入（RoPE）（Su et al., 2024）的解耦键的矩阵；RoPE(·) 表示应用 RoPE 矩阵的操作；[·; ·] 表示拼接操作。需要注意的是，对于 MLA，在生成过程中只需缓存蓝色框内的向量（即 c𝐾𝑉𝑡 和 k𝑅𝑡），这显著减少了 KV 缓存，同时保持了与标准多头注意力机制（MHA）（Vaswani et al., 2017）相当的性能。

对于注意力查询（Query），我们也进行了低秩压缩，这可以减少训练期间的激活内存占用：

image.png

其中，c𝑄𝑡 ∈ R𝑑′𝑐 是查询（Query）的压缩潜在向量；𝑑′𝑐（≪ 𝑑ℎ𝑛ℎ） 表示查询压缩维度；𝑊𝐷𝑄 ∈ R𝑑′𝑐×𝑑 和 𝑊𝑈𝑄 ∈ R𝑑ℎ𝑛ℎ×𝑑′𝑐 分别是查询的下投影和上投影矩阵；𝑊𝑄𝑅 ∈ R𝑑𝑅ℎ𝑛ℎ×𝑑′𝑐 是用于生成携带 RoPE 的解耦查询的矩阵。

最终，注意力查询（q𝑡,𝑖）、键（k𝑗,𝑖）和值（v𝐶𝑗,𝑖）被结合以生成最终的注意力输出 u𝑡：

image.png

其中，𝑊𝑂 ∈ R𝑑×𝑑ℎ𝑛ℎ 表示输出投影矩阵。

2.1.2 采用无辅助损失负载均衡的 DeepSeekMoE

DeepSeekMoE 的基础架构

在前馈网络（FFN）方面，DeepSeek-V3 采用了 DeepSeekMoE 架构（Dai et al., 2024）。与传统的 MoE 架构（如 GShard，Lepikhin et al., 2021）相比，DeepSeekMoE 使用了更细粒度的专家模块，并将部分专家隔离为共享专家。设 u𝑡 表示第 𝑡 个 token 的 FFN 输入，我们按如下方式计算 FFN 输出 h′𝑡：

image.png

其中，𝑁𝑠 和 𝑁𝑟 分别表示共享专家和路由专家的数量；FFN(𝑠)𝑖(·) 和 FFN(𝑟)𝑖(·) 分别表示第 𝑖 个共享专家和第 𝑖 个路由专家；𝐾𝑟 表示激活的路由专家数量；𝑔𝑖,𝑡 是第 𝑖 个专家的门控值；𝑠𝑖,𝑡 是 token 到专家的亲和度；e𝑖 是第 𝑖 个路由专家的中心向量；Topk(·, 𝐾) 表示第 𝑡 个 token 与所有路由专家计算的亲和度分数中前 𝐾 个最高分数的集合。与 DeepSeek-V2 略有不同，DeepSeek-V3 使用 sigmoid 函数 计算亲和度分数，并在所有选定的亲和度分数之间进行归一化以生成门控值。

无辅助损失负载均衡

对于 MoE 模型，专家负载不均衡会导致路由崩溃（Shazeer et al., 2017），并在专家并行场景中降低计算效率。传统解决方案通常依赖辅助损失（Fedus et al., 2021; Lepikhin et al., 2021）来避免负载不均衡。然而，过大的辅助损失会损害模型性能（Wang et al., 2024a）。为了在负载均衡和模型性能之间取得更好的平衡，我们率先提出了一种无辅助损失的负载均衡策略（Wang et al., 2024a）以确保负载均衡。具体来说，我们为每个专家引入一个偏置项 𝑏𝑖，并将其添加到相应的亲和度分数 𝑠𝑖,𝑡 中以确定 Top-K 路由：

image.png

需要注意的是，偏置项仅用于路由。门控值（将与 FFN 输出相乘）仍然从原始亲和度分数 𝑠𝑖,𝑡 中导出。在训练过程中，我们持续监控每个训练步骤中整批数据的专家负载。在每一步结束时，如果某个专家的负载过高，我们将其偏置项减少 𝛾；如果负载过低，则增加 𝛾，其中 𝛾 是一个称为偏置更新速度的超参数。通过这种动态调整，DeepSeek-V3 在训练期间保持了专家负载的均衡，并取得了比单纯依赖辅助损失实现负载均衡的模型更好的性能。

补充的序列级辅助损失

尽管 DeepSeek-V3 主要依赖无辅助损失策略来实现负载均衡，但为了防止任何单个序列内的极端不均衡，我们还采用了补充的序列级平衡损失：

image.png

其中，平衡因子 𝛼 是一个超参数，在 DeepSeek-V3 中会被赋予一个极小的值；1(·) 表示指示函数；𝑇 表示序列中的 token 数量。序列级平衡损失鼓励每个序列上的专家负载保持均衡。

### **图 3 | 多 token 预测（MTP）实现示意图** 我们在每个深度上为每个 token 的预测保留了完整的因果链。

节点限制路由

与 DeepSeek-V2 使用的设备限制路由类似，DeepSeek-V3 也采用了一种受限的路由机制，以限制训练期间的通信成本。简而言之，我们确保每个 token 最多被发送到 𝑀 个节点，这些节点是根据分布在各节点上的专家的前 𝐾𝑟/𝑀 个最高亲和度分数的总和来选择的。在此约束下，我们的 MoE 训练框架几乎可以实现完全的计算-通信重叠。

无 token 丢弃

由于有效的负载均衡策略，DeepSeek-V3 在整个训练过程中保持了良好的负载均衡。因此，DeepSeek-V3 在训练期间不会丢弃任何 token。此外，我们还实施了特定的部署策略以确保推理负载均衡，因此 DeepSeek-V3 在推理期间也不会丢弃 token。

2.2 多 token 预测（MTP）

受 Gloeckle et al. (2024) 的启发，我们研究并为 DeepSeek-V3 设定了多 token 预测（MTP）目标，该目标将预测范围扩展到每个位置的多个未来 token。一方面，MTP 目标使训练信号更加密集，可能会提高数据效率。另一方面，MTP 可能使模型能够预先规划其表示，以更好地预测未来的 token。图 3 展示了我们的 MTP 实现。与 Gloeckle et al. (2024) 使用独立输出头并行预测 𝐷 个额外 token 不同，我们按顺序预测额外 token，并在每个预测深度保留完整的因果链。我们在本节中详细介绍我们的 MTP 实现。

MTP 模块

具体来说，我们的 MTP 实现使用 𝐷 个顺序模块来预测 𝐷 个额外 token。第 𝑘 个 MTP 模块包括一个共享的嵌入层 Emb(·)、一个共享的输出头 OutHead(·)、一个 Transformer 块 TRM𝑘(·) 和一个投影矩阵 𝑀𝑘 ∈ R𝑑×2𝑑。对于第 𝑖 个输入 token 𝑡𝑖，在第 𝑘 个预测深度，我们首先将第 (𝑘 − 1) 个深度的第 𝑖 个 token 的表示 h𝑘−1𝑖 ∈ R𝑑 与第 (𝑖 + 𝑘) 个 token 的嵌入 𝐸𝑚𝑏(𝑡𝑖+𝑘) ∈ R𝑑 通过线性投影结合：

image.png

其中，[·; ·] 表示拼接操作。特别地，当 𝑘 = 1 时，h𝑘−1𝑖 指的是主模型给出的表示。需要注意的是，每个 MTP 模块的嵌入层与主模型共享。拼接后的 h′𝑘𝑖 作为第 𝑘 个深度的 Transformer 块的输入，以生成当前深度的输出表示 h𝑘𝑖：

未完待续。。。