DeepSeek AI 框架技术详解

引言：DeepSeek AI 的崛起

人工智能领域正经历着飞速的发展，而 DeepSeek AI 作为一股重要的力量崭露头角。

这家由梁文峰创立的中国初创公司，其使命在于弥合人工智能研究与实际应用之间的鸿沟。

DeepSeek AI 专注于构建开源大型语言模型（LLM），并在与 OpenAI 的 GPT-4 和 Google 的 Gemini 等专有系统以及 Meta 的 Llama 或 Qwen 等开源模型竞争中展现出强大的实力。

image.png

其核心模型包括用于通用对话和内容生成的 DeepSeek V，用于图像生成的 Janus，以及专注于推理的 DeepSeek R1。

DeepSeek 的出现，作为强大的开源竞争者，正在挑战着既有的专有 AI 模型的统治地位，这可能促使更广泛地获取先进的 AI 能力。

DeepSeek V3 和 R1 等模型的推出，其性能足以匹敌甚至超越闭源模型，这表明尖端 AI 不再仅仅掌握在拥有庞大资源的大公司手中，为小型组织和个人开发者带来了新的机遇。

此外，DeepSeek 在开发和运营中对成本效益的重视，预示着 AI 经济学可能发生变革，使得更广泛的用户和应用能够负担得起先进的 AI 技术。

声称的较低训练成本和更高效的推理表明，如果能够以更少的资源实现最先进的性能，那么主要参与者对 AI 基础设施的巨额投资的必要性就会受到质疑。

DeepSeek 框架的核心架构创新

混合专家模型（Mixture of Experts, MoE）架构

DeepSeek 框架的核心创新之一是其混合专家模型（MoE）架构。

与 GPT-4 等稠密模型不同，MoE 模型能够根据不同的输入选择性地激活模型参数的不同子集（称为专家）。

DeepSeek V3 就是一个 MoE 语言模型，它并非为每个 token 使用所有参数，而是动态地选择一部分专家来处理，从而降低了计算成本，并实现了更高效的资源利用。

为了高效地训练 MoE 层，DeepSeek 引入了 DeepSeekMoE 技术，该技术有助于在专家之间分配工作负载，减少可能影响模型性能的不平衡。

此外，DeepSeek V3 还引入了一种无需辅助损失的负载均衡策略，以解决 MoE 模型中常见的专家利用不均问题，从而减少了性能与均匀专家激活之间的权衡。

值得注意的是，DeepSeek R1 也采用了 MoE 架构，拥有 6710 亿参数，但在每次前向传播中仅激活 370 亿参数。

image.png

MoE 架构是 DeepSeek 实现效率和可扩展性的关键因素，使其能够以远低于稠密模型的计算资源实现高性能。

通过仅激活其庞大参数的一小部分来处理每个输入，DeepSeek 降低了推理过程中的计算负担。

这种设计使得模型能够显著扩展其总参数量（例如，R1 和 V3 中都达到了 6710 亿），而不会导致每次查询的成本成比例增加，从而使其更适用于实际部署。

多头潜在注意力（Multi-Head Latent Attention, MLA）机制

DeepSeek 框架的另一个核心创新是多头潜在注意力（MLA）机制。

MLA 最初在 DeepSeek V2 中引入，并在 V3 中得到进一步优化，旨在提高注意力机制的速度和内存效率，从而加快推理速度并降低内存消耗。

MLA 通过将键值（Key-Value）矩阵压缩为更小的潜在向量来优化内存使用。

image.png

为了高效地处理长序列，MLA 采用了动态低秩投影和自适应查询压缩技术。

此外，在处理长上下文时，MLA 还利用了联合键值存储和分层自适应缓存来进一步优化内存。

MLA 是一项关键的技术创新，它通过在不显著影响性能的情况下减少内存开销，从而提高了 DeepSeek 的效率，尤其是在处理长上下文输入方面。

处理长文本或代码序列由于存储注意力键和值所需的内存而可能在计算上非常昂贵。

MLA 的压缩技术使得 DeepSeek 能够更有效地管理这些内存需求，使其能够处理高达 128K tokens 的上下文长度，这对于代码审查或法律文件分析等任务非常有利。

基于 Transformer 的设计和关键参数

DeepSeek AI 的基础架构是基于 Transformer 的，这与 GPT 模型类似。

它利用自注意力机制和多头注意力来实现对上下文的理解。

模型拥有大规模的参数（例如，V3 和 R1 的总参数都达到了 6710 亿），这使得它能够理解复杂的查询并生成高质量的响应。

image.png

DeepSeek-R1 包含一个嵌入层、61 个 Transformer 层和多个预测头。

虽然 DeepSeek 基于标准的 Transformer 架构，但它融入了 MoE 和 MLA 等重要的优化技术，这表明基础模型在不断演进，以实现更好的效率和性能。

Transformer 架构的选择为 DeepSeek 提供了强大的自然语言处理和理解能力。

然而，集成 MoE 进行稀疏激活和 MLA 进行高效注意力等创新技术，表明 DeepSeek 专注于解决与超大型 Transformer 模型相关的常见计算限制。

解读 DeepSeek 的训练流程

基于海量多样化数据集的预训练

DeepSeek V3 在包含 14.8 万亿高质量 tokens 的数据集上进行了预训练，这些数据主要来源于英语、中文和编程语言。

DeepSeek 的模型使用了 2 万亿到 14.8 万亿 tokens 的数据集，从而扩展了其多语言支持能力。

DeepSeek Coder 则在一个 87% 为代码和 13% 为自然语言的庞大数据集上进行了训练。

DeepSeek-VL 的预训练数据集来源于各种来源，包括 Common Crawl、网络代码、电子书、教育材料和 arXiv 文章。

训练数据的庞大规模和多样性对于 DeepSeek 在各种领域和语言（尤其是英语和中文）中展现出强大的性能至关重要。在数万亿 tokens 上进行训练，使得模型能够接触到大量的语言和事实信息，从而学习复杂的模式和关系。

DeepSeek Coder 等模型中包含大量代码数据，直接促成了其强大的编码能力。

对包括中文在内的多语言数据的重视，使得 DeepSeek 在处理和理解这种语言方面具有优势。

用于对齐的监督微调（Supervised Fine-Tuning, SFT）

DeepSeek V3 在预训练后会进行监督微调（SFT），以使其输出与人类的期望对齐。

SFT 涉及在一个包含推理和非推理任务（如数学、编程、逻辑、创意写作、角色扮演、问答）的精心策划的数据集上进行训练。

DeepSeek-R1 也在强化学习之前受益于监督预训练步骤，以提高输出的连贯性。

image.png

SFT 在确保 DeepSeek 模型生成的响应不仅准确，而且有帮助、连贯且符合人类偏好和指令方面发挥着至关重要的作用。

预训练模型学习了对语言和世界的广泛理解，但 SFT 通过在特定任务和期望的输出格式上训练模型来完善这些知识。

这一步对于使模型在实际应用中更可用和可靠至关重要，尤其对于需要特定推理模式或对话风格的任务。

用于推理的强化学习（Reinforcement Learning, RL）和群体相对策略优化（Group Relative Policy Optimization, GRPO）DeepSeek-R1 是一款专注于推理的模型，通过强化学习（RL）进行训练。

它采用了群体相对策略优化（GRPO），这是一种新颖的 RL 技术，通过将答案与过去的尝试进行比较，从而降低了学习成本并减少了对大量标记数据的依赖。

DeepSeek-R1-Zero 完全通过 RL 进行训练，自然地发展出自我验证、反思和思维链（Chain-of-Thought, CoT）解决方案等推理行为。

image.png

R1 的多阶段训练过程包括冷启动数据、纯 RL、拒绝采样 + SFT 和最终的 RL 阶段以实现泛化。

DeepSeek 创新性地使用强化学习，特别是 GRPO，使得其模型（尤其是 R1）能够在没有大量人工标注数据的情况下实现强大的推理能力，这代表了训练方法上的重大进步。

传统方法通常严重依赖于使用大量标记数据的监督学习。

DeepSeek 在纯 RL 和 GRPO 方面的成功展示了通过自我引导的探索和奖励机制来训练模型进行推理和解决复杂问题的潜力。

这种方法可能更具可扩展性，并且可能发现未在标记数据中明确编码的新兴推理能力。

用于提高效率的多 Token 预测（Multi-Token Prediction, MTP）

DeepSeek V3 使用多 Token 预测（MTP）训练，并行预测多个 tokens，从而提高效率并可能加快推理速度。