DeepSeek-R1论文学习

1 推理大模型与普通大模型的区别

	推理大模型	普通大模型
目标	侧重于推理能力、解决复杂问题的能力	侧重于语言生成、上下文理解和自然语言处理
运算原理	运算原理是基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案。所以如何大量获取包含正确的思考过程的训练数据，是训练出此类模型的关键	运算原理是基于概率预测，通过大量数据训练来快速预测可能的答案，这种方法在处理需要深度推理、长程规划或解决复杂问题时，可能表现出一定的局限性
提示语差异	要什么直接说（若强行拆解步骤，反而可能限制其能力）。如：不要对推理模型使用“启发式”提示（如角色扮演），可能干扰其逻辑主线	需显式引导推理步骤（如通过CoT提示，缺什么补什么），否则可能跳过关键逻辑。依赖提示语补偿能力短板（如要求分步思考、提供示例）如：不要对通用模型“过度信任”（如直接询问复杂推理问题，需分步验证结果）

这里有2个简单的例子：
非推理问题：”美国的首都是哪里？”（知识性答案，答案直接、无需推导）
推理问题：”一列火车以每小时60英里的速度行驶3小时，行驶距离是多少？”（需先理解”距离=速度×时间”的关系，再分步计算），在比如生成一个销售思路。。。

2 突然爆火🔥🔥🔥

发布时间线：202405发布V2、202412发布V3、20250120发布的R1
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

注：MMLU-Pro（知识与推理）、GPQA-Diamond（常识问答）、MATH(数学)、LiveCodeBench（编码能力）、LiveBench（整体能力）Arena-Hard（偏好基准）

随后阿里千问发布了Qwen2.5-Max比V3更胜一筹。

1.20日基于V3基座，做出了R1版本，DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

为什么能想到用强化学习来提升模型的性能？

当时国内几乎没有团队想到在训练阶段大规模的使用强化学习，国内的有另外一个技术团队（K1.5）写了一篇文章，有相关的思考过程，特别的精彩

https://x.com/kimi_moonshot/article/1882413059513471044

3 deepseek模型

3.1 基于V3用纯强化学习（RL）训练出 R1-Zero

训练模版就是简单的prompt模版

image.png

** 激励模型**
a. 准确度激励：用有明确答案的题目（数学题/coding题）进行训练。
b. 格式激励：有<think></think><answer></answer>

准确度激励问：1+1=？
·2 加一分
·1 零分

格式激励问：1+1=？
·<think>用户问我1+1等于几，这应该是一道很简单的数学题，我们可以形象的思考，我有一个苹果，再给我一个，就有两个。因此答案应该是2。</think><answer>2</answer>加一分
·<think></think><answer>2</ answer> 零分

有心栽树树不活，无心插柳柳成荫，只给了答案和规则，随着训练迭代次数的增加，模型自己返回的内容越来越长了（模型自己发现思考的越长，越容易把答案弄对）。由于我们并没有对答案的长度进行奖励，DeepSeek-R1-Zero自然地学会了通过更多的思考时间来解决推理任务，让人震惊！

由于内容变长了，在训练 DeepSeek-R1-Zero 的过程中，观察到了一个特别有趣的现象，即“顿悟时刻”的出现。在此阶段，DeepSeek-R1-Zero 学会了通过重新评估其初始方法，为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升，也是强化学习如何带来意外且复杂结果的一个引人入胜的例证。

意义：这一“顿悟时刻”有力地提醒了强化学习在解锁人工智能系统新智能水平方面的潜力，为未来更加自主和自适应的模型铺平了道路。

随着RL训练的推进，DeepSeek-R1-Zero表现出稳定且持续的性能提升。值得注意的是，AIME 2024上的平均pass@1分数显著增加，从最初的15.6%跃升至令人印象深刻的71.0%，达到了与OpenAI-o1-0912相当的性能水平。这一显著改进凸显了我们的RL算法在优化模型性能方面的有效性。

到这里，第一步走对了，但R1-Zero存在一些问题：可读性比较差，语言不一致

3.2 基于R1-Zero生成带高质量思考的冷启动SFT数据

有了R1-Zero，具备了生成带高质量带有思考推理过程的数据的条件，作为cold start的数据，用冷启动SFT数据训练V3

有意思的是，V3的base模型初始化了R1-Zero诞生，又用了R1-Zero生成的数据反过来训练V3，鸡生蛋，蛋生鸡。。。。。但是这一步训练出了第2个check-ponit。

3.3 用被SFT训练过的V3，再进行一次RL强化学习

这一步的强化学习，除了准确度和格式激励之外，再加了语言一致性的激励，第3个check-point搞出来了，解决语言一致性问题。

3.4 高质量的带COT的SFT数据和通用知识数据在训练V3

推理数据 （用被SFT和RL训练过的V3再生成高质量的带COT的SFT数据）
用被SFT和RL训练过的V3再生成高质量的带COT的SFT数据 + 人工选择，也没有语言一致性问题，总我们收集了约60万条与推理相关的训练样本。

非推理数据（用V3生成通用知识的SFT数据）
对于非推理数据，如写作、事实问答、自我认知和翻译，我们采用DeepSeek-V3管道并复用部分DeepSeek-V3的SFT数据集。对于某些非推理任务，我们调用DeepSeek-V3在回答问题前生成潜在的思维链。然而，对于更简单的查询，如“你好”，我们不会提供思维链作为回应。最终，我们收集了大约20万个与推理无关的训练样本。

总体上：我们使用上述约80万个样本的精选数据集对DeepSeek-V3-Base进行了两个周期的微调。
到这一步，经过4个check-ponit，R1搞出来了，R1 的效果如下。

3.5 小模型的蒸馏应用

为了让更高效的小型模型具备类似DeepSeek-R1的推理能力，我们直接使用DeepSeek-R1整理的80万样本对开源模型如Qwen（Qwen, 2024b）和Llama（AI@Meta, 2024）进行了微调。我们的研究结果表明，这种简单的蒸馏方法显著提升了小型模型的推理能力。我们在此使用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为其推理能力略优于Llama-3.1。

对于蒸馏模型，我们仅应用SFT，不包括RL阶段，尽管引入RL可以显著提升模型性能。我们这里的主要目标是展示蒸馏技术的有效性，将RL阶段的探索留给更广泛的研究社区。

结果：
仅通过蒸馏DeepSeek-R1的输出，就能使高效的DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，下文简称相同）全面超越非推理模型如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上均超过了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越了o1-mini。这些结果展示了蒸馏的强大潜力。

ds在论文中又做了一次实验，用一样RL的方式基于qwen32b进行训练，但是效果却没有提升。证明了 V3 基座的重要性，不是随便什么模型都能用RL进行提升的。

对行业的启示：
1、知识蒸馏有很大潜力，在追求更大更强的模型的同时，也要关注如何更有效地利用已有的知识和能力。近期李飞飞等研究者使用1000个训练样本基于Qwen模型训练出了一个在数学和编码领域和R1不相上下的S1模型，也证明应该是这类高质量的COT式训练数据让qwen系列模型迅速掌握了这种深度思考再回答的套路，以及复杂问题的深度思考模式，从而取得了更好的回答效果。

2、需要强大的基座模型，不是什么基座模型都能练出来的，得有强大的基座。

3.6 不太成功的尝试

PRM（过程激励模型）和MCTS（蒙特卡洛树搜索）尝试过，走不通。

3.7 关于R1的评价

知乎上有一个回答挺有趣的，可以看看

①优点：通过大剂量的RL大法，在意图明确，定义明确的领域，R1释放出了极大能量。比如数学，代码，一些STEM领域。
②缺点：RL再多也无法弥补RLFH的缺失。R1的推理性能非常强，但开放领域缺乏必要的"人类约束"。只要人类存在一天，或者没有被AI彻底夺权，RLHF就会存在一天。——无论你的机器美学是什么样的，但机器必须在社会面上与人类对齐，这是人类对AI的天然支配权。——权力的本质就是对模糊语言的解释权。——你说的好，毫无意义，领导说的好，才是真的好。

矛盾：
①如果让R1自己玩，最后容易玩出"恶魔之语"，因为R1没有内嵌的道德和美学判定——AI只能述说道德和美学，但AI是无道德，无美学倾向的。R1本质上还是一个吐字器。
②让人类来做RLHF，很容易把AI做死，豆包就是一个死掉的例子。在我看来，一般人类的能力远远远低于AI，而给AI做对齐的人，都不是什么人上之人。中国有很多程序员，有多少懂哲学、懂艺术的精英来做对齐呢？——你觉得中国有哪个AI，既有料又有趣的呢？没有吧，无论跑分多高，中国的AI，都是既无料又无趣的。——

3.9 模型怎么选择

根据任务类型，是推理类型，还是通用性
● 如果是推理类型，那么优先选择O系列模型
需要逐步推理的场景：比如复杂的医学诊断、金融风险评估等领域，任务往往需要模型不仅理解文本表层信息，还需进行深入的逻辑推理和关联分析。
● 复杂的数学计算和编程任务，复杂的数学计算和编程任务是普通LLM的薄弱环节。O系列模型通过增强其推理和计算能力，能够更好地处理高难度的数学问题和复杂的编程挑战
● 多智能体协作与协调，多智能体系统中的协作与协调是普通LLM难以稳定实现的任务
通用性的，目前在Qwen等普通LLM模型上，充分的结合工程调优，已具备准确率较高的表现场景，比如
● 信息抽取，比如话术中的实体信息（金融指标、产品名称，重点）
● 文本分类与内容理解，这一类应用包括垃圾邮件过滤、情感分析、主题分类等。
● 简单功能的智能体，在单个智能体的应用中表现出色，但是在多智能体的应用中不稳定。单个智能体通常能够高效地完成特定任务，如个人助理、自动化工具等

此外：还需要从响应时间，资源需求等方面来衡量，比如DeepSeek-R1对时延要求不高，但对准确率要求高的场景，

可能的变化：
● 存量的在线业务可能收到的冲击并不大。对于已经上线的在线业务，如果只是需要维持现状，不需要进行替换或者更改。因为推理类模型虽然能力更强，但是消耗的算力和rt时间也会相应变多，所以对于在线场景的需求，如果本身对大模型能力不做更多依赖，是没有替换的必要的。
● 离线任务将会涌现更多复杂场景。对于离线任务，后续如果抛开成本考虑，推理类模型将会大显身手，在此类场景中的prompt工程的作用将会进一步削弱。
● 智能体的能力边界将会进一步被拓宽。在现在的智能体落地应用中，尤其是多智能体的情况，任然存在很多不稳定的因素。在大模型的思维能力更强更接近人类的推理大模型时代，这些问题或许能够得到很大的解决。
● 小尺寸LLM在高rt要求场景任然不可替代。虽然o系列推理模型能够在效果上碾压传统的LLM，但是本质上o系列模型任然没有解决语言模型的推理时间会因模型输出的变长而变长的问题，并且由于思考本身也是输出tokens的过程，模型的rt反而会因为思考变的更长。所以，目前在一些rt敏感的场景中，传统的小尺寸的LLM的作用，o系列模型并不能替代。