deepseek-r1是深度搜索公司的开源思维链模型,可以在https://www.deepseek.com,进入 https://api-docs.deepseek.com/zh-cn/news/news250120,在这篇文章中介绍了论文连接https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf。
1. DeepSeek-v3、DeepSeek-R1-Zero、DeepSeek-R1
要搞清deepseek大模型,有3个概念要先搞清楚:
- DeepSeek-V3,这是一款强大的专家混合(MoE)语言模型,总参数量达 6710 亿,每个标记激活的参数量为 370 亿。
- DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练而成,未经过监督微调(SFT)的初步模型,展现出了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地形成了众多强大且有趣的推理行为。
- DeepSeek-R1,由于DeepSeek-R1-Zero存在可读性差和语言混
杂等问题。为了解决这些问题并进一步提升推理性能,DeepSeek推出了DeepSeek-R1。
DeepSeek-V3是基础大模型, DeepSeek-R1-Zero 和 DeepSeek-R1是推理模型(COT)。
2. DeepSeek-R1的性能如何
DeepSeek-R1的对比对象是OpenAI-o1-1217,OpenAI-o1-mini,这两个模型是OpenAI最先进的推理大模型,但是是闭源的。DeepSeek公布了在6个数据集上对比结果,从结果看,DeepSeek-R1和OpenAI-o1-1217相当,在DeepSeek-R1开源的基础上,DeepSeek-R1就是OpenAI-o1推理模型的平替。
3. DeepSeek训练
3.1 DeepSeek-R1-Zero
DeepSeek-R1-Zero通过强化学习算法组相对策略优化(GRPO)(Shao 等人,2024)训练推理能力,该方法舍弃了通常与策略模型大小相同的评价模型,而是从组得分中估计基准值。DeepSeek-R1-Zero通过奖励模型进行强化训练(准确性奖励和格式奖励),在无需任何监督微调数据的情况下获得强大的推理能力。
尽管 DeepSeek-R1-Zero 展现出强大的推理能力,并能自主开发出意想不到且强大的推理行为,但它也面临一些问题。例如,DeepSeek-R1-Zero 在诸如可读性差和语言混杂等方面存在挑战。
3.2 DeepSeek-R1
DeepSeek-R1是通过收集冷启动数据,在DeepSeek-V3基础上通过微调得到。所谓冷启动,就是模型初次运行时,没有足够的历史数据。DeepSeek为了收集此类数据,探索了多种方法:使用少量示例的长链推理进行提示,直接提示模型生成包含反思和验证的详细答案,收集 DeepSeek-R1-Zero 的输出并以可读格式呈现,以及通过人工标注员进行后期处理来优化结果。
为解决语言混杂的问题,DeepSeek在强化学习训练中引入了语言一致性奖励,其计算方式为 CoT 中目标语言词汇的比例。尽管消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,使输出更具可读性。最后,我们将推理任务的准确性与语言一致性奖励直接相加,形成最终奖励。
3.3 蒸馏(distill)
为了给像 DeepSeek-R1 这样具备推理能力的更高效的小型模型配备更强大的功能,DeepSeek直接使用 DeepSeek-R1 精选的 80 万份样本对 Qwen(Qwen,2024b)和 Llama(AI@Meta,2024)等开源模型进行了微调。研究结果表明,这种直接的知识蒸馏方法显著提升了小型模型的推理能力。这里使用的基模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。
4. DeepSeek应用
DeepSeek-R1开源模型以优异的能力比肩OpenAI-o1,必将引来更加激励的技术竞争,对于我等普通大众来讲,就是大幅度的降低了大模型的使用成本。
在短视频里有很多教程都在教授部署本地大模型,由于硬件限制,最好的办法还是直接使用商业版的DeepSeek-R1,成本已经足够低了。
英伟达、微软、AMD等国际大公司已经宣布支持DeepSeek-R1模型,并且在程序员日常工具很多已经支持DeepSeek-R1了,例如说Cursor
对于行业大众来讲,快速接受AI,乘坐趋势,赋能AI+是我们需要做的事情。