2025-02-07 DeepSeek技术论文拆解

出于对DeepSeek如何实现强大的思考、总结和表达能力的好奇,我去搜索了DeepSeek的技术论文,试图了解其实现方法,并在这篇及系列文章中用尽量非专业化的语言表达出来。

英文报告原文地址,在国内需要用魔法(翻墙)打开:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

于是又费了一番功夫,找到了国内可打开的中英文版本,建议在线浏览,下载需要付费:DeepSeek R1技术报告(英文原版+译版)(22页).pdf_三个皮匠报告

下面进入技术报告部分

-------------------分割线---------------------

技术报告分为“介绍”、“方法、“实验”、“讨论”、“结论、局限性和未来工作”5个章节。

对于想了解DS工作原理的我们来说,最重要的方法和实验章节。但是,为了能有个全面的认识,在本文中将完整地把技术报告内容过一遍,对于专业词汇,将以链接形式展示,以帮助大家顺利阅读。

第一章  介绍

在这章中,作者概况了DeepSeek-R1-Zero和 DeepSeek-R1模型的技术特点和性能表现,结论就是通过DS创新地使用纯强化学习(RL)整合少量冷启动数据多阶段训练流程,实现了与OpenAI-o1-0912相当的性能。测试情况如下图所示。

以上文字看不懂没关系,报告里的后面章节对上述内容进行了详细的介绍。下面对技术报告的各章节进行解读。

第二章 方法

2.1 概览

DeepSeek最大的突破点在于,证明了模型的推理能力可以通过大规模强化学习(RL)来显著提高,而之前的大语言模型严重依赖大量监督数据(即带有人工标识的数据)来提高模型性能。并且,通过包含少量冷启动数据,模型的性能可以进一步提高。

下面将介绍Deepseek的两个模型:

DeepSeek-R1-Zero模型将RL直接应用于基础模型,没有任何监督微调(SFT)数据

DeepSeek-R1模型,从使用数千个长链式思维(CoT)示例微调的检查点开始应用强化学习。然后将DeepSeek-R1的推理能力蒸馏到小型密集模型中。

首先介绍DeepSeek-R1-Zero模型的强化学习算法:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容