deepseek-r1

deepseek-r1是深度搜索公司的开源思维链模型,可以在https://www.deepseek.com,进入 https://api-docs.deepseek.com/zh-cn/news/news250120,在这篇文章中介绍了论文连接https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

1. DeepSeek-v3、DeepSeek-R1-Zero、DeepSeek-R1

要搞清deepseek大模型,有3个概念要先搞清楚:

  • DeepSeek-V3,这是一款强大的专家混合(MoE)语言模型,总参数量达 6710 亿,每个标记激活的参数量为 370 亿。
  • DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练而成,未经过监督微调(SFT)的初步模型,展现出了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地形成了众多强大且有趣的推理行为。
  • DeepSeek-R1,由于DeepSeek-R1-Zero存在可读性差和语言混
    杂等问题。为了解决这些问题并进一步提升推理性能,DeepSeek推出了DeepSeek-R1。

DeepSeek-V3是基础大模型, DeepSeek-R1-Zero 和 DeepSeek-R1是推理模型(COT)。

2. DeepSeek-R1的性能如何

DeepSeek-R1的对比对象是OpenAI-o1-1217,OpenAI-o1-mini,这两个模型是OpenAI最先进的推理大模型,但是是闭源的。DeepSeek公布了在6个数据集上对比结果,从结果看,DeepSeek-R1和OpenAI-o1-1217相当,在DeepSeek-R1开源的基础上,DeepSeek-R1就是OpenAI-o1推理模型的平替

image.png

3. DeepSeek训练

3.1 DeepSeek-R1-Zero

DeepSeek-R1-Zero通过强化学习算法组相对策略优化(GRPO)(Shao 等人,2024)训练推理能力,该方法舍弃了通常与策略模型大小相同的评价模型,而是从组得分中估计基准值。DeepSeek-R1-Zero通过奖励模型进行强化训练(准确性奖励和格式奖励),在无需任何监督微调数据的情况下获得强大的推理能力。

尽管 DeepSeek-R1-Zero 展现出强大的推理能力,并能自主开发出意想不到且强大的推理行为,但它也面临一些问题。例如,DeepSeek-R1-Zero 在诸如可读性差和语言混杂等方面存在挑战。

3.2 DeepSeek-R1

DeepSeek-R1是通过收集冷启动数据,在DeepSeek-V3基础上通过微调得到。所谓冷启动,就是模型初次运行时,没有足够的历史数据。DeepSeek为了收集此类数据,探索了多种方法:使用少量示例的长链推理进行提示,直接提示模型生成包含反思和验证的详细答案,收集 DeepSeek-R1-Zero 的输出并以可读格式呈现,以及通过人工标注员进行后期处理来优化结果。

为解决语言混杂的问题,DeepSeek在强化学习训练中引入了语言一致性奖励,其计算方式为 CoT 中目标语言词汇的比例。尽管消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,使输出更具可读性。最后,我们将推理任务的准确性与语言一致性奖励直接相加,形成最终奖励。

3.3 蒸馏(distill)

为了给像 DeepSeek-R1 这样具备推理能力的更高效的小型模型配备更强大的功能,DeepSeek直接使用 DeepSeek-R1 精选的 80 万份样本对 Qwen(Qwen,2024b)和 Llama(AI@Meta,2024)等开源模型进行了微调。研究结果表明,这种直接的知识蒸馏方法显著提升了小型模型的推理能力。这里使用的基模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。

4. DeepSeek应用

DeepSeek-R1开源模型以优异的能力比肩OpenAI-o1,必将引来更加激励的技术竞争,对于我等普通大众来讲,就是大幅度的降低了大模型的使用成本。

在短视频里有很多教程都在教授部署本地大模型,由于硬件限制,最好的办法还是直接使用商业版的DeepSeek-R1,成本已经足够低了。

英伟达、微软、AMD等国际大公司已经宣布支持DeepSeek-R1模型,并且在程序员日常工具很多已经支持DeepSeek-R1了,例如说Cursor


image.png

对于行业大众来讲,快速接受AI,乘坐趋势,赋能AI+是我们需要做的事情。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容