MMLU、MMLU-Pro等基准中,DeepSeek-V3得分达88.5,接近GPT-4o(82)

一、MMLU(Massive Multitask Language Understanding)

DeepSeek-V3 在 MMLU(Massive Multitask Language Understanding) 基准测试中展现了卓越的性能,成为当前开源大型语言模型中的佼佼者,并在多项子任务中接近甚至超越顶尖闭源模型。以下是其表现及技术亮点的详细解析:


1. 综合性能表现

  • MMLU(5-shot):DeepSeek-V3 在 MMLU 测试中取得了 87.1% 的准确率,显著优于前代模型(如 DeepSeek-V2 的 78.4%),并接近闭源模型 GPT-4o(约 87.2%)和 Claude-3.5-Sonnet(88.3%)的水平。
  • MMLU-Pro(5-shot):在更复杂的 MMLU-Pro 测试中,其准确率为 75.9%,高于 Meta 的 Llama 3.1 405B(73.3%)和 Qwen2.5 72B(71.6%),但略低于 Claude-3.5-Sonnet(78.0%)。
  • MMLU-Redux:在包含对抗性问题的 MMLU-Redux 测试中,DeepSeek-V3 以 86.2% 的准确率 领先于同类模型。

对比其他模型

模型 MMLU (Acc.) MMLU-Pro (Acc.) MMLU-Redux (Acc.)
DeepSeek-V3 87.1% 75.9% 86.2%
GPT-4o-0513 87.2% 72.6% 88.0%
Claude-3.5-Sonnet 88.3% 78.0% 88.9%
Qwen2.5-72B 85.0% 71.6% 83.2%

2. 技术优势支撑性能

DeepSeek-V3 的高效表现源于其创新架构与训练策略:

  • 混合专家架构(MoE):总参数量达 671B,但每个 token 仅激活 37B 参数,动态分配计算资源以提升推理效率。
  • 多头潜在注意力(MLA):通过低秩压缩技术减少键值缓存(KV Cache)的内存占用,降低推理延迟,同时保持与标准注意力机制相当的精度。
  • 多令牌预测(MTP):预测未来多个 token 以提升训练效率,并可通过推测解码加速推理速度达 1.8 倍。
  • FP8 混合精度训练:结合 FP8 低精度计算与高精度参数存储,减少 GPU 内存占用,同时维持训练稳定性,显著降低成本。

3. 细分领域表现

  • 中文知识理解:在 C-SimpleQA(中文事实性知识)测试中,DeepSeek-V3 以 64.8% 的正确率 超过 GPT-4o(59.3%)和 Claude-3.5-Sonnet(51.3%),凸显其在中文场景的优化。
  • 数学与代码能力
    • MATH-500:准确率高达 90.2%,远超 GPT-4o(74.6%)和 Llama 3.1(73.8%)。
    • HumanEval:代码生成任务 Pass@1 达 65.2%,优于 Qwen2.5(53.0%)和 Llama 3.1(54.9%)。

4. 成本与效率的平衡

  • 训练成本:完整训练仅消耗 278.8 万 H800 GPU 小时,总成本约 557.6 万美元,仅为 GPT-4 的十分之一。
  • 推理速度:通过算法优化,生成速度提升至 60 TPS(每秒处理 token 数),较前代模型提升 3 倍。

5. 开源生态与行业影响

  • 开源支持:DeepSeek-V3 开源了 FP8 权重,支持通过 SGLang、LMDeploy 等框架在英伟达和 AMD GPU 上运行,开发者可灵活部署。
  • 行业竞争力:其高性能与低成本对未找到核心场景的大模型公司构成威胁,尤其在代码、数学等垂直领域可能快速形成壁垒。

总结

DeepSeek-V3 在 MMLU 系列测试中的表现不仅巩固了其作为“最强开源模型”的地位,还通过技术创新与成本控制为行业树立了新标杆。尽管在通用性上仍需追赶闭源模型,但其在中文知识、数学推理等领域的优势,以及经济高效的训练模式,已为 AI 开发提供了更普惠的解决方案。

MMLU-Pro

DeepSeek-V3 在 MMLU-Pro 基准测试中展现了卓越的性能,成为当前开源模型中的顶尖选手,并在多项子任务中接近甚至超越闭源模型。

以下是其表现及技术亮点的详细解析:


1. MMLU-Pro 性能表现

  • 综合成绩:DeepSeek-V3 在 MMLU-Pro(5-shot)测试中取得了 75.9% 的准确率,显著优于前代模型 DeepSeek-V2(51.4%)和其他主流开源模型(如 Qwen2.5-72B 的 71.6%),且接近闭源模型 Claude-3.5-Sonnet(78.0%)的水平。
  • 对比闭源模型:尽管与 Claude-3.5-Sonnet 仍有微小差距,但 DeepSeek-V3 在复杂推理任务中的表现已大幅缩小开源与闭源模型的性能鸿沟。

主要竞争对手对比

模型 MMLU-Pro(5-shot 准确率) 模型类型 激活参数量
DeepSeek-V3 75.9% 开源 MoE 37B
Claude-3.5-Sonnet 78.0% 闭源 -
Qwen2.5-72B 71.6% 开源 Dense 72B
Llama-3.1-405B 73.3% 开源 Dense 405B

2. 技术优势支撑 MMLU-Pro 表现

DeepSeek-V3 的高效表现源于其创新架构与训练策略:

  • 混合专家架构(MoE):总参数量达 671B,但每个 token 仅激活 37B 参数,动态分配计算资源以提升推理效率。
  • 无辅助损失负载均衡:通过动态调整专家偏置项实现负载均衡,避免了传统辅助损失对模型性能的负面影响,确保训练稳定性和效率。
  • 多令牌预测(MTP):预测未来多个 token 以提升数据利用效率,并通过推测解码加速推理速度达 1.8 倍。
  • FP8 混合精度训练:结合 FP8 低精度计算与高精度参数存储,减少 GPU 内存占用,同时维持训练稳定性,显著降低成本。

3. 细分领域表现

在 MMLU-Pro 的细分领域(如计算机科学、数学、物理等)中,DeepSeek-V3 的亮点包括:

  • 数学推理:在 MATH-500 测试中以 90.2% 的准确率超越 GPT-4o(74.6%)和 Claude-3.5-Sonnet(78.3%)。
  • 代码能力:在编程竞赛基准 LiveCodeBench 中以 40.5% 的 Pass@1 成绩领先,接近 Claude-3.5-Sonnet(36.3%)。
  • 中文知识:在中文事实性知识测试(C-SimpleQA)中以 64.8% 的正确率超过 GPT-4o(59.3%)和 Claude-3.5-Sonnet(51.3%)。

4. 局限性及对比分析

  • 上下文窗口:DeepSeek-V3 的上下文长度扩展至 128K,但仍小于 Claude-3.5-Sonnet 的 200K,可能影响超长文本任务的表现。
  • 评估波动性:部分第三方测试(如 Hugging Face 的 MMLU-Pro CS 子集测试)显示其准确率为 78%,与官方数据存在差异,可能与测试范围或温度设置有关。

5. 行业影响与开源优势

  • 经济性:DeepSeek-V3 的完整训练仅需 557.6 万美元,是同类闭源模型成本的十分之一,为中小团队提供了高性能开源选择。
  • 多平台兼容:通过 SGLang 框架支持英伟达和 AMD GPU 推理,开发者可灵活部署。

总结

DeepSeek-V3 在 MMLU-Pro 测试中的表现不仅巩固了其作为“最强开源模型”的地位,还通过技术创新与成本控制为行业树立新标杆。尽管在通用性上仍需追赶闭源模型,但其在数学推理、中文知识等领域的优势,以及经济高效的训练模式,已为 AI 开发提供了更普惠的解决方案。未来若进一步扩展多模态能力,其竞争力或将进一步提升。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容