为什么要写这篇文章?

最近写文章 / 跑代码用 AI API 越来越频繁,OpenAI 和 Claude 又涨价了一波,国产模型这两年的进步又确实快——所以花了一周时间把当下主流的国产大模型整体过了一遍,整理成下面这份性价比清单。
数据采集时间:2026 年 4 月 23 日。所有价格、跑分均来自厂商官方 + 第三方独立测试。
文章不长,给同样在做 AI API 选型的朋友一个参考。
一、为什么这个时间点要重新看国产大模型
过去 60 天,国产阵营连续放出三个改变格局的版本:
Kimi K2.6(4 月 20 日发布,3 天前)—— 1T MoE / 32B 激活,SWE-Bench Pro 拿 58.6 分,正面打过了 GPT-5.4 (xhigh) 的 57.7、Claude Opus 4.6 (max) 的 53.4。这是开源模型第一次在硬指标上压过同期闭源旗舰。
Step 3.5 Flash(2 月 1 日发布)—— StepFun 出的 196B 稀疏 MoE,只有 11B 激活参数。AIME 2025 跑了 97.3 分,比 DeepSeek V3.2(671B)和 Kimi K2.5(1T)都高。Apache 2.0 协议。
DeepSeek V3.2 / Qwen 3.6 Plus / GLM-5.1 / MiniMax M2.7—— 都在过去一个季度刷过版本,价格也调过。
简单一句话:性价比层面,国产模型已经从"够用"变成了"值得首选"。
二、2026 Q2 国产大模型性价比榜单
模型总参数 / 激活上下文关键 Benchmark输入价 ($/M)输出价 ($/M)一句话
Kimi K2.61T / 32B (MoE)256KSWE-Bench Pro58.6$0.60$2.50国产开源代码王
DeepSeek V3.2671B / 37B (MoE)128KSWE-Bench ~68%$0.14$0.28综合性价比天花板
Step 3.5 Flash196B / 11B (MoE)262KAIME 202597.3$0.10$0.30数学最强 + 最便宜
Qwen 3.6 Plus闭源1MSWE-Bench 78.8%$0.28~$1.20大上下文 + 综合均衡
GLM-5.1(智谱)闭源128KSWE-Bench Pro ~57~$0.50~$2.00中文 reasoning 突出
MiniMax M2.7闭源256KSWE-Bench Verified ~80~$0.30~$1.50M2.5 之后又一次刷分
Doubao Seed 2.0 Pro字节闭源256K综合均衡$0.47~$1.80字节生态接入方便
Hunyuan-T1腾讯开源128K对标 DeepSeek R1~$0.20~$0.80长链推理特化
几个值得单独说的判断:
Step 3.5 Flash 才是真正的"性价比之王"。11B 激活参数 + Apache 2.0 + AIME 97.3 + 100-300 tok/s 的吞吐——同等价位的国际模型几乎不存在。$0.10 / $0.30 的定价比 DeepSeek V3.2 还便宜,比 GPT-4o 便宜 25 倍。
Kimi K2.6 不是"最便宜",但是"最不可替代"。1T 总参数 + 12 小时自主编码 + 300 sub-agents 的 agent swarm,这套能力组合在国产里没有对手,国际上也只有 Claude Code + Opus 4.7 能比。关键是开源——你自己有卡可以本地跑。
DeepSeek V3.2 仍然是综合首选。没有特别突出的强项,但每一项都不弱,价格还是这一档里最低的。如果你不知道选什么,直接 V3.2,错不到哪去。
三、按使用场景的推荐
你要做什么推荐备选
写代码 / 做 coding agentKimi K2.6DeepSeek V3.2
数学 / 物理 / STEM 推理Step 3.5 FlashKimi K2.6
长文档处理(>200K context)Kimi K2.6 / Step 3.5 FlashQwen 3.6 Plus(1M)
多模态(图 + 视频)Qwen3-VL-Plus字节 Seedream / Doubao
中文长链推理GLM-5.1 / Hunyuan-T1DeepSeek V3.2
不知道选啥 / 通用对话DeepSeek V3.2Qwen 3.6 Plus
大批量低成本生产Step 3.5 FlashDeepSeek V3.2
四、几个真实踩过的坑
坑一:同一个模型,不同 provider 价格能差 5-10 倍。
Kimi K2.6 在 Moonshot 官方平台是 $0.60 / $2.50,到了 OpenRouter 变 $0.95 / $4.00,差快 60%。DeepSeek V3.2 官方直连和走聚合平台也有差价。如果调用量上来了,直连官方 API 永远是最便宜的。
坑二:Cache hit 价格才是"真性价比"。
Kimi K2.6 列表价 $0.60 / M input,但 cache hit 价是 $0.16 / M。如果你的 Agent 系统有 70% 上下文是重复的(比如 system prompt + 工具定义),实际成本会接近 $0.29 / M——和 DeepSeek V3.2 差不多。
DeepSeek 的 cache hit 更狠,$0.07 / M。
这就是为什么 benchmark 比价时只看列表价会得出错误结论。
坑三:厂商自报跑分和第三方实测能差 5-10 个点。
Step
3.5 Flash 的 SWE-Bench 自报 74.4%,第三方独立测约 70-72%。Kimi K2.6 的 80.2
SWE-Bench Verified 第三方实测能复现,58.6 SWE-Bench Pro 也能复现——但其他几个国产模型的某些"刷新
SOTA"数据需要谨慎。
经验法则:发布 7-14 天后看第三方榜单(Aider、SWE-Bench-Live 等),那个数才稳。
坑四:国产模型的多模态质量仍然落后 Gemini 3.1 Pro / GPT-5.4 一截。
Kimi K2.6 是"原生多模态",但实测视觉理解能力明显不如 Gemini 3.1 Pro。Qwen3-VL-Plus 算国产里最好的,但和国际旗舰仍有差距。如果多模态是核心需求,国产暂时还不是首选。
五、和 Claude / GPT 的横向对比
放一张关键对比表,看完就知道国产值不值得切:
维度Kimi K2.6Claude Opus 4.6GPT-5.4 (xhigh)
SWE-Bench Pro58.653.457.7
开源✅❌❌
输入价 ($/M)$0.60~$15~$10
输出价 ($/M)$2.50~$75~$40
Context256K200K256K
多模态文 + 图 + 视频文 + 图文 + 图 + 音
长程编码12+ 小时4-6 小时6-8 小时
工具调用稳定性B+AA
结论很直接:
跑分上 K2.6 已经追平甚至小超 GPT-5.4,开源的同时便宜 20-30 倍
但工具调用、Anthropic 生态成熟度、Claude Code 的细节打磨——这些 Kimi 还差一档
综合判断:做 Agent 和 Coding,国产已经能用;做需要稳定可靠的 to C 产品,Claude/GPT 还是稳
六、总结
国产大模型在 2026 Q2 这一波,把"性价比"做到了一个新水位:
代码:Kimi K2.6(开源 + 跑分 SOTA + 30 倍价格优势)
数学:Step 3.5 Flash(97.3 AIME,便宜到不真实)
综合:DeepSeek V3.2(万年老牌,闭眼选)
多模态:还得用 Gemini / GPT,国产暂时别强上
如果这份榜单对你有用,欢迎收藏。下个季度继续更新(Q3 应该会有 Kimi K3 + DeepSeek V4,又是一波重排)。
参考资料
300+ 大模型实时定价 + benchmark 参考:tokenmix .ai
作者:TokenMix 研究院 · 长期追踪大模型价格与 benchmark 变动
一个开放问题留给大家:你们生产环境里目前在用哪个国产模型?有没有踩过我没提到的坑?欢迎评论。