最近在几个AI工具聚合平台上做了一轮集中横评库拉(c.877ai.cn),把GPT-5.5和主流模型的基准分拉出来逐项对比。

4月23日发布到现在快三周了,各种分数满天飞。但跑分到底说明什么?哪些指标有参考价值,哪些已经失去区分度?今天把几组关键数据拆开聊聊。
先泼一盆冷水:跑分≠好用
斯坦福HAI团队反复强调过一点:基准测试成绩不等于实际应用效果。模型在测试集上拿了高分,不代表在你的业务场景里同样靠谱。
但跑分不是没用。它能告诉你模型的"能力天花板"在哪里。天花板高了,应用空间才大。关键是解读方式——不能只看总分,要看细分项和具体任务类型。
MMLU:92.4%,但这个基准快被刷"穿"了
GPT-5.5在MMLU上拿到92.4%,覆盖57个学科。作为参考,DeepSeek-V3在MMLU(5-shot)上是87.1%,Claude-3.5-Sonnet是88.3%。
头部模型间的分差已收窄到个位数。当所有模型都在90%以上时,MMLU更多是"入场券"而非"差异化指标"。MMLU-Pro变体更有区分度,DeepSeek-V3拿到75.9%,GPT-5.5同样有提升。
数学推理:从94.6%到SOTA,这条线值得追
数学推理是GPT-5系列的传统强项。GPT-5首发时AIME无工具测试拿到94.6%,GPT-5.2直接满分。GPT-5.5在MATH-500等更难基准上继续推,推理链完整度有实质提升。
DeepSeek-V3在MATH-500上是90.2%,超过GPT-4o的74.6%。GPT-5.5又往前走了一步。
对做量化和数据分析的人来说,关键不只是"算对",而是推理链中间不断裂——每步推导都能闭环,不跳步、不编造。
ARC-AGI:从50%到85%,两年翻了快一倍
2024年6月,Ryan Greenblatt用GPT-4o加上精心设计的提示策略,在ARC-AGI公开测试集上做到50%,当时已是SOTA。
这个数据集测的是抽象推理能力,被发起人François Chollet视为衡量"智力"而非"技能"的指标。ARC Prize当时开出110万美元总奖金,85%准确率可瓜分360万人民币。
GPT-5.5在ARC-AGI-2上拿到85.0%,接近这个门槛。两年时间从50%到85%,这个进步幅度在所有基准里可能是最显著的。
编程基准:Agent强,纯补全仍有差距
SWE-Bench Pro上,Claude Opus 4.7以64.3%领先GPT-5.5的58.6%。纯代码补全场景Claude仍有优势。
但GPT-5.5在Terminal-Bench 2.0(多步骤命令行工作流)上拿到82.7%,领先Claude的69.4%。在MCP Atlas工具调度基准上拿到75.3%,比GPT-5.4的67.2%高出8.1个百分点。
这说明一个趋势:模型能力正在从"单点补全"转向"闭环执行"。开发者选模型时要区分两种需求——IDE内逐行补全和构建自动化工作流,适合的模型不一样。
长上下文:256K窗口下检索能力翻了三倍多
Graphwalks测试256K上下文下,GPT-5.5得分73.7%,上一代只有21.4%。50万到100万token区间,得分74.0%,是上一代36.6%的两倍多。
做长文档分析和大型代码库理解的人,这个提升是实打实的。不用再反复提醒模型"之前说了什么"。
两组数据得看清醒:幻觉率和定价
幻觉方面,OpenAI宣称下降60%。但Artificial Analysis的AA-Omniscience测试给出另一个数字:GPT-5.5幻觉率86%,Claude Opus 4.7仅36%。面对不确定问题时,它依然倾向用自信语气编造答案。
定价方面,GPT-5.5输出30/百万token,比GPT−5.4翻倍(citation:5)。ClaudeOpus4.7输出30/百万token,比GPT−5.4翻倍(citation:5)。ClaudeOpus4.7输出25,Gemini 3.1 Pro仅$12。不过OpenAI称同等任务token消耗更少。Batch API享50%折扣,缓存输入低至标准价10%。
趋势:分数趋同,场景分化才是关键
招银国际报告指出,中美前沿模型智能水平差距已从2025年3月约20分收窄至2026年4月的个位数。当头部模型基准分差越来越小时,跑分的参考价值在递减。
2026年大模型市场已告别"百模大战",竞争重心从"谁更聪明"转向"谁更适合你的场景"。开源生态加速追赶闭源,形成"闭源引领技术、开源扩大生态"的格局。
DeepSeek-V3完整训练仅需557.6万美元,是同类闭源模型成本的十分之一。性价比这条线,国产模型有结构性优势。
最后
GPT-5.5在数学推理、长上下文和Agent能力上有实质提升。但86%的第三方幻觉率、翻倍的定价、纯代码补全的短板,都是实打实的局限。
建议先跑几个真实任务再决定投入深度。架构设计比模型选择更重要——Prompt标准化、验证流程自动化、模型路由策略化,这三件事做好了,换哪个版本都能快速上手。