GPT‑5.2 能力地图：六条主干线，决定它到底是“会聊”还是“能交付”

如果你把大模型当成同事，你大概率见过两种“工位气质”：

一种是嘴很甜：回复像写得很努力的周报，读完你点点头——然后你发现它没把活做完。
另一种是能交付：不一定每句话都好听，但它会把你要的表、文档、补丁、步骤，一口气推到“可用”的边界。

OpenAI 在 GPT‑5.2 上想强化的，明显更接近后者。为了方便你在工作里“选能力、配流程、做验证”，我把公开信息里提到的关键提升，整理成一张能力地图：六条主干线，覆盖从业者最常用、也最容易踩坑的地方。

事实声明：关键数字、模型名与口径来自 OpenAI 公开发布信息（见文末）。本文讲“怎么理解 + 怎么验证”，不替你跳过业务侧 A/B 与人工复核。

一张总览表：能力→证据→你能拿它做什么→该选哪档

能力主干线	OpenAI 公布的证据（口径以原文为准）	典型任务	推荐档位
软件工程交付	SWE‑bench Pro 55.6%；Verified 80.0%	修 bug / 补测试 / 重构	Thinking；关键用 Pro
长上下文与证据整合	MRCRv2；4‑needle（256k）≈100%；`/compact`	长文档问答 / 串证据	Thinking
工具调用与智能体稳定性	Tau2‑bench Telecom 98.7%	多步骤工单 / 智能体流程	Thinking；关键用 Pro
事实性与可核查输出	含错误回答频率相对 -38%（最高推理+搜索）	研究综述 / 竞品对比	Thinking（必要时 `xhigh`）
视觉：图表与 UI 理解	图表+UI 理解错误约减半	报表图 / 仪表盘 / 截图	Thinking
科学与数学推理	GPQA（无工具）Pro/Thinking 93.2/92.4；FrontierMath+Python 40.3%	推导 + 工具验证	Thinking；高风险用 Pro

小提醒：Instant/Thinking/Pro 分别是 gpt-5.2-chat-latest、gpt-5.2、gpt-5.2-pro（Pro 走 Responses API）；Thinking/Pro 支持 xhigh。

1) 软件工程交付：从“写得出来”到“修得动、交得上”

很多团队已经不缺“会写代码”的模型了，真正缺的是那种——你敢让它把 issue 关掉的同事型能力：定位 → 修改 → 补测试 → 过 CI。

OpenAI 公布的信号很明确：SWE‑bench Pro 55.6%、SWE‑bench Verified 80.0%。它强调的不是“写得像不像”，而是更接近真实仓库的修复与验证：改对，还要能被测试体系承认。

30 分钟 mini 验证（推荐）

选你仓库里 2–3 个已能稳定复现的 bug（最好含 1 个回归点）。
让模型输出三件套：复现步骤 → 最小补丁 → 新增/修改测试。
以 CI 结果当裁判：能复现、能过、改动克制才算分。

2) 长上下文与证据整合：别只让它“读很多”，要让它“记得住、串得起”

长上下文真正的难点不是“塞得下”，而是跨很多页把证据串起来。

GPT‑5.2 在公开信息里把“长文档分散信息整合”单拎出来强调：

在 OpenAI MRCRv2 上树立新标杆
在 4‑needle 变体（最长 256k）上接近 100%
提到可配合 Responses 的 /compact 端点，用于需要超出最大上下文继续推理的工作流

mini 验证：测“串证据”，别只测“会总结”

给 2–3 份长文档（最好带引用/冲突点）。
强制输出：结论 + 证据清单 + 冲突如何处理/哪里不确定。

3) 工具调用与智能体稳定性：聪明不够，流程跑得完才值钱

从业者最怕的不是模型答错一句，而是它在多步骤流程里掉链子：
该查的不查、该算的不算、最后给你一段漂亮但无用的结论。

OpenAI 给了一个很“流程导向”的成绩：Tau2‑bench Telecom 98.7%，并强调即使在延迟敏感场景里、reasoning.effort='none' 也有显著提升。

mini 验证：把“工具调用”测成工程题

设计 3 个工具就够：检索 / 计算 / 写报告。
看三点：该不该调、调完会不会用、会不会自检补齐缺口。

4) 事实性与可核查输出：把“我觉得”换成“我有证据”

OpenAI 在发布信息里提到：在去标识化 ChatGPT 查询中，含错误回答出现频率相对减少 38%（最高推理强度、并启用搜索工具的设置下测得）。

它更像一个现实提醒：事实性经常是“模型 + 工具 + 工作流”的合力。更稳，不等于“不会错”。

你怎么用最小成本验证“它更少编故事”？

拿“竞品对比 / 行业总结 / 技术路线梳理”来测最直观。硬约束也很简单：

关键结论必须给出处/线索
明确标注不确定项
给一个反例或失效条件

只要你把输出做成“可核查的工作产物”，团队才敢把它接进生产流程。

5) 视觉：图表与 UI 理解——别让它只“看见”，要“看懂”

在真实工作里，很多关键信息不是在文字里，而是在：
仪表盘截图、漏斗图、A/B 报表、复杂后台页面、甚至一张“线上事故截图”里。

OpenAI 在发布信息里提到：在图表推理与软件界面理解方面，错误率约减少一半。

mini 验证：三步走

用你们真实的 2 张图表 + 1 张后台截图。
先让它描述看到的内容，再让它解释推断依据，最后让它给行动建议。

6) 科学与数学：把它当研究助理，但别把它当裁判

OpenAI 公布的分数很硬：

GPQA Diamond（无工具）：Pro 93.2%，Thinking 92.4%
FrontierMath（Tier 1–3，使用 Python）：Thinking 40.3%

对从业者更重要的结论是：它很强，但严谨问题仍要工具验证 + 人类监督。

最实用的用法：让它先写“证明草稿”，再用工具验算

你可以把流程固定成两步：

让模型给出推导/证明草稿（写清假设、步骤、结论）
让它给出可执行的 Python 验证脚本（哪怕只是数值检验/反例搜索）

你要的不是“看起来很对”，而是“能被你复核”。

选型小结：怎么把能力地图落到“用哪档模型”？

Instant（gpt-5.2-chat-latest）：高频、低风险的日常。
Thinking（gpt-5.2）：复杂主流程（编码/长文档/工具链）。
Pro（gpt-5.2-pro）：高风险兜底（关键交付、重大错误代价高的场景）。

一个原则就够：Pro 给“错一次就很贵”的地方；Thinking 扛主流程；Instant 承包高频日常。

三个最常见的误读（别让指标骗了你）

把“wins or ties”当成“替代率”：GDPval 是偏好对比，不是“70.9% 的工作可自动化”。
把“-38%”当成“不会胡说”：它有特定设置（最高推理+搜索），关键任务仍要核查。
把“256k≈100%”当成“随便塞”：长上下文也需要证据管理与一致性约束。

参考资料（公开来源）

OpenAI：Introducing GPT‑5.2（中文）：https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/
OpenAI：GDPval 介绍：https://openai.com/index/gdpval/
OpenAI Evals：https://evals.openai.com/

GPT‑5.2 能力地图：六条主干线，决定它到底是“会聊”还是“能交付”