GPT-5.5上线两周了,多模态能力被吹得很多,但实测数据少。最近在库拉(c.877ai.cn)聚合平台上做了一轮横评,把图像、音频、视频理解逐项测了一遍。结果有些出乎意料——强的地方确实有代差提升,弱的地方也没藏着。

OpenAI在4月24日发布GPT-5.5,称其为迄今最智能、最直观版本。GDPval(商业价值任务)达84.9%,OSWorld-Verified为78.7%,BrowseComp达84.4%。但跑分是跑分,多模态场景能不能打,还得一项项看。
图像理解:图表解析有了质变
GPT-5的多模态融合能力相比前代已经有明显提升——在图像、表格、文本混合输入的任务中,信息整合正确率有所提高。图表+文本的混合输入处理更稳了——给它一张图表截图加一段文字说明,能同时解释图表结构并结合上下文补充结论。
之前GPT-4o做这件事时,经常把图表数据和文字背景割裂开,输出像两段话拼在一起。表格图像识别准确率也提升明显,能正常识别列名和数据结构,条理化输出解读。
但基础视觉能力仍有盲区。去年GPT-5发布时,非整点闹钟识别把时针分针弄错,小格子数也不对。带干扰的数数问题直接出错。空间推理是当前所有大模型的共同短板——要完成这类任务,需要展现基础流体智力,即适应全新、前所未见任务的能力。GPT-5.5在这个方向上有进步,但没有根本性突破。
音频处理:端到端链路已经成熟
GPT-5.5的多模态API到2026年4月已经相当成熟,能同时处理图像、文本和音频。相比GPT-4系列,处理速度更快,不再是简单的语音转文字,而是跨模态语义理解。不同模态之间的信息协同更自然。
"转写+分析"的组合任务上更强——先转写录音,再提取关键决策和待办事项,整个链路更流畅。Claude Sonnet 3.7在音频处理上不是主攻方向,视觉推理和编码能力才是它的长板——内部测试中解决了64%的代码问题,远超前代的38%。但音频+文本的组合任务上,GPT-5.5的链路更流畅。
Gemini 2.5 Pro在音频处理上和GPT-5.5差距不大。两家都支持原生多模态输入,纯音频转写的准确率在安静环境下都接近95%。
视频理解:GPT-5.5进步可感知,但Gemini仍是主场
GPT-5.5在短视频场景理解上有进步。GPT-5的多模态输入管线可能进行了统一向量空间控制,减少了不同模态间的语义偏移。到GPT-5.5在图像描述和场景理解上更进一步。
但和Gemini 2.5 Pro对比,差距还是可感知的。Gemini 2.5 Pro支持100万token上下文窗口,可处理完整代码库和长视频输入。谷歌从发布之初就强调原生多模态能力,无需外挂,支持统一架构及协同处理。
视频本质上是连续图像帧+时间维度信息。图像处理只需关注单帧分析,而视频需要处理帧间变化,计算复杂度高出一个量级。Gemini在这方面走得更远,GPT-5.5还有追赶空间。
技术底层:跨模态对齐仍是核心难题
多模态模型的核心挑战在于如何跨模态对齐和融合信息。例如,在图像和文本结合的模型中,如何使模型理解文本描述与图像内容之间的关联是关键问题。
GPT-4V基于Transformer架构,结合视觉Transformer处理图像,将图像和文本嵌入到统一的高维向量空间中。这让它能在同一上下文中同时理解图像和文本。GPT-5.5在这个基础上进一步优化了跨模态语义理解。
DB-GPT在最新v0.7.1版本中也加入了多模态模型支持,本地模型和代理模型均支持图片上传提问。开源生态正在快速跟进多模态能力。
Spring AI的Message API也提供了多模态LLM所需的全部抽象——UserMessage的content字段主要用于文本输入,而可选的media字段允许添加图像、音频和视频等不同模态的附加内容。开发者接入多模态的门槛在持续降低。
成本怎么选
GPT-5.5提供了多个版本,不要所有请求都用旗舰版。简单分类用轻量版;日常多模态辅助用中等版本;复杂协同处理用旗舰版。这个分层策略能显著降低成本。
Claude Sonnet 3.7输入成本约3美元/百万token。Gemini在多模态场景的性价比优势突出。分层调用比全量切换划算——图表解析用GPT-5.5,视频理解用Gemini,代码相关任务用Claude。
控制输入大小也很关键。高分辨率图片效果好,但会增加token消耗和处理时间。对重复任务可使用缓存策略避免重复计算。
趋势:多模态从感知走向执行
2025年GPT-5发布时,多模态还停在"识别"层面。到2026年,GPT-5.5已经能理解图文混合的复杂报告,能在混合输入中同步提取结构化数据。OpenAI正推进ChatGPT、Codex与AI浏览器一体化整合,旨在打造用户与世界交互的统一入口。
字节跳动AI Lab早在2022年就提出了X-VLM,首次学习多粒度的视觉和语言对齐——仅216M参数就能在图像文本检索、视觉问答、图片描述生成等任务上获得优秀表现。多模态技术的演进速度远超预期。
对开发者来说,不同模型在不同模态上的长短板差异很大。没有一个模型能通吃所有场景。GPT-5.5在图文混合和音频理解上有代差提升,但空间推理和视频理解仍是短板。建议根据具体任务选模型,先跑一轮真实业务测试,再决定投入深度。