最近在库拉KULAAI(c.877ai.cn)这类AI模型聚合平台上把Grok 4.3和主流模型做了一轮对比测试。xAI在4月底悄悄放出了这个版本,没有发布会,没有马斯克的推文造势。但跑完数据之后,我发现这个"安静的版本"反而比前几次高调发布更值得聊。

一次没有仪式感的发布
Grok 3上线时马斯克在X上连续造势,Grok 4发布时直接免费开放给所有用户。Grok 4.3的发布画风完全不同——没有AGI宏大叙事,没有"即将改变一切"的豪言。
它更像一次安静的产品换挡:把模型放进API,把价格打下来,把工具能力补上,再告诉开发者可以从旧版迁移过来。这反而让Grok 4.3看起来更真实。
能力数据:确实变强了,但没到顶端
Artificial Analysis给Grok 4.3的Intelligence Index打了53分。作为参照,GPT-5.5是60分,Claude Opus 4.7是57分。差距存在,但在xAI自家模型线里,Grok 4.3已经是目前最强的一档。
更值得看的是代理任务表现。在GDPval-AA榜单上,Grok 4.3拿到1500 Elo,相比前代的1179提升了321分。这个榜单衡量的是"让AI做事"的能力——整理资料、执行复杂步骤、处理真实工作流。
让AI帮忙写周报、搭表格、做方案、拆会议纪要,Grok 4.3的体验比前代完整了不少。
三张牌:价格、速度、语气
第一张牌是价格。API定价为每百万输入Tokens 1.25美元、每百万输出Tokens 2.50美元。相比前代,输入价格低约40%,输出价格低约60%。跑完整套评测的成本约395美元,而同期Claude Opus 4.7的对应成本高达4811美元——差距超过12倍。
底层模型降价的传导效应很直接。AI写作工具、客服机器人、语音助理、教育应用,背后都要为模型调用付费。当底层价格下降,应用厂商有空间降低订阅费,或者在同等价格下提供更多使用次数。
第二张牌是速度。输出速度约196 Tokens/s,在xAI当前模型中属于较快的水平。对语音聊天、实时客服、长文生成这类场景有实际意义。
但有个细节容易被忽略:Grok 4.3的首Token延迟并不低,它会先"想一会儿"再快速输出。长答案里速度优势明显,短对话里用户可能先感受到停顿。速度不是单一指标,要区分首Token延迟和整体吞吐量。
第三张牌是语气。Grok一直有一个微妙优势:语气更像真人。Hacker News上有用户反馈,Grok在把握文本语气、正式程度和微妙人际表达上,比其他模型更自然。
这可能受益于X平台海量口语化表达的训练。对C端用户来说,写消息、口语转写、语音助手、轻办公场景里,这种"更像助手不像机器"的体验很讨喜。
客观短板:幻觉率上升了
硬推理上,Grok 4.3还没追上GPT-5.5和Claude Opus 4.7。在GDPval-AA上,面对GPT-5.5的预期胜率约17%。
更值得注意的是幻觉问题。Grok 4.3的准确率提升8分,但非幻觉率下降了8分。准确率只看你答对了多少,非幻觉率是看你没答出来的问题里有多少是老实承认不会的。
简单说:Grok 4.3知道得更多了,但也更容易"自信地犯错"。消费者最怕的就是AI答得很流畅、很自信,结果关键事实错了。
在医疗、法律、金融、学术和工程等高风险场景里,Grok 4.3仍需要谨慎使用。它适合帮用户起草、整理、生成初稿,适合做低风险的辅助工作。
和竞品怎么定位
当前旗舰模型已经形成了清晰的分层。GPT-5.5从"聊天机器人"进化为"自主代理",在多步Agent任务上成功率82.7%。Claude Opus 4.7在代码修复和事实核查上更稳。
Grok 4.3最适合的定位是高性价比工作型模型。高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务——这些是它的舒适区。
这背后对应的是一套业界正在形成的共识——模型分层路由。让最强模型做任务拆解和规划,让中小模型执行具体的重复性步骤,效果出问题再让强模型介入兜底。整体效果相当,但成本大幅下降。
市场并不总奖励最强者,也奖励够强、够快、够便宜的选择。
趋势:AI竞争从"谁最强"转向"谁最有用"
2026年AI大模型市场的一个明确信号是:顶级实验室开始认真卷性价比了。
Token调用量两年暴增1000倍。国家数据局披露,中国日均Token调用量已突破140万亿。与此同时每百万Token成本降了约75%——成本降了,但用量涨得更猛。
便宜的Token不是让人少用,而是让人更敢用。Agent工作流普及后,单次任务触发的模型调用次数大幅增加,Token消耗从单次几千个飙升至百万级别。
国产模型的Token价格仅为国际竞品的三分之一到二十分之一,在长上下文、代码生成、多模态智能体调度等领域已经实现了突破。
Grok 4.3的意义在于:它把xAI从一个靠马斯克声量吸引注意的模型供应商,往更务实的API和消费级工具竞争者方向推进了一步。
写在最后
Grok 4.3是一款性价比很强的模型,也是一款仍有明显天花板的模型。
消费者真正需要关心的,不是某个榜单分数涨了几分,而是它在哪些场景能省钱省时间,在哪些场景会因为判断不准反而增加成本。
不是每个场景都需要最强的模型,就像不应该只是为了买菜开超跑。选型的本质,是让对的模型做对的事。
AI的下一场竞争,不在实验室的跑分榜上,而在每一个真实用户的账单里。