2026-05-09

三大模型代码生成横评:同一道LeetCode Hard,谁的通过率更高?

最近做代码生成能力测试,我选了一道 LeetCode Hard 题,分别让三类主流大模型生成解法,并记录一次性通过情况。为了减少切换环境的时间,我通过 AI模型聚合平台 t.877ai.cn 统一调用不同模型,测试过程更接近普通用户的真实使用方式。本文不做绝对排名,只分享一次偏实战的横向体验。

这次测试题选的是“最小覆盖子串”这类典型 Hard 题。它不算冷门,但很能考察模型的边界处理能力。题目要求在字符串中找到包含目标字符集的最短子串,难点不在思路本身,而在窗口收缩、重复字符统计、空结果处理等细节。

测试方式比较简单:同一段提示词、同一种编程语言、每个模型独立生成 10 次代码,不额外提醒错误点。生成后直接提交,统计是否一次通过。为了更贴近日常使用,我没有使用特别复杂的“专家提示词”,只要求模型给出思路、代码和复杂度分析。

先看结果。GPT 系模型一次通过 7 次,Claude 系模型一次通过 8 次,Gemini 系模型一次通过 6 次。这个结果不能代表所有题目,但能说明一个现象:现在主流模型写代码都不弱,差距更多体现在细节稳定性,而不是会不会做题。

GPT 系模型的特点是解法比较标准,代码结构清晰。大多数情况下,它会使用滑动窗口和哈希表,变量命名也比较容易读。问题在于有两次生成的代码对重复字符处理不够严谨,比如目标字符串里有两个相同字符时,窗口判断逻辑容易提前成立。

Claude 系模型这次表现最稳。它生成的代码通常更谨慎,会主动考虑边界输入,比如空字符串、目标长度大于原字符串、字符重复等情况。它的解释也更接近人工题解,适合学习算法思路。不过它有时会写得偏长,对只想快速提交的人来说,阅读成本稍高。

Gemini 系模型的优势是思路表达很快,整体框架也正确,但代码细节波动更明显。有几次它能准确讲出滑动窗口思路,真正落到代码时却在计数更新上出现小问题。这类错误很隐蔽,肉眼看起来像是正确答案,提交后才会暴露。

如果只看通过率,Claude 系模型在这次测试里略占优势。但如果从实际开发角度看,GPT 系模型的综合体验也很均衡,尤其适合快速生成可读代码。Gemini 系模型更适合用来做思路启发和多方案对比,直接拿去提交时最好多跑几组用例。

这里有个很关键的结论:代码生成能力不能只看“能不能写出来”,更要看“能不能稳定处理边界”。LeetCode Hard 对模型的考验,不是让它背出经典模板,而是看它在重复字符、数组越界、状态更新顺序这些地方是否可靠。

从趋势看,大模型写代码正在从“生成片段”走向“参与完整开发流程”。未来更有价值的能力,不只是刷题通过率,而是结合需求文档、已有代码、测试用例一起完成修改。也就是说,模型会越来越像一个初级开发助手,而不是单纯的代码补全工具。

不过,开发者也不能完全依赖模型。我的建议是:让模型先给思路,再要求它补充边界用例,最后自己跑测试。对于 Hard 题或业务核心代码,最好再让另一个模型做代码审查。多模型交叉验证,比单次生成更靠谱。

总体来看,这次横评中 Claude 系模型一次通过率更高,GPT 系模型综合表现稳定,Gemini 系模型在思路组织上有优势但代码细节需要复核。对普通开发者来说,真正高效的用法不是问“哪个模型最强”,而是根据任务选择合适模型,并保留必要的人工判断。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Gemini 中文界面切换全攻略:从入门到精通,解锁 AI 交互新体验 在 AI 技术飞速迭代的当下,谷歌 Gem...
    XXXTENTASEN阅读 73评论 0 0
  • 别再卷提示词了,真正的护城河是你的私有Skill库 一、提示词工程师这个岗位正在被取消 二、提示词不值钱,值钱的是...
    霍格沃兹测试开发学社阅读 21评论 0 0
  • Gemini 3.1 Pro深度测评:ARC-AGI得分77.1%背后,推理能力强在哪? 最近围绕 Gemini ...
    是巧巧呀阅读 20评论 0 0
  • Deep Think模式实测:Gemini推理链对数学和逻辑题的增益有多大? 最近我用 Gemini 的 Deep...
    是巧巧呀阅读 23评论 0 0
  • Gemini 3.1 Pro中文能力测评:写作、翻译、摘要的真实表现如何? 最近我集中体验了一轮 Gemini 3...
    大乔家的阅读 21评论 0 0

友情链接更多精彩内容