火得不行的 o3 模型。简单说,o3 是OpenAI推出的一个超级AI模型,主要在编程和数学领域展示了让人震惊眼球的能力。
有人开玩笑说,它的发布,简直就是砸程序员的饭碗!毕竟这家伙太能干了!
未来,或许码农这个职业将不复存在,短期内,也将遭受巨大的岗位需求和薪资冲击。
o3到底有多厉害?
看到这儿,你肯定觉得我在扯淡,甚至都想好了回复话术——这句话出现AI到现在我都听了 800 遍了。
但这次,o3是在实践意义上证明了,对于编程这种能良好的形式化定义任务reward以及轻易拿到过程数据的任务,通过对 RL 范式的 scale up,它的上限可以被持续拉高,直到成为世界上最顶级的程序员之一。
一个AI在全球顶级编程竞技平台上,打败了几乎 99.9% 的人类程序员。这不仅仅是“写点简单代码”的水平,而是直接比肩甚至超越了一些顶级的程序员。
咱平时经常听说那些大厂,比如阿里、字节、腾讯,这些公司里年薪百万的技术大牛随便都有几百号人,而o3的能力,已经足够在这些人中占领一席之地!
Elo在一个叫 Codeforces 的编程平台上,拿下了全球第 175 名的成绩。这不是说它靠“背题库”刷出来的,而是真刀真枪参加比赛,完全跟人类选手同场竞技。而且它解题的速度快、准确率高,可以说是程序员中的顶级“工具人”了。
这张图红框位置,就是 o3 模型的Elo得分(2727 分)所对应的排名(175 名)。
如果你觉得这是个小概率事件,那再来看它的日常工作能力。OpenAI 专门有个测评工具叫 SWE-bench,是用来检测 AI 在真实软件开发场景中的表现的。
简单点说,这工具模拟了一堆软件工程师的日常问题,比如修复代码、找漏洞、改需求啥的。结果呢?o3的解决率达到71.7%,这里的71.7% 的accuracy是什么概念呢?
你可以理解成。o3成功的解决掉了 71.7% 的问题,即o3能直接为 71.7% 的问题生成正确代码补丁(patch)并通过单元测试。
这可能意味着,至少有 70% 本来需要程序员去救火的工程问题,o3都能直接去解了。
而问题的总量可能不会更多(甚至可能会因为o3打底早期代码而变得更少),但需要人类程序员去解决的需求却大量减少了,这对于行业意味着什么呢?不用小编多说了吧。
你是不是觉得 AI 就是天生玩算法的机器?
真正的杀手锏是它的数学能力,在一场叫 AIME 的数学竞赛中,o3几乎接近满分,只有一道题没答对。甚至在逻辑推理测试里,它的得分已经超过了人类的平均水平。最令人震惊的是,它还能挑战那些连顶级数学家都不敢轻易尝试的高难度问题,这在几年前几乎是天方夜谭!
o3这么能干,会不会让程序员失业?
很多人听到这些数据后,第一反应就是:“完了,AI真要抢饭碗了!”说实话,这确实是个现实问题,但未必如你想的那么悲观。
o3确实能做很多以前需要程序员才能完成的事情,尤其是一些基础性、重复性的任务。比如,你的代码里出了个小bug,o3可能几秒钟就修好了,而我们程序员可能得摸索半天。这种情况下,公司为什么还要花大价钱请一个初级程序员来做这些事情呢?
但这并不意味着所有程序员都要被替代,o3再强,也需要人类来定义它的工作目标、设计任务结构以及监督它的执行。
就拿软件开发来说,AI 很擅长具体的技术实现,但它并不懂用户和客户的需求,也不明白商业逻辑。这些东西,短时间内还是得靠我们人工来把控。
更何况,AI 也是需要“老师”的。
o3 的能力之所以这么强,是因为有我们程序员为它设计了训练方式,提供了大量的数据。如果没有我们的介入,AI本身是不会凭空产生这些能力。所以,未来程序员的工作,可能更多地从“写代码”转向“教AI写代码”。
AI的短板在哪儿?再强的AI也有它的局限性,o3 的最大问题之一,就是成本太高了。它的训练和运行过程非常昂贵,这样的大块头模型暂时还不能大规模应用于所有场景。而且它的运行速度也没想象中那么快,有些任务可能需要花费好几十秒甚至几分钟来计算,这对于一些需要即时响应的场景来说是不现实的。
另一个问题是,它在非结构化任务上的表现还不如人类。比如,AI 擅长在有明确目标和规则的任务中表现出色,但如果给它一个需要发散思维的开放性问题,比如“为一款新产品设计用户界面”,它可能就抓瞎了。
最后一点,AI 的输出质量很大程度上取决于输入的质量。如果给它的数据和问题描述不准确,它也可能犯一些低级错误。这些错误虽然表面上看着不起眼,但放到实际项目里可能会导致严重的后果。
那普通程序员应该怎么办?
说了这么多,程序员小伙伴肯定想问:“那我们该咋办?”别慌,其实路还挺多的。
既然挡不住它,那不如学会用它。把它当成你的超级助手,让它帮你完成那些烦琐的重复工作,你则可以把更多精力放在更有创造力的任务上。比如,用它来自动化代码检查、生成测试用例、快速解决常见问题等。
独立访问gpt可以sou:海讯无双Ai 或者公众hao(无双Ai助手)