万亿买卡,95%在空转:AI算力泡沫的真相

一个让硅谷沉默的数据

全球AI基础设施投入已经突破万亿美元。

Meta、谷歌、微软、亚马逊四家科技巨头,2026年计划投入7250亿美元建AI基础设施。OpenAI更狠,计算资源投入预计达500亿美元,相比2017年的3000万美元,增长了数千倍。

但这串令人眩晕的数字背后,藏着一个让整个行业尴尬的事实——

企业环境中GPU平均利用率只有5%。

你没看错。花了几万亿买的显卡,95%的时间在原地空转。

马斯克的55万张显卡,只有6万张在干活

The Information最近披露了一组数据:马斯克旗下xAI拥有约55万块英伟达GPU(H100和H200),部署在Memphis和Colossus两个数据中心。

但模型算力利用率(MFU)只有11%。

换算一下:55万块卡,真正干活的算力只相当于6万块。

为什么?原因并不复杂。

第一,规模越大,协调越难。 1000到10000块GPU的集群,多节点协调不是问题。但一旦扩展到数十万块,设备空闲时间迅速累积,软件栈内部的各种不一致性问题集中爆发。

第二,数据跟不上。 GPU算得快,但HBM(高带宽内存)的数据读写速度和服务器之间的网络传输跟不上。只要数据传输出现微小延迟,整个集群的GPU就被迫原地等待。这就像雇了1000个工人,但材料永远供不上,只能干瞪眼。

第三,训练本身是间歇性的。 GPU在计算时满载运转,但研究人员分析结果、调参、处理数据管道时,大量设备就闲置了。

更荒诞的是,有些大厂的研究人员为了避免被管理层批评,或者害怕闲置的GPU配额被其他团队抢走,会故意重复运行无意义的训练任务来"刷高"利用率数据。

买卡容易,用卡难。这才是AI行业的真实写照。

中国的智算中心,也一样在"晒太阳"

这个问题不是马斯克独有的。

国内的情况更值得深思。过去两年,中国建了大大小小几十个智算中心项目,GPU买了一批又一批。但据多位业内人士透露,数十亿建成的万卡GPU集群,实际利用率普遍不足40%。

有些甚至更低。

问题出在哪?

瓶颈不在芯片本身,而在数据供给跟不上。 GPU在空转,等存储喂数据。几十亿砸下去建算力,最后发现卡在存储上。这是一笔巨大的"沉没成本"。

新华三集团在5月8日的领航者峰会上,直接把这个问题摆到了台面上。紫光股份董事长于英涛指出:部分数据中心GPU利用率不足六成,网络拥塞导致算力损耗严重。

他给出的解决方案是算、网、存、云、安、维六大底层能力的工程化整合——新华三发布的UniPoD S80000超节点,单柜最高支持128卡高密部署,预期可将大模型训练性能提升70%,推理性能提升3倍。

但硬件整合只能治标。真正要解决的,是整个AI基础设施的调度逻辑。

从"有多少卡"到"出多少Token"

行业正在经历一场静悄悄的范式转移。

过去,AI基础设施的竞争逻辑是"谁卡多谁牛"。现在,竞争逻辑正在转向"谁的Token性价比高"。

国家数据局局长刘烈宏在数字中国建设峰会上表示:到2026年3月,中国日均Token调用量已超过140万亿,相比2024年年初,两年增长超千倍。词元(Token)正在成为智能经济时代的交易计量单位。

中国移动也在5月8日发布了MoMA平台,接入超300款AI模型,首创Token集约化运营模式,声称单位Token成本压降30%以上。

当衡量标准从"卡的数量"变成"Token的产出",整个游戏规则都变了。

那些只会堆硬件、不会调度算力的玩家,终将被淘汰。而真正能提高GPU利用率、降低Token成本的公司,才是下一个十年的赢家。

Meta的GPU利用率达到43%,谷歌达到46%。这说明高效运行是可能的,只是需要极其深厚的基础设施优化能力。

AI竞赛的下半场

AI竞赛的上半场,比的是谁敢砸钱、谁买得到卡。

下半场不一样了。

下半场比的是,谁能把一张卡的产出做到极致。

当xAI的55万块GPU只有11%的利用率,当全球企业平均5%的GPU在工作,当万亿投资的算力大部分在空转——我们不得不承认一个事实:

AI行业最大的浪费,不是买不到芯片,而是买了不会用。

这不是一个技术问题,是一个工程问题,更是一个认知问题。

谁先想明白这一点,谁就赢了。


你觉得GPU利用率低是暂时的问题,还是AI行业的结构性缺陷?评论区聊聊。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容