万亿买卡，95%在空转：AI算力泡沫的真相

一个让硅谷沉默的数据

全球AI基础设施投入已经突破万亿美元。

Meta、谷歌、微软、亚马逊四家科技巨头，2026年计划投入7250亿美元建AI基础设施。OpenAI更狠，计算资源投入预计达500亿美元，相比2017年的3000万美元，增长了数千倍。

但这串令人眩晕的数字背后，藏着一个让整个行业尴尬的事实——

企业环境中GPU平均利用率只有5%。

你没看错。花了几万亿买的显卡，95%的时间在原地空转。

马斯克的55万张显卡，只有6万张在干活

The Information最近披露了一组数据：马斯克旗下xAI拥有约55万块英伟达GPU（H100和H200），部署在Memphis和Colossus两个数据中心。

但模型算力利用率（MFU）只有11%。

换算一下：55万块卡，真正干活的算力只相当于6万块。

为什么？原因并不复杂。

第一，规模越大，协调越难。 1000到10000块GPU的集群，多节点协调不是问题。但一旦扩展到数十万块，设备空闲时间迅速累积，软件栈内部的各种不一致性问题集中爆发。

第二，数据跟不上。 GPU算得快，但HBM（高带宽内存）的数据读写速度和服务器之间的网络传输跟不上。只要数据传输出现微小延迟，整个集群的GPU就被迫原地等待。这就像雇了1000个工人，但材料永远供不上，只能干瞪眼。

第三，训练本身是间歇性的。 GPU在计算时满载运转，但研究人员分析结果、调参、处理数据管道时，大量设备就闲置了。

更荒诞的是，有些大厂的研究人员为了避免被管理层批评，或者害怕闲置的GPU配额被其他团队抢走，会故意重复运行无意义的训练任务来"刷高"利用率数据。

买卡容易，用卡难。这才是AI行业的真实写照。

中国的智算中心，也一样在"晒太阳"

这个问题不是马斯克独有的。

国内的情况更值得深思。过去两年，中国建了大大小小几十个智算中心项目，GPU买了一批又一批。但据多位业内人士透露，数十亿建成的万卡GPU集群，实际利用率普遍不足40%。

有些甚至更低。

问题出在哪？

瓶颈不在芯片本身，而在数据供给跟不上。 GPU在空转，等存储喂数据。几十亿砸下去建算力，最后发现卡在存储上。这是一笔巨大的"沉没成本"。

新华三集团在5月8日的领航者峰会上，直接把这个问题摆到了台面上。紫光股份董事长于英涛指出：部分数据中心GPU利用率不足六成，网络拥塞导致算力损耗严重。

他给出的解决方案是算、网、存、云、安、维六大底层能力的工程化整合——新华三发布的UniPoD S80000超节点，单柜最高支持128卡高密部署，预期可将大模型训练性能提升70%，推理性能提升3倍。

但硬件整合只能治标。真正要解决的，是整个AI基础设施的调度逻辑。

从"有多少卡"到"出多少Token"

行业正在经历一场静悄悄的范式转移。

过去，AI基础设施的竞争逻辑是"谁卡多谁牛"。现在，竞争逻辑正在转向"谁的Token性价比高"。

国家数据局局长刘烈宏在数字中国建设峰会上表示：到2026年3月，中国日均Token调用量已超过140万亿，相比2024年年初，两年增长超千倍。词元（Token）正在成为智能经济时代的交易计量单位。

中国移动也在5月8日发布了MoMA平台，接入超300款AI模型，首创Token集约化运营模式，声称单位Token成本压降30%以上。

当衡量标准从"卡的数量"变成"Token的产出"，整个游戏规则都变了。

那些只会堆硬件、不会调度算力的玩家，终将被淘汰。而真正能提高GPU利用率、降低Token成本的公司，才是下一个十年的赢家。

Meta的GPU利用率达到43%，谷歌达到46%。这说明高效运行是可能的，只是需要极其深厚的基础设施优化能力。

AI竞赛的下半场

AI竞赛的上半场，比的是谁敢砸钱、谁买得到卡。

下半场不一样了。

下半场比的是，谁能把一张卡的产出做到极致。

当xAI的55万块GPU只有11%的利用率，当全球企业平均5%的GPU在工作，当万亿投资的算力大部分在空转——我们不得不承认一个事实：

AI行业最大的浪费，不是买不到芯片，而是买了不会用。

这不是一个技术问题，是一个工程问题，更是一个认知问题。

谁先想明白这一点，谁就赢了。

你觉得GPU利用率低是暂时的问题，还是AI行业的结构性缺陷？评论区聊聊。

万亿买卡，95%在空转：AI算力泡沫的真相