把内存扔进200公里光纤里？卡马克的“疯狂”方案，藏着第一性原理的精髓

AI圈有个老生常谈的“内存墙”：GPU算力像坐了火箭，内存带宽却像老牛拉车。为了喂饱那些动辄万亿参数的模型，英伟达把HBM（高带宽内存）焊在芯片旁边，成本高得离谱，带宽依然紧巴巴。

前几天，传奇程序员约翰·卡马克（John Carmack，做《毁灭战士》、造火箭的那位）丢出一个脑洞，直接把硬件圈炸了：

既然内存带宽不够，为什么不用光纤来做存储？

他在推文里算了一笔账：单模光纤在200公里距离内已经能实现256 Tb/s的数据传输。这意味着，光信号在光纤里飞那1毫秒，光纤中“驻留”的数据量高达32GB。正好是一个计算节点在1毫秒内需要的数据量。

如果让数据在一根200公里长的光纤回路里“跑圈”，精确调度，等计算核心需要的时候，数据刚好“送到嘴边”——这不就等于把光纤本身变成了一个“延迟线存储器”吗？

image.png

但如果用第一性原理的视角来看，这非但不疯狂，反而可能是对计算机架构最深层的重构。

01 第一性原理，到底是什么？

这个词被马斯克带火。它不是让你“比对手做得更好”，而是逼你回到事物最基本的组成部分，从那里开始推理。

马斯克做火箭时，没有去问“NASA的火箭多少钱一发”，而是问：“制造火箭的原材料，铝、铜、钛合金在市场上值多少钱？”

他发现，原材料成本只有火箭售价的2%。于是他得出结论：不是火箭太贵，而是现有工艺太蠢。SpaceX就这么诞生了。

第一性原理的核心，是打破“类比思维”。

类比思维是：“大家都在用DRAM做内存，所以我也要用DRAM，我只要把DRAM做得更快、更便宜就行。”
第一性原理是：“计算核心需要的是‘在单位时间内把数据喂到嘴边’，至于数据是存在电容里、磁里，还是光里，根本不重要。”

卡马克的方案，就是按这个路子来的。

02 内存的本质，到底是什么？

我们被“内存”这个词框了太多年。

回到根上：计算机就干两件事——计算和存储。CPU/GPU只在乎数据什么时候到、到得有多快。它不在乎数据是从旁边三毫米的HBM颗粒里取出来的，还是从200公里外的一根玻璃丝里飞过来的。

DRAM之所以统治了几十年，是因为它在延迟、带宽、成本之间找到了一个平衡点。但这个平衡正在被AI撕裂：算力涨得比带宽快太多，“内存墙”越来越厚。

DRAM的物理极限在于，电子在铜线里跑，受电阻电容限制，速度和距离成反比。要快，就得近（所以有了HBM）；要便宜，就得多，但远了就慢。

卡马克换了个角度问：什么物理介质，带宽最大？

答案是：光。

03 光纤做内存，凭什么？

数据是真实的

256 Tb/s的传输速率，200公里距离，这是真实存在的光通信能力。256 Tb/s乘以1毫秒，正好32GB。

32TB/s的等效带宽，已经是当前最快的HBM（约8TB/s）的4倍。而且光纤带宽的增长曲线比DRAM陡峭得多——未来算力再翻十倍，可能只要换一对激光器，而DRAM还在跟引脚和散热死磕。

逻辑是自洽的

从第一性原理出发，只要满足“在需要的时候把数据送到”，它就是合格的内存。延迟固定且已知，就能通过流水线隐藏——你提前1毫秒把数据“发射”出去，等它跑完200公里，计算核心刚好要它。

这就像工厂里的传送带：零件在传送带上走一圈需要1分钟，但只要节奏匹配，流水线的产量远高于人工传递（低延迟但单次量小）。

场景是匹配的

大模型推理有一个特点：权重是顺序读取的。一层算完，下一层权重才出场。这种高度可预测的访问模式，恰好适合“让数据在固定长度的光缆里循环”。

当然，这不能解决所有问题——后面会讲。

04 为什么大多数人觉得这是“胡扯”？

因为这个方案动摇了我们对“存储”的固有想象。

存储一定是静止的吗？数据一定得待在芯片旁边吗？延迟一定是越短越好吗？

工程师看到200公里的光纤，第一反应是：“1毫秒延迟，GPU早就饿死了。”但他们忘了，如果提前1毫秒就把数据送出去，延迟根本不是问题，只要你算得够准。

这就是类比思维的惯性：我们习惯了用“现有产品的局限性”去否定“一种全新的可能性”。但第一性原理要求我们只问：物理定律允许吗？

物理定律允许。光在光纤里跑200公里，1毫秒；256 Tb/s的带宽，物理上可行。剩下的是工程问题，不是物理不可能。

05 当然，它目前还有很多“丑话”

卡马克自己也承认，这是个“思想实验”。真要落地，问题一大堆：

随机访问怎么办？ 光纤是循环磁带，不是随机访问内存。你要取中间某一段数据，得等它转一圈。好在推理的权重部分是顺序的，但KV Cache（键值缓存） 等随机访问部分还是得靠传统内存。所以光纤不能完全替代DRAM，最多是“分工合作”。
1毫秒真的藏得住吗？ 流水线隐藏延迟在理论上是可行的，但实际AI框架调度存在不可预测性，批处理、多请求交错都可能打乱节奏。要做到完美匹配，需要极精密的预取算法，这不是件容易事。
功耗真的更低吗？ 光传输本身能耗低，但200公里的光纤需要掺铒光纤放大器（EDFA）维持信号，高速光模块和数字信号处理器（DSP）也不是省油的灯。光电转换三次（电-光-电）也会带来额外损耗。最终能效比是否优于HBM，还没人验证过。

这些困难都是真实的，但它们不构成“物理不可能”。它们只是提醒我们：这条路上还有很多工程硬骨头要啃。

06 别忘了，卡马克还给了个“务实版”

有意思的是，很多人只盯着光纤那部分，忽略了卡马克在同一段话里提到的更现实的方案：

“更实际的做法是，你可以把廉价的闪存（flash）组合在一起，只要按页读取并做好流水线预取，就能提供几乎任何你需要的读取带宽。如果闪存和加速器厂商能就高速接口达成一致，这在今天的推理服务中就应该可行。”

这个方案更“落地”：用廉价NAND闪存，通过大量并行+流水线预取，来逼近高带宽需求。闪存的延迟比DRAM高两个数量级（微秒级），但带宽可以通过堆叠做上去，成本却低得多。

卡马克的两个方案，一个是“疯狂但优雅”的光纤延迟线，一个是“务实但颠覆”的闪存阵列。它们的共同点是：跳出“内存必须是DRAM”的思维惯性，回归到“如何把数据快速喂给计算核心”这个本质问题。

07 第一性原理，到底能带给我们什么？

卡马克的“光纤内存”可能永远不会商用，但这个思考过程比方案本身更有价值。

在AI硬件竞赛里，我们太习惯“加卡、加HBM、升级NVLink”这种线性思维了。我们被现有架构定义好的框架框住了。

第一性原理提醒我们：

如果你想要更高的带宽，不要只盯着DRAM，去想想还有什么物理介质拥有更高的带宽。（光，电磁波，甚至……）
延迟，如果固定且可知，就可能被流水线隐藏，变成优势而不是劣势。（就像制造业的传送带）
存储，不一定非得是“静态的芯片”。（可以是运动的比特流）

这种思维方式，可以用在任何领域：芯片互联、数据中心架构、甚至算法设计。

也许未来的AI服务器，不再是“机箱里插满内存条”，而是“机箱旁边放着一堆闪存阵列”，或者“数据中心底下埋着一圈光纤环”。计算核心通过光互连，访问一个物理上可能很远、但带宽极大的“分布式存储池”。

听起来像科幻？马斯克用第一性原理把火箭回收变成了现实，卡马克用第一性原理在90年代实现了3D游戏革命。

在物理定律允许的范围内，想象力才是唯一的瓶颈。

最后的话

回到最初的问题：光纤替代内存，算不算符合第一性原理？

算。而且是教科书级别的。

它没有被“内存必须是DRAM”的行业惯例禁锢，而是回归到了计算的本质——在正确的时间，把正确的数据，用尽可能宽的管道，送到计算核心面前。

那1毫秒的延迟，在传统架构里是“缺陷”；但在第一性原理的视角里，它不过是数据在管道里一场有秩序的狂奔。

当模型奔向万亿参数，当算力成本居高不下，或许我们真需要更多像卡马克这样的“疯子”，从第一性原理出发，把那些被我们习以为常的“墙”，撞个粉碎。

毕竟，在这个行业里：
你不敢想的，正在被别人实现。

（本文灵感来自John Carmack的公开推文及“GPU老李”的图解分析，仅为技术探讨，不代表商业化落地建议。）

把内存扔进200公里光纤里？卡马克的“疯狂”方案，藏着第一性原理的精髓