把内存扔进200公里光纤里?卡马克的“疯狂”方案,藏着第一性原理的精髓

AI圈有个老生常谈的“内存墙”:GPU算力像坐了火箭,内存带宽却像老牛拉车。为了喂饱那些动辄万亿参数的模型,英伟达把HBM(高带宽内存)焊在芯片旁边,成本高得离谱,带宽依然紧巴巴。

前几天,传奇程序员约翰·卡马克(John Carmack,做《毁灭战士》、造火箭的那位)丢出一个脑洞,直接把硬件圈炸了:

既然内存带宽不够,为什么不用光纤来做存储?

他在推文里算了一笔账:单模光纤在200公里距离内已经能实现256 Tb/s的数据传输。这意味着,光信号在光纤里飞那1毫秒,光纤中“驻留”的数据量高达32GB。正好是一个计算节点在1毫秒内需要的数据量。

如果让数据在一根200公里长的光纤回路里“跑圈”,精确调度,等计算核心需要的时候,数据刚好“送到嘴边”——这不就等于把光纤本身变成了一个“延迟线存储器”吗?

image.png

但如果用第一性原理的视角来看,这非但不疯狂,反而可能是对计算机架构最深层的重构。


01 第一性原理,到底是什么?

这个词被马斯克带火。它不是让你“比对手做得更好”,而是逼你回到事物最基本的组成部分,从那里开始推理。

马斯克做火箭时,没有去问“NASA的火箭多少钱一发”,而是问:“制造火箭的原材料,铝、铜、钛合金在市场上值多少钱?”

他发现,原材料成本只有火箭售价的2%。于是他得出结论:不是火箭太贵,而是现有工艺太蠢。SpaceX就这么诞生了。

第一性原理的核心,是打破“类比思维”

类比思维是:“大家都在用DRAM做内存,所以我也要用DRAM,我只要把DRAM做得更快、更便宜就行。”
第一性原理是:“计算核心需要的是‘在单位时间内把数据喂到嘴边’,至于数据是存在电容里、磁里,还是光里,根本不重要。”

卡马克的方案,就是按这个路子来的。


02 内存的本质,到底是什么?

我们被“内存”这个词框了太多年。

回到根上:计算机就干两件事——计算和存储。CPU/GPU只在乎数据什么时候到、到得有多快。它不在乎数据是从旁边三毫米的HBM颗粒里取出来的,还是从200公里外的一根玻璃丝里飞过来的。

DRAM之所以统治了几十年,是因为它在延迟、带宽、成本之间找到了一个平衡点。但这个平衡正在被AI撕裂:算力涨得比带宽快太多,“内存墙”越来越厚

DRAM的物理极限在于,电子在铜线里跑,受电阻电容限制,速度和距离成反比。要快,就得近(所以有了HBM);要便宜,就得多,但远了就慢。

卡马克换了个角度问:什么物理介质,带宽最大?

答案是:光。


03 光纤做内存,凭什么?

数据是真实的

256 Tb/s的传输速率,200公里距离,这是真实存在的光通信能力。256 Tb/s乘以1毫秒,正好32GB。

32TB/s的等效带宽,已经是当前最快的HBM(约8TB/s)的4倍。而且光纤带宽的增长曲线比DRAM陡峭得多——未来算力再翻十倍,可能只要换一对激光器,而DRAM还在跟引脚和散热死磕。

逻辑是自洽的

从第一性原理出发,只要满足“在需要的时候把数据送到”,它就是合格的内存。延迟固定且已知,就能通过流水线隐藏——你提前1毫秒把数据“发射”出去,等它跑完200公里,计算核心刚好要它。

这就像工厂里的传送带:零件在传送带上走一圈需要1分钟,但只要节奏匹配,流水线的产量远高于人工传递(低延迟但单次量小)。

场景是匹配的

大模型推理有一个特点:权重是顺序读取的。一层算完,下一层权重才出场。这种高度可预测的访问模式,恰好适合“让数据在固定长度的光缆里循环”。

当然,这不能解决所有问题——后面会讲。


04 为什么大多数人觉得这是“胡扯”?

因为这个方案动摇了我们对“存储”的固有想象。

存储一定是静止的吗?数据一定得待在芯片旁边吗?延迟一定是越短越好吗?

工程师看到200公里的光纤,第一反应是:“1毫秒延迟,GPU早就饿死了。”但他们忘了,如果提前1毫秒就把数据送出去,延迟根本不是问题,只要你算得够准

这就是类比思维的惯性:我们习惯了用“现有产品的局限性”去否定“一种全新的可能性”。但第一性原理要求我们只问:物理定律允许吗?

物理定律允许。光在光纤里跑200公里,1毫秒;256 Tb/s的带宽,物理上可行。剩下的是工程问题,不是物理不可能。


05 当然,它目前还有很多“丑话”

卡马克自己也承认,这是个“思想实验”。真要落地,问题一大堆:

  • 随机访问怎么办? 光纤是循环磁带,不是随机访问内存。你要取中间某一段数据,得等它转一圈。好在推理的权重部分是顺序的,但KV Cache(键值缓存) 等随机访问部分还是得靠传统内存。所以光纤不能完全替代DRAM,最多是“分工合作”。

  • 1毫秒真的藏得住吗? 流水线隐藏延迟在理论上是可行的,但实际AI框架调度存在不可预测性,批处理、多请求交错都可能打乱节奏。要做到完美匹配,需要极精密的预取算法,这不是件容易事。

  • 功耗真的更低吗? 光传输本身能耗低,但200公里的光纤需要掺铒光纤放大器(EDFA)维持信号,高速光模块和数字信号处理器(DSP)也不是省油的灯。光电转换三次(电-光-电)也会带来额外损耗。最终能效比是否优于HBM,还没人验证过。

这些困难都是真实的,但它们不构成“物理不可能”。它们只是提醒我们:这条路上还有很多工程硬骨头要啃。


06 别忘了,卡马克还给了个“务实版”

有意思的是,很多人只盯着光纤那部分,忽略了卡马克在同一段话里提到的更现实的方案

“更实际的做法是,你可以把廉价的闪存(flash)组合在一起,只要按页读取并做好流水线预取,就能提供几乎任何你需要的读取带宽。如果闪存和加速器厂商能就高速接口达成一致,这在今天的推理服务中就应该可行。”

这个方案更“落地”:用廉价NAND闪存,通过大量并行+流水线预取,来逼近高带宽需求。闪存的延迟比DRAM高两个数量级(微秒级),但带宽可以通过堆叠做上去,成本却低得多。

卡马克的两个方案,一个是“疯狂但优雅”的光纤延迟线,一个是“务实但颠覆”的闪存阵列。它们的共同点是:跳出“内存必须是DRAM”的思维惯性,回归到“如何把数据快速喂给计算核心”这个本质问题。


07 第一性原理,到底能带给我们什么?

卡马克的“光纤内存”可能永远不会商用,但这个思考过程比方案本身更有价值。

在AI硬件竞赛里,我们太习惯“加卡、加HBM、升级NVLink”这种线性思维了。我们被现有架构定义好的框架框住了。

第一性原理提醒我们:

  • 如果你想要更高的带宽,不要只盯着DRAM,去想想还有什么物理介质拥有更高的带宽。(光,电磁波,甚至……)

  • 延迟,如果固定且可知,就可能被流水线隐藏,变成优势而不是劣势。(就像制造业的传送带)

  • 存储,不一定非得是“静态的芯片”。(可以是运动的比特流)

这种思维方式,可以用在任何领域:芯片互联、数据中心架构、甚至算法设计。

也许未来的AI服务器,不再是“机箱里插满内存条”,而是“机箱旁边放着一堆闪存阵列”,或者“数据中心底下埋着一圈光纤环”。计算核心通过光互连,访问一个物理上可能很远、但带宽极大的“分布式存储池”。

听起来像科幻?马斯克用第一性原理把火箭回收变成了现实,卡马克用第一性原理在90年代实现了3D游戏革命。

在物理定律允许的范围内,想象力才是唯一的瓶颈。


最后的话

回到最初的问题:光纤替代内存,算不算符合第一性原理?

算。而且是教科书级别的。

它没有被“内存必须是DRAM”的行业惯例禁锢,而是回归到了计算的本质——在正确的时间,把正确的数据,用尽可能宽的管道,送到计算核心面前。

那1毫秒的延迟,在传统架构里是“缺陷”;但在第一性原理的视角里,它不过是数据在管道里一场有秩序的狂奔。

当模型奔向万亿参数,当算力成本居高不下,或许我们真需要更多像卡马克这样的“疯子”,从第一性原理出发,把那些被我们习以为常的“墙”,撞个粉碎。

毕竟,在这个行业里:
你不敢想的,正在被别人实现。


(本文灵感来自John Carmack的公开推文及“GPU老李”的图解分析,仅为技术探讨,不代表商业化落地建议。)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容