台积电的瓶颈
但是,它是双芯片的。台积电的工艺也遇到瓶颈了,不能再增加密度。只能横向扩张了。这时候通信速度显得异常重要。
这种双芯片配置的原因很简单:Blackwell B200 将使用台积电的 4NP 工艺节点,这是现有 Hopper H100 和 Ada Lovelace 架构 GPU 使用的 4N 工艺的改进版本。 我们没有关于台积电 4NP 的大量细节,但它可能不会在功能密度方面提供重大改进,这意味着如果你想要更强大的芯片,你需要一种方法来变得更大。 这很困难,因为 H100 基本上已经是一个全掩模版尺寸的芯片 - 它的芯片尺寸为 814 mm2,理论最大值为 858 mm2。[1]
我不懂半导体。我感觉台积电止步不前就是我们追赶的机会。
4位浮点数
就是更低的精度,非常适合于AI应用。
我们需要讨论的第二个警告是最大理论计算量为 20 petaflops。 Blackwell B200 通过新的 FP4 数字格式达到这一数字,吞吐量是 Hopper H100 FP8 格式的两倍。 因此,如果我们进行同类比较并坚持使用 FP8,那么 B200“仅”比 H100(具有稀疏性)提供多 2.5 倍的理论 FP8 计算,其中很大一部分来自于拥有两个芯片。这又可以追溯到 4NP 工艺节点在密度方面缺乏大规模改进。 理论上,B200 每个芯片的计算量增加了 1.25 倍,并且 H100 和 B200 都支持大多数数字格式。
所以不要看表面的4倍快。去掉双芯片、去掉更低精度,实际提高只有25%!
GPU、云计算、超级计算机
现在top500排行第三的超级计算机是azure。采用的是云计算,跟传统超级计算机的架构非常不同。超级计算机更适合做标准的双精度浮点数计算。基于人工智能GPU的方案速度更快,价格更便宜,可以低精度/混合精度。
这两者可以相结合。不懂。我猜是AI式的计算先缩小范围,然后用传统方法计算到最高精度。在很多科学计算领域相关论文数都已经在呈现指数级增长了。[2] 还有号称“懂物理学的神经网络” physics-informed neural network,其实是几十年前就已经有的用多层感知机逼近微分方程。得益于现在数据量和算力的增加。以前不现实的算法,现在逐渐变得可行。
superpod
原来的superpod在top500排名是第9名。现在不知道能升到多少位。
完整的 SuperPOD 本身就是一台 AI 超级计算机,拥有 240TB 的快速内存和 11.5 exaflops 的 FP4 计算能力,或者如果您愿意,也可以使用 5.75 exaflops 的 FP8 或 2.88 exaflops 的 FP16。 安装可以扩展到许多 SuperPOD,可能有数万个 Blackwell GPU 和 Grace CPU。