nvidia GTC 2024 Blackwell

两年前H100发布

两年时间天翻地覆，大模型横空出世，整个AI芯片、Infra的很多底层逻辑都发生了天翻地覆的变化。白皮书还没出，先说一些大面上的，之后再更新

算力提升放缓，显存提升加速。抛开茫茫多老黄吹牛逼的烟雾弹，实打实的算力提升大概只有2.5倍，以往NVidia每一代产品的算力提升都是5倍左右。这个并不是NVidia没有能力继续暴力提算力，而是大模型横空出世之后，显存的重要性相比带宽的重要性急剧提升。我去年一整年几乎都是在鼓吹显存的重要性

NVidia过去的整个产品战略都是围绕算力需求规划的，保持算力按照黄氏曲线增长是过去这么多代产品一直坚持的，每一代产品差不多提升4~5倍的算力，确保吃尽工艺和架构创新的红利空间。这个节奏过去这么多大算力AI芯片的冲击下基本没有动摇过

过去一年对NVidia而言是混乱的一年，这种混乱估计还会持续一段时间，因为大模型带来了显存需求的暴涨和算力重要性的下滑，无论是H100 VNL还是H200都是过去闻所未闻的形态。L40S这一类传统意义上的推理卡在今天的大模型推理市场也是毫无性价比，惨遭滑铁卢

B200本质上也是这个旧的产品路线和新需求交叉的产物。自然而然，产品升级的重心要放到显存维度，未来甚至需要在互联和显存维度再塑造一个新的黄氏曲线

AMD凉了。老黄还是比较有魄力，做了双die合封。双die模拟一个die虽然有一些隐性的NUMA问题，不过这个问题在A100时候L2分裂成两个的时候就已经存在了，倒也问题不大。但AMD的短期优势转瞬即逝，本来靠着chiplet在大模型横空出世的阶段能快速堆到8个HBM, 通过8个HBM3打NVidia的6个HBM，哪怕H200升级成6个HBM3E也仍然有一定的优势

但随着NVidia也开始双die合封，也变成8个HBM，还是HBM3E，甚至把海力士的8GT/pin的频率拉满，直接挤光牙膏做到8TB/s的内存带宽，AMD短期优势算是瞬间没了，毕竟HBM3E的产能都被NVidia抢光了，未来随着海力士进一步升级成36GB+1.2TB/s的HBM，显存应该能飙到288GB+9.6TB/s，Intel的falcon shores画的饼也是差不多这个规格，不过估计Intel还是会跳票

缓存带宽估计需要配平。H100的L2带宽大致只有12TB/s，而B200的内存带宽已经到这个当量了，L2带宽得显著提升才能发挥作用，要不然会跟很多DSA芯片一样会出现比较多不配平产生的利用率的问题，这个可以等白皮书出来仔细看看。B200芯片内部应该花费了不少资源去做这方面的配平调整，相反算力调整可能没那么急迫。只不过双die合封了自然已经被动有了2倍提升了，再稍微有个30%的提升，纸面算力已经提升了2.5倍了

NVidia的大模型战略仍然是全面高端卡。虽然显存重要性很高，但大模型全场景存在非常变态且激烈分化的算力密集部分和访存密集部分。因此老黄的策略就是把算力和显存都做到最高端，这样放到算力密集的场景，B200是算力最高的，放到访存密集的场景，B200是访存最高的。这个策略其实挺无敌的。尤其AMD的MI300X短暂地让NVidia地产品在显存层面处于第二的位置时，老黄是急切地想重回这个维度的第一。所以未来也一样，每个指标都会有一定升级，谁跟他卷某个指标，他反过来快速迭代这个指标。

当然这个战略也有破绽，这样反过来导致算力密集的场景显存是过剩和浪费的，访存密集的场景算力又是过剩和浪费的，尤其在大模型这么撕裂的场景下。我在《LLM推理到底需要什么样的芯片》里也提到过，今天跟NVidia卷就应该把这种撕裂的场景做成异构，来打这种全面高端的同构形态。

抛弃x86可能有点激进。其实一个很重要的细节是NVidia这次的DGX推的是DGX GB200而不是DGX B200，以前的DGX A100、DGX H100都是x86 CPU的标准服务器挂了8张GPU，并且在GPU侧做了复杂的网络和NVLink互联。Grace+GPU的形态是从22年的GH200开始的，实际上这就是个全NVidia私有化的方案了。其实GH200那个一排机柜的“A single GPU”虽然真的是个力大砖飞的秀肌肉形态，但市场上确实没什么水花。

今年感觉老黄是铁了心想再试试把x86从数据中心里抹掉，把DGX的品牌都跟这个全定制的CPU+GPU的组合形态绑定了。当然还是留了HGX B200给下游服务器厂商继续供应常见的x86服务器形态，估计也是怕走太激进翻车了。

CPU+GPU其实除了完全私有化外，对用户而言，唯一的好处是CPU和GPU之间800GB/s的互联带宽，相比PCIe的64GB/s肯定是高了不少。要说收益肯定有，但大多不是什么痛得不行的痛点。实在想不出有什么场景值得用户放弃x86来拥抱NV纯私有化方案，感觉还是存疑的。

其实今天NVidia天天在NVLink-Network层面秀肌肉，但互联网厂商一般还是买它的单机节点，自己搞交换机搭网络拓扑。全面拥抱NV纯私有化的大盒子方案实际上还是有很大的阻力的。

其实即使是NVidia，也一样要遵循整个生态竞争的逻辑，我之前在芯片生态的竞争逻辑也阐述过，NVidia的扩张和重塑的权力一定是要有利于关键需求的，NVLink得以成为事实标准，是因为GPU之间的PCIe互联软件已经没法优化了，值得入NVLink，但其他层面还远没到这个程度。

NVidia在16年的时候就尝试过和IBM合作踢掉x86，不过最后是IBM在风中凌乱了。今天NVidia市值已经是Intel十倍了，又跃跃欲试想踢掉x86，其实还是有点激进的。

NVIDIA追求全面私有化其实进一步打开了围绕标准化体系的第二套方案的空间。对于今天所有NVidia的竞争者而言，围绕标准化体系打造一个松散的白盒方案会非常有生态竞争力。比各自为战和NVIDIA一样打造全面私有化方案有效得多。

NVIDIA的竞争力其实越来越依赖脱离标准化体系的私有方案，和标准化体系差异化会越大，围绕标准化体系也就可以差异化竞争。围绕x86的整套体系其实Intel是最有号召力的，可惜Intel完全没有脑子，CXL搞什么莫名其妙的一致性，还不如带宽拉起来，天下群雄就自然围绕在Intel周围了，怒其不争。

当然了，今天大模型把竞争拉到了数据中心的尺度，可以架构取舍的空间也比从前大的多，NVIDIA在这个尺度下要保持竞争力，必然需要坚持这种全面高端的战略，确保各个指标都冲到极致，反过来也会在不同场景下出现巨大的浪费，而这就是竞争者在标准化体系下的空间。

-- 转载自mackler

nvidia GTC 2024 Blackwell

推荐阅读更多精彩内容