30系显卡浅析（前）

转载自：https://www.zhihu.com/question/32716735?sort=created

学号：20021210601 姓名：韦苏恒

【嵌牛导读】浅析NVIDIA新一代30系显卡。

【嵌牛鼻子】RTX3070 RTX3080 RTX3090

【嵌牛正文】

在当前的显卡市场上，占据80%的NVIDIA公司被玩家爱且恨着——他们带来了最近十多年来最好的显卡，同时也让高端游戏卡的价格不断上涨，如今RTX 3090已是五位数起。

在RTX 30系列显卡发布之后，玩家的不满似乎释然了，相比当前的图灵显卡，安培架构的RTX

3090/3080/3070显卡一下子变得真香了，因为它们性能翻倍不说，国内价格反而下降了。

·GeForce RTX 3090：取代RTX Titan，相比于Titan

RTX快了50％，性能是RTX 2080 Ti显卡的2倍，配备24GB GDDR6X显存，售价11999元，9月24日上市。

·GeForce RTX 3080：取代RTX 2080 Ti，相比于RTX

2080性能快2倍，搭配10GB GDDR6X显存，海外699美元没变，国内从上代6499降至5499元，9月17日上市。

·GeForce RTX 3070：价格不到RTX 2080 Ti的一半，但是平均性能更高，同时比RTX 2070快足足60％，配备8GB

GDDR6显存，售价3899元，10月份上市。

RTX30系列显卡售价及上市时间

RTX30系列显卡性能变化

RTX

30系列显卡规格

从这个规格表中可以看出，与RTX 2080 Ti显卡相比，RTX 3090的标志性FP32性能从13.4T提升到了35.7T，翻倍还多，光追及AI加速提升也同样明显。

与图灵显卡相比，安培GPU的变化之大让人惊讶，在过去十多年的显卡升级换代中，性能翻倍的提升很少见到了，NVIDA是怎么做到的？

今天我们就来从详细解读一下安培GPU的架构，探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。

先从工艺说起：12nm干掉7nm之后 8nm如何再进一步

对于半导体芯片来说，很关键的一部分是制程工艺，先进的架构也要通过工艺来实现，这是影响芯片能效、性能甚至成本的一大因素。

对NVIDIA来说，他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了，这是台积电16nm工艺的改进版，如果再算上16nm的Pascal架构，实际上过去三代GPU都没有重大工艺上的升级了。

在Ampere安培架构上，NVIDIA终于升级工艺了，只不过这次有两个意外——首先没有选择台积电，其次没有上7nm，而是三星定制的8nm工艺，虽然跟7nm看起来只差了1nm，但实际上是两代工艺。

考虑到NVIDIA之前对工艺的表态，没用7nm工艺而是三星8nm工艺又在意料之中，最关键的问题在于NVIDIA能够做到多好。

三星的8nm工艺是基于10nm工艺改良的，至少有LPP和LPU两个版本，前者适合移动SoC，后者适合高性能芯片，NVIDIA的定制大概是基于后者。

与台积电的7nm工艺晶体管密度大约1亿/mm2相比，8nm工艺大概是6000万晶体管/mm2，但这是单一的SRAM芯片的对比，实际上GPU芯片比较复杂，差距会缩小很多。

根据是NVIDIA公布的信息，台积电7nm工艺制造的安培A100核心是540亿晶体管，核心面积826mm2，而三星8nm工艺制造的GA102核心是280亿晶体管，核心面积官方没公布，据悉是628mm2，也是大核心了。

这么算下来，7nm A100核心的晶体管密度6560万晶体管/mm2，而三星8nm的GA102核心也有4460万晶体管/mm2——差距仍在，但似乎可以接受了。

三星8nm工艺的晶圆代工价格还是秘密，但是不论技术还是商业策略上，三星都会比台积电便宜很多，预计代工价格能差30%或者更高，所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。

那三星8nm工艺带来了多大的性能及能效提升呢？首先大家可以看到RTX 30系列显卡的频率提升了，从RTX 20系列的1.5GHz+提升到了1.7GHz+，升级工艺还是有性能提升的。

不过RTX 20系列的加速频率实际可以达到1.9GHz甚至接近2GHz，RTX 30系列预计也就这个水平。

但是能效还是有提升的，NVIDIA官方称在60fps性能下，图灵显卡的功耗大约有240W，安培显卡则是120W多点，算下来是1.9倍能效，提升了90%，同时温度还低了3度，噪音减少2分贝。

总的来说，在工艺这方面大家对安培GPU有惊喜有失望，失望的是没有上预期中的7nm工艺（不管台积电还是三星），工艺依然升级到了8nm。

但是NVIDIA工艺虽然并不算激进，但性能、能效进步还是挺大的，安培显卡各方面指标都是大幅胜过现在的图灵卡，而且价格做到了不升反降，这也是不追求激进工艺的好处，反正之前12nm都能赢，现在上8nm更加稳妥了。

安培GPU架构详解之：FP32单元翻倍CUDA核心改了什么？

发布安培的时候，NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃，而2018年推出图灵GPU时，老黄也是类似的说词——GPU有史以来最大的变革，这两个评价其实也没错。

图灵GPU架构有很多第一次，首次支持RTX Core（光追加速单元），首次支持Tensor Core，同时还改进了CUDA内核，不过前两个是重点。

在安培GPU上，RT Core、Tensor

Core当然继续加强，不过最主要的亮点是CUDA架构的改进，性能翻倍的根源就在这里，我们先来看看这方面的变化。

GA102核心架构示意图

GA102核心总计7组GPC单元，每组有12组SM单元，总计84组，RTX 30系列显卡视乎规格不同启用的SM单元总数不同，RTX 3090是82组，RTX 3080是68组，RTX

3070是46组。

在之前的GA100大核心中，每组SM是64个INT32单元、64个FP32单元及32个FP64单元组成的，但在GA102核心中，FP64单元大幅减少，增加了RT Core，Tensor Core也略微减少。

GA102核心的SM单元

按照之前图灵GPU的路线走，安培GPU的SM单元增加的并不多，但实际上FP32性能翻倍了还多，算上频率，RTX 3080的理论性能差不多是RTX 2080的三倍了，这是怎么做到的？

答案就是CUDA核心的FP32翻倍，但翻倍的方式有点特殊，每个SM单元中有4个分区，每个分区除了第三代Tensor

Core核心之外，还有一组是16个FP32单元及16个FP32、16个IN32组成的单元，后者可以同时执行FP32或者INT32运算。

16个FP32单元每周期可执行16个FP32运算，混合的那个单元可以执行32个FP32或者16个FP32+16个INT32。

如此一来，每个SM单元可以同时执行4x（16FP32+16FP32）=128个FP32运算，或者4x（16FP32+16INT32）=64个FP32+64个INT32运算。

只算FP32浮点的话，那么就是浮点翻倍了，因为图灵以及GA100都是每周期64个FP32浮点而已，现在可以做128个FP32运算了。

提升FP32性能不论对游戏还是运算都大有裨益，但也需要配套的提升，GA102的L1容量提升了33%，L1带宽从116GB/s翻倍到219GB/s，共享内存的性能也从每周期64B翻倍到128B。

安培GPU架构详解之：RTX光追升级从能用到好用

上代的图灵GPU架构最大的亮点就是引入了RTX实时光追技术，开启了3D游戏的光追时代，意义重大。

但是先行者的代价也不小，而且图灵GPU的光追效果在实际游戏中并不明显，对性能的影响颇大，第一代RTX光追只能说解决了有无问题，现在的安培GPU才是RTX光追更好用。

在图灵GPU上，NVIDIA使用的第一代RT

Core可以提供10Giga Rays/s的性能，而在安培GPU上，RT Core升级到了第二代，号称性能翻倍，仅此一点就可以大幅提升光追性能了。

图灵GPU光追架构

安培GPU光追

不过这还不够，在安培GPU上，参与光追应用加速的不只是SM单元、RT单元了，第三代Tensor Core单元也更多的参与其中，而安培架构中SM、RT、Tensor单元的性能都是大幅提升的，以RTX 3080为例，SM单元性能11T提升到了30T，RT性能从上代34T提升到了58T，Tensor性能从89暴涨到238T。

这带来的一个结果就是光追性能大幅提升，不支持硬件加速的Pascal GPU渲染一帧要51ms，图灵可以提升到19ms，加上DLSS等可以缩短到13ms，已经大大低于60fps所需的16.6ms帧时间了。

在安培GPU上，时间还可以更快，单纯硬件加速就可以从13ms缩短到7.5ms，加上第二代技术的加成就只有6.7ms了。

总之，在RT光追性能上，不说没有硬件加速的Pascal显卡，对比RTX 2080到RTX 3080的变化，软件渲染的性能提升了40%，硬件加速的话提升70%，硬件加速+DLSS也提升了70%，再加上其他技术的辅助，最高可以提升90%的光追性能。

目前还没有实际评测解禁，具体游戏中的提升还不好说，但是刨去官方测试的理想状态，光追性能提升个50%应该无压力，这足以让当前的光追游戏更具实用性，不再是开了RTX性能就大幅下降的情况了。

至于我们可以预期，以前1080p 30fps运行的光追游戏在今年可以实现1080p 60或者2K 144流畅运行了，可用性至少提高一个等级，从凑合能用变得更好用了。

30系显卡浅析（前）

30系显卡浅析（前）

相关阅读更多精彩内容

友情链接更多精彩内容