30系显卡浅析(前)

转载自:https://www.zhihu.com/question/32716735?sort=created

学号:20021210601      姓名:韦苏恒

【嵌牛导读】浅析NVIDIA新一代30系显卡。

【嵌牛鼻子】RTX3070  RTX3080  RTX3090

【嵌牛正文】

  在当前的显卡市场上,占据80%的NVIDIA公司被玩家爱且恨着——他们带来了最近十多年来最好的显卡,同时也让高端游戏卡的价格不断上涨,如今RTX 3090已是五位数起。

    在RTX 30系列显卡发布之后,玩家的不满似乎释然了,相比当前的图灵显卡,安培架构的RTX

    3090/3080/3070显卡一下子变得真香了,因为它们性能翻倍不说,国内价格反而下降了。

·GeForce RTX 3090:取代RTX Titan,相比于Titan

RTX快了50%,性能是RTX 2080 Ti显卡的2倍,配备24GB GDDR6X显存,售价11999元,9月24日上市。

·GeForce RTX 3080:取代RTX 2080 Ti,相比于RTX

2080性能快2倍,搭配10GB GDDR6X显存,海外699美元没变,国内从上代6499降至5499元,9月17日上市。

·GeForce RTX 3070:价格不到RTX 2080 Ti的一半,但是平均性能更高,同时比RTX 2070快足足60%,配备8GB

GDDR6显存,售价3899元,10月份上市。

RTX30系列显卡售价及上市时间

RTX30系列显卡性能变化

RTX

30系列显卡规格

    从这个规格表中可以看出,与RTX 2080 Ti显卡相比,RTX 3090的标志性FP32性能从13.4T提升到了35.7T,翻倍还多,光追及AI加速提升也同样明显。

    与图灵显卡相比,安培GPU的变化之大让人惊讶,在过去十多年的显卡升级换代中,性能翻倍的提升很少见到了,NVIDA是怎么做到的?

    今天我们就来从详细解读一下安培GPU的架构,探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。

    先从工艺说起:12nm干掉7nm之后 8nm如何再进一步

    对于半导体芯片来说,很关键的一部分是制程工艺,先进的架构也要通过工艺来实现,这是影响芯片能效、性能甚至成本的一大因素。

    对NVIDIA来说,他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了,这是台积电16nm工艺的改进版,如果再算上16nm的Pascal架构,实际上过去三代GPU都没有重大工艺上的升级了。

    在Ampere安培架构上,NVIDIA终于升级工艺了,只不过这次有两个意外——首先没有选择台积电,其次没有上7nm,而是三星定制的8nm工艺,虽然跟7nm看起来只差了1nm,但实际上是两代工艺。

    考虑到NVIDIA之前对工艺的表态,没用7nm工艺而是三星8nm工艺又在意料之中,最关键的问题在于NVIDIA能够做到多好。

    三星的8nm工艺是基于10nm工艺改良的,至少有LPP和LPU两个版本,前者适合移动SoC,后者适合高性能芯片,NVIDIA的定制大概是基于后者。

    与台积电的7nm工艺晶体管密度大约1亿/mm2相比,8nm工艺大概是6000万晶体管/mm2,但这是单一的SRAM芯片的对比,实际上GPU芯片比较复杂,差距会缩小很多。

    根据是NVIDIA公布的信息,台积电7nm工艺制造的安培A100核心是540亿晶体管,核心面积826mm2,而三星8nm工艺制造的GA102核心是280亿晶体管,核心面积官方没公布,据悉是628mm2,也是大核心了。

    这么算下来,7nm A100核心的晶体管密度6560万晶体管/mm2,而三星8nm的GA102核心也有4460万晶体管/mm2——差距仍在,但似乎可以接受了。

    三星8nm工艺的晶圆代工价格还是秘密,但是不论技术还是商业策略上,三星都会比台积电便宜很多,预计代工价格能差30%或者更高,所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。

    那三星8nm工艺带来了多大的性能及能效提升呢?首先大家可以看到RTX 30系列显卡的频率提升了,从RTX 20系列的1.5GHz+提升到了1.7GHz+,升级工艺还是有性能提升的。

    不过RTX 20系列的加速频率实际可以达到1.9GHz甚至接近2GHz,RTX 30系列预计也就这个水平。

    但是能效还是有提升的,NVIDIA官方称在60fps性能下,图灵显卡的功耗大约有240W,安培显卡则是120W多点,算下来是1.9倍能效,提升了90%,同时温度还低了3度,噪音减少2分贝。

    总的来说,在工艺这方面大家对安培GPU有惊喜有失望,失望的是没有上预期中的7nm工艺(不管台积电还是三星),工艺依然升级到了8nm。

    但是NVIDIA工艺虽然并不算激进,但性能、能效进步还是挺大的,安培显卡各方面指标都是大幅胜过现在的图灵卡,而且价格做到了不升反降,这也是不追求激进工艺的好处,反正之前12nm都能赢,现在上8nm更加稳妥了。

安培GPU架构详解之:FP32单元翻倍CUDA核心改了什么?

    发布安培的时候,NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃,而2018年推出图灵GPU时,老黄也是类似的说词——GPU有史以来最大的变革,这两个评价其实也没错。

    图灵GPU架构有很多第一次,首次支持RTX Core(光追加速单元),首次支持Tensor Core,同时还改进了CUDA内核,不过前两个是重点。

在安培GPU上,RT Core、Tensor

    Core当然继续加强,不过最主要的亮点是CUDA架构的改进,性能翻倍的根源就在这里,我们先来看看这方面的变化。

GA102核心架构示意图

    GA102核心总计7组GPC单元,每组有12组SM单元,总计84组,RTX 30系列显卡视乎规格不同启用的SM单元总数不同,RTX 3090是82组,RTX 3080是68组,RTX

3070是46组。

    在之前的GA100大核心中,每组SM是64个INT32单元、64个FP32单元及32个FP64单元组成的,但在GA102核心中,FP64单元大幅减少,增加了RT Core,Tensor Core也略微减少。

GA102核心的SM单元

    按照之前图灵GPU的路线走,安培GPU的SM单元增加的并不多,但实际上FP32性能翻倍了还多,算上频率,RTX 3080的理论性能差不多是RTX 2080的三倍了,这是怎么做到的?

    答案就是CUDA核心的FP32翻倍,但翻倍的方式有点特殊,每个SM单元中有4个分区,每个分区除了第三代Tensor

    Core核心之外,还有一组是16个FP32单元及16个FP32、16个IN32组成的单元,后者可以同时执行FP32或者INT32运算。

    16个FP32单元每周期可执行16个FP32运算,混合的那个单元可以执行32个FP32或者16个FP32+16个INT32。

    如此一来,每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算,或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。

    只算FP32浮点的话,那么就是浮点翻倍了,因为图灵以及GA100都是每周期64个FP32浮点而已,现在可以做128个FP32运算了。

    提升FP32性能不论对游戏还是运算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1带宽从116GB/s翻倍到219GB/s,共享内存的性能也从每周期64B翻倍到128B。


安培GPU架构详解之:RTX光追升级 从能用到好用

    上代的图灵GPU架构最大的亮点就是引入了RTX实时光追技术,开启了3D游戏的光追时代,意义重大。

    但是先行者的代价也不小,而且图灵GPU的光追效果在实际游戏中并不明显,对性能的影响颇大,第一代RTX光追只能说解决了有无问题,现在的安培GPU才是RTX光追更好用。

在图灵GPU上,NVIDIA使用的第一代RT

    Core可以提供10Giga Rays/s的性能,而在安培GPU上,RT Core升级到了第二代,号称性能翻倍,仅此一点就可以大幅提升光追性能了。

图灵GPU光追架构

安培GPU光追

    不过这还不够,在安培GPU上,参与光追应用加速的不只是SM单元、RT单元了,第三代Tensor Core单元也更多的参与其中,而安培架构中SM、RT、Tensor单元的性能都是大幅提升的,以RTX 3080为例,SM单元性能11T提升到了30T,RT性能从上代34T提升到了58T,Tensor性能从89暴涨到238T。

    这带来的一个结果就是光追性能大幅提升,不支持硬件加速的Pascal GPU渲染一帧要51ms,图灵可以提升到19ms,加上DLSS等可以缩短到13ms,已经大大低于60fps所需的16.6ms帧时间了。

    在安培GPU上,时间还可以更快,单纯硬件加速就可以从13ms缩短到7.5ms,加上第二代技术的加成就只有6.7ms了。

    总之,在RT光追性能上,不说没有硬件加速的Pascal显卡,对比RTX 2080到RTX 3080的变化,软件渲染的性能提升了40%,硬件加速的话提升70%,硬件加速+DLSS也提升了70%,再加上其他技术的辅助,最高可以提升90%的光追性能。

    目前还没有实际评测解禁,具体游戏中的提升还不好说,但是刨去官方测试的理想状态,光追性能提升个50%应该无压力,这足以让当前的光追游戏更具实用性,不再是开了RTX性能就大幅下降的情况了。

    至于我们可以预期,以前1080p 30fps运行的光追游戏在今年可以实现1080p 60或者2K 144流畅运行了,可用性至少提高一个等级,从凑合能用变得更好用了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容