持續(xù)了一個月的“顯卡發(fā)布季”已經(jīng)告一段落,截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個型號的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。
除了性能上的提升,新的NVIDIA Ampere架構(gòu)還帶來了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價格卻與上一代顯卡相同。
在9月2日發(fā)布會當(dāng)天,雖然過程僅有短短的40分鐘,卻震驚了全世界的用戶。
算力提升
下面我們就來看看,“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu),做了哪些提升。
第一代RTX架構(gòu)Turing
第二代RTX架構(gòu) Ampere
首先來簡單回顧一下在9月2日發(fā)布會的PPT上我們都看到了什么,相較于初代的Turing RTX架構(gòu),NVIDIA Ampere架構(gòu)在算力上有著成倍的增長,每個時鐘執(zhí)行2次著色器運(yùn)算。
而Turing為1次,著色器性能達(dá)到30 TFLOPS單精度性能,而Turing為11 TFLOPS。
NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量,RT Core達(dá)到58 RT TFLOPS,而Turing為34 RT TFLOPS。
另外在全新的Tensor Core中,可自動識別并消除不太重要的DNN權(quán)重,處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
全新的NVIDIA Ampere GPU核心擁有280億個晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構(gòu)成了有史以來性能最強(qiáng)大的Ampere。
SM單元的改變
而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就,可以說在20系顯卡中所采用的Turing架構(gòu)功不可沒,下面我們先來看看完整的GA102核心。
完整的GA102 GPU包含7個GPC(圖形處理集群)42個TPC(紋理處理集群)以及84個SM(流處理器)組成。
GPC是占據(jù)主導(dǎo)地位的高級模塊,擁有所有的關(guān)鍵圖形處理單元,每個GPC包含一個專用光柵引擎。
在新的NVIDIA Ampere架構(gòu)中,每個GPC還包含了兩個ROP分區(qū),每個分區(qū)包含8個ROP單元。下面我們來看看每個SM單元的變化。
在每個SM中,包含四個大的處理分區(qū)共128個CUDA核心,4個第三代Tensor Core,1個第二代RT Core,1個256 KB的緩存文件,1個128 KB的L1緩存,這個L1緩存可以根據(jù)不同的工作需求來調(diào)配緩存,工作效率發(fā)揮至最大。
另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個,而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個。
但是大家要知道專業(yè)計算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個CUDA,那RTX 3080又是如何達(dá)到這種效果的呢?
其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個SM的FP32運(yùn)算單元數(shù)量提高了一倍。
我們在發(fā)布會中經(jīng)常聽到性能翻倍的說法,其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個SM的FP32運(yùn)算單元數(shù)量提高了一倍,同時吞吐量也就變?yōu)榱艘槐丁?/p>
而通常我們計算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來計數(shù),而是只統(tǒng)計FP32單元的數(shù)量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變?yōu)?2:1。
如RTX 3080的8704個CUDA,其實(shí)它只有4352個INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實(shí)現(xiàn)了8704這個驚人的數(shù)字。
而這樣粗暴的提升CUDA數(shù)量對于游戲有幫助嗎?
答案是有,不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計算要常用的多,圖形、算法以及各種計算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令,而FP32的加速也有助于光線追蹤降噪著色器。
第二代RT Core
在此次的NVIDIA Ampere架構(gòu)中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。
首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請求,交給RT Core來處理,它將進(jìn)行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)。
基于BVH算法來判斷,如果是方形,那么就返回縮小范圍繼續(xù)測試,如果是三角形,則反饋結(jié)果進(jìn)行渲染。
而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進(jìn)行加速。
在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運(yùn)動模糊特效時候的光線追蹤性能。
第二代RT Core可以讓光線追蹤與著色同時進(jìn)行,進(jìn)行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態(tài)模糊的影像時,按照NVIDIA自己的實(shí)測,比Turing快8倍。
第三代Tensor Core
除了光線追蹤的強(qiáng)化,Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng),在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡(luò))權(quán)重,同時依然能保持不錯的精度。
首先原始的密集矩陣會經(jīng)過訓(xùn)練,刪除掉稀疏矩陣,再經(jīng)過訓(xùn)練稀疏矩陣,從而實(shí)現(xiàn)稀疏優(yōu)化,進(jìn)而提高Tensor Core的性能。
所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
RTX IO
與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間,對于存儲空間的負(fù)擔(dān)暫且不提,但存放在硬盤中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù),經(jīng)過解壓縮再發(fā)送到顯存中。
雖然隨著NVMe SSD的推出,讀取速度相較機(jī)械硬盤能夠快20倍,但受制于傳統(tǒng)I/O限制,NVMe高達(dá)7GB/秒的高速讀寫對于CPU是極大的負(fù)擔(dān)。
在這個過程中,會占用多個CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時其實(shí)GPU是處于閑置狀態(tài)的。
RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。
當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變,還需要借助微軟發(fā)布的DirectStorage來實(shí)現(xiàn),對于目前容量的游戲來說,RTX IO的改善效果有限,但假以時日等游戲容量上百G成為常態(tài)的時候,這項(xiàng)技術(shù)將會發(fā)揮巨大的功效。
最快的顯存
在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。
這對于需要大量數(shù)據(jù)負(fù)載的工作尤為重要,如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。
同時搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。
相信了解RTX 30系顯卡的性能后,會有玩家會問,RTX 20系顯卡如此“短壽”算不算失敗的一代,我認(rèn)為不算。
Turing為我們開創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界,奠定了GPU未來的發(fā)展方向,真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。
而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實(shí)。
責(zé)任編輯:PSY
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5598瀏覽量
109809 -
顯卡
+關(guān)注
關(guān)注
16文章
2521瀏覽量
71526 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
532瀏覽量
26595 -
Ampere
+關(guān)注
關(guān)注
1文章
81瀏覽量
4892
發(fā)布評論請先 登錄
長晶科技推出新一代SGT 30V MOSFET
亞馬遜新一代自研服務(wù)器芯片Graviton5問世,性能提升25%
NVIDIA Jetson AGX Thor Developer Kit開發(fā)環(huán)境配置指南
NVIDIA推出NVQLink高速互連架構(gòu)
國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?
使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
泰克示波器MSO6B與上一代MSO5對比
NVIDIA 采用納微半導(dǎo)體開發(fā)新一代數(shù)據(jù)中心電源架構(gòu) 800V HVDC 方案,賦能下一代AI兆瓦級算力需求
NVIDIA Ampere架構(gòu)解析:相比上一代做了哪些提升
評論