toupai999,国产91人妻在线观看

持續(xù)了一個月的“顯卡發(fā)布季”已經(jīng)告一段落，截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個型號的顯卡，相比上一代顯卡，RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升，新的NVIDIA Ampere架構(gòu)還帶來了第二代RT Core和第三代Tensor，雖然RTX 30系顯卡擁有諸多提升，但價格卻與上一代顯卡相同。

在9月2日發(fā)布會當(dāng)天，雖然過程僅有短短的40分鐘，卻震驚了全世界的用戶。

算力提升

下面我們就來看看，“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu)，做了哪些提升。

第一代RTX架構(gòu)Turing

第二代RTX架構(gòu) Ampere

首先來簡單回顧一下在9月2日發(fā)布會的PPT上我們都看到了什么，相較于初代的Turing RTX架構(gòu)，NVIDIA Ampere架構(gòu)在算力上有著成倍的增長，每個時鐘執(zhí)行2次著色器運(yùn)算。

而Turing為1次，著色器性能達(dá)到30 TFLOPS單精度性能，而Turing為11 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量，RT Core達(dá)到58 RT TFLOPS，而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中，可自動識別并消除不太重要的DNN權(quán)重，處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達(dá)238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個晶體管，628平方毫米的面積，基于三星的8nm NVIDIA定制工藝，來自美光的GDDR6X顯存，以及我們上面說的，三大處理核心均為初代Turing的兩倍速率，構(gòu)成了有史以來性能最強(qiáng)大的Ampere。

SM單元的改變

而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就，可以說在20系顯卡中所采用的Turing架構(gòu)功不可沒，下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個GPC（圖形處理集群）42個TPC（紋理處理集群）以及84個SM（流處理器）組成。

GPC是占據(jù)主導(dǎo)地位的高級模塊，擁有所有的關(guān)鍵圖形處理單元，每個GPC包含一個專用光柵引擎。

在新的NVIDIA Ampere架構(gòu)中，每個GPC還包含了兩個ROP分區(qū)，每個分區(qū)包含8個ROP單元。下面我們來看看每個SM單元的變化。

在每個SM中，包含四個大的處理分區(qū)共128個CUDA核心，4個第三代Tensor Core，1個第二代RT Core，1個256 KB的緩存文件，1個128 KB的L1緩存，這個L1緩存可以根據(jù)不同的工作需求來調(diào)配緩存，工作效率發(fā)揮至最大。

另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個，而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個。

但是大家要知道專業(yè)計算卡Tesla A100的GA100核心，擁有更大的核心面積，更多的晶體管數(shù)量，理論上只有8192個CUDA，那RTX 3080又是如何達(dá)到這種效果的呢？

其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元，這就使得每個SM的FP32運(yùn)算單元數(shù)量提高了一倍。

我們在發(fā)布會中經(jīng)常聽到性能翻倍的說法，其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元，這就使得每個SM的FP32運(yùn)算單元數(shù)量提高了一倍，同時吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計算顯卡的CUDA數(shù)量，并不是把SM中的所有單元加起來計數(shù)，而是只統(tǒng)計FP32單元的數(shù)量，所以這樣一來，SM中的【FP32 ： INT32】從 1:1 變?yōu)?2:1。

如RTX 3080的8704個CUDA，其實(shí)它只有4352個INT32單元，但由于內(nèi)部的FP32數(shù)量翻了一倍，所以最終實(shí)現(xiàn)了8704這個驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對于游戲有幫助嗎？

答案是有，不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計算要常用的多，圖形、算法以及各種計算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令，而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構(gòu)中，NVIDIA官方宣布為第二代RT Core，它和第一代有什么不同呢。

首先要知道RT Core的工作原理是，著色器發(fā)出光線追蹤的請求，交給RT Core來處理，它將進(jìn)行兩種測試，分別為邊界交叉測試（Box Intersection testing）和三角形交叉測試（Triangle Intersection testing）。

基于BVH算法來判斷，如果是方形，那么就返回縮小范圍繼續(xù)測試，如果是三角形，則反饋結(jié)果進(jìn)行渲染。

而光線追蹤最耗時的正是求交計算，因此，要提升光線追蹤性能，主要是對兩種求交（BVH/三角形求交）進(jìn)行加速。

在Turing的RT Core中，可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊，這樣做的目的是為了提升諸如運(yùn)動模糊特效時候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時進(jìn)行，進(jìn)行的光線追蹤越多，加速就越快，它將光線相交的處理性能提升了一倍，在渲染有動態(tài)模糊的影像時，按照NVIDIA自己的實(shí)測，比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強(qiáng)化，Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng)，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自動識別并消除不太重要的DNN（深度神經(jīng)網(wǎng)絡(luò)）權(quán)重，同時依然能保持不錯的精度。

首先原始的密集矩陣會經(jīng)過訓(xùn)練，刪除掉稀疏矩陣，再經(jīng)過訓(xùn)練稀疏矩陣，從而實(shí)現(xiàn)稀疏優(yōu)化，進(jìn)而提高Tensor Core的性能。

所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達(dá)238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間，對于存儲空間的負(fù)擔(dān)暫且不提，但存放在硬盤中的數(shù)據(jù)，如果顯卡想要讀取到，需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù)，經(jīng)過解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出，讀取速度相較機(jī)械硬盤能夠快20倍，但受制于傳統(tǒng)I/O限制，NVMe高達(dá)7GB/秒的高速讀寫對于CPU是極大的負(fù)擔(dān)。

在這個過程中，會占用多個CPU核心，壓力急劇增大，占用較多的內(nèi)存，而此時其實(shí)GPU是處于閑置狀態(tài)的。

RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步，直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù)，并且完成解壓，降低CPU占用，變向提升了性能。

當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變，還需要借助微軟發(fā)布的DirectStorage來實(shí)現(xiàn)，對于目前容量的游戲來說，RTX IO的改善效果有限，但假以時日等游戲容量上百G成為常態(tài)的時候，這項(xiàng)技術(shù)將會發(fā)揮巨大的功效。

最快的顯存

在RTX 3080中，采用了GDDR6X顯存，GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度，與采用GDDR6的Turing相比可提升40%的速度，在相同時間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。

這對于需要大量數(shù)據(jù)負(fù)載的工作尤為重要，如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。

同時搭配新增的HDMI2.1接口，可以支持單線8K的視頻輸出，而上一代HDMI2.0僅支持4K 98Hz的視頻輸出，如果想要連接8K電視，則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后，會有玩家會問，RTX 20系顯卡如此“短壽”算不算失敗的一代，我認(rèn)為不算。

Turing為我們開創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界，奠定了GPU未來的發(fā)展方向，真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。

而Ampere則是站在巨人的肩膀，將上一代的路走的更寬更扎實(shí)。

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5598

瀏覽量
109809
顯卡

顯卡

+關(guān)注

關(guān)注
16

文章
2521

瀏覽量
71526
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
532

瀏覽量
26595
Ampere

Ampere

+關(guān)注

關(guān)注
1

文章
81

瀏覽量
4892

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

NVIDIA Ampere架構(gòu)解析：相比上一代做了哪些提升

評論