NVIDIA RTX 3080顯卡怎么樣 NVIDIA RTX 3080顯卡詳細評測

在9月2日的發(fā)布會中,黃仁勛先生不止一次強調(diào)了“這是有史以來最偉大性能提升”。而從發(fā)布會展示的效果來看,RTX 30系顯卡用雙倍加量不加價來形容都不為過。并且第二代RTX的Ampere架構所帶來最直接的變化就是在性能方面暴漲,所以發(fā)布會前的種種煙霧彈也就顯而易見了,下面筆者就給大家?guī)鞱VIDIA GeForce RTX 3080的首發(fā)評測。
01 NVIDIA GeForce RTX 3080 外觀
下面我們先來看看這次NVIDIA RTX 3080 顯卡的外觀,首先在外包裝上,一向是NV的極簡風格,方方正正的硬紙盒子,主色調(diào)以黑色為主,輔以玫瑰金色紋路,而這次NVIDIA也罕見的沒有用綠色,整體看起來有點像Tesla V100。
外包裝與顯卡
入手顯卡之后,給人的第一感覺就是質(zhì)感極強,堪稱工業(yè)設計典范。在發(fā)布會當中我們也看到此次的RTX 30系顯卡在外觀方面做了極大改變,卡身大面積被散熱鰭片覆蓋。
而在拿到顯卡后,我居然發(fā)現(xiàn)所有散熱鰭片上都有啞光涂層,所以觸感更偏溫潤。而顯卡的外殼部分,采用了大面積的金屬包裹,表面為磨砂材質(zhì)。
散熱鰭片全部采用了啞光涂層
NVIDIA這款RTX 3080拿在手里給人的第一感覺就是——完美。這絕對是件藝術品,雖然以往在公版評測的時候我們都會驚嘆其做工精致,但像這次如此巧妙地將大面積的金屬融合在一起,形成剛?cè)岵^對在設計之初下了很大功夫,而這種效果弄不好就會成為一個“鐵疙瘩”。
GeForce RTX 3080外觀展示
之所以RTX 30系顯卡的外觀需要大改,是因為在散熱方面同樣做了顛覆性的設計。它采用了雙軸流式設計,RTX 3080主動散熱的風扇為一前一后,根據(jù)官方數(shù)據(jù),空氣流量相較于之前的設計增加55%,散熱效率提升30%,靜音效果提升至3倍。
散熱系統(tǒng)示意
具體的工作原理如上圖所示,這也是NVIDIA顯卡第一次將散熱系統(tǒng)與機箱整體散熱結(jié)合,形成協(xié)同工作。
散熱系統(tǒng)工作原理
新的散熱系統(tǒng),可以吸入外部的冷空氣,流經(jīng)GPU,并將熱空氣直接從機箱背部排出。另一個背面拉動式風扇同樣吸入冷空氣,但流經(jīng)熱管上的散熱鰭片,并通過機箱整體的散熱系統(tǒng)引導至機箱背部排出。
PCB版對比
在顯卡內(nèi)部的PCB板上NVIDIA也做了非常大的調(diào)整,為了搭配新的散熱系統(tǒng),此次采用了超高密度的PCB板設計,前端為“V”字造型,體積較之前縮小了50%。
從圖中可以看到板子上密密麻麻的元件排布,中間為RTX 3080的核心,四周分布10顆顯存顆粒,同時還有兩個空焊位置。
GeForce RTX 3080 PCB大圖
18相供電依次排列在芯片左右兩側(cè),鉭電容分布在邊邊角角的位置。另外供電接口可以看到位于整塊板子的右上方,其空間也真的只能容納下單接口了,可以說整塊PCB板幾乎沒有任何富裕位置。
內(nèi)附的供電轉(zhuǎn)接線
由于本次公版顯卡采用了單12pin的供電接口,為了方便適配玩家現(xiàn)有的電源,包裝內(nèi)還附帶了一根轉(zhuǎn)接線,可以將單12pin專為8+8pin,不過由于接口的方向設計,會正好擋住“GeForce RTX”的信仰logo,略微有些瑕疵。
02 NVIDIA Ampere架構帶來的變化
下面我們就來看看,“有史以來最偉大性能提升”相比第一代的RTX Turing架構,NVIDIA Ampere會有哪些變化吧。
第一代RTX架構 Turing
第二代RTX架構 Ampere
首先來簡單回顧一下在9月2日發(fā)布會的PPT上我們都看到了什么,相較于初代的Turing RTX架構,NVIDIA Ampere架構在算力上有著成倍的增長,每個時鐘執(zhí)行2次著色器運算,而Turing為1次,著色器性能達到30 TFLOPS單精度性能,而Turing為11 TFLOPS。
NVIDIA Ampere架構翻倍了光線與三角形的相交吞吐量,RT Core達到58 RT TFLOPS,而Turing為34 RT TFLOPS。
另外在全新的Tensor Core中,可自動識別并消除不太重要的DNN權重,處理稀疏網(wǎng)絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
芯片說明
全新的NVIDIA Ampere GPU核心擁有280億個晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構成了有史以來性能最強大的Ampere。
而NVIDIA Ampere架構的強大性能并不是NVIDIA一蹴而就,可以說在20系顯卡中所采用的Turing架構功不可沒,下面我們先來看看完整的GA102核心。
完整的GA102核心
完整的GA102 GPU包含7個GPC(圖形處理集群)42個TPC(紋理處理集群)以及84個SM(流處理器)組成。GPC是占據(jù)主導地位的高級模塊,擁有所有的關鍵圖形處理單元,每個GPC包含一個專用光柵引擎。在新的NVIDIA Ampere架構中,每個GPC還包含了兩個ROP分區(qū),每個分區(qū)包含8個ROP單元。下面我們來看看每個SM單元的變化。
SM詳解
在每個SM中,包含四個大的處理分區(qū)共128個CUDA核心,4個第三代Tensor Core,1個第二代RT Core,1個256 KB的緩存文件,1個128 KB的L1緩存,這個L1緩存可以根據(jù)不同的工作需求來調(diào)配緩存,工作效率發(fā)揮至最大。
另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個,而RTX 3090的CUDA數(shù)量更是達到了驚人的10496個,但是大家要知道專業(yè)計算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個CUDA,那RTX 3080又是如何達到這種效果的呢?
其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數(shù)量提高了一倍。
完整的GeForce RTX 3080核心
而通常我們計算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來計數(shù),而是只統(tǒng)計FP32單元的數(shù)量,所以這樣一來答案就顯而易見了,SM中的FP32 : INT32 從 1:1 變?yōu)?2:1,如RTX 3080的8704個CUDA,其實它只有4352個INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實現(xiàn)了8704這個驚人的數(shù)字。
不過這樣究竟算不算“虛標”?其實對于現(xiàn)在的游戲來說,浮點運算相比整數(shù)計算要常用的多,所以翻倍的FP32真的能帶來性能翻倍的提升。
光追工作原理示意
在此次的NVIDIA Ampere架構中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請求,交給RT Core來處理,它將進行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)?;贐VH算法來判斷,如果是方形,那么就返回縮小范圍繼續(xù)測試,如果是三角形,則反饋結(jié)果進行渲染。
而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進行加速。
RT Core的變化
在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。
運動模糊渲染原理
第二代RT Core可以讓光線追蹤與著色同時進行,進行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態(tài)模糊的影像時,按照NVIDIA自己的實測,比Turing快8倍。
稀疏深度學習
除了光線追蹤的強化,Ampere架構的Tensor Core也得到了極大地加強,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡)權重,同時依然能保持不錯的精度。
首先原始的密集矩陣會經(jīng)過訓練,刪除掉稀疏矩陣,再經(jīng)過訓練稀疏矩陣,從而實現(xiàn)稀疏優(yōu)化,進而提高Tensor Core的性能。
第三代Tensor Core的處理能力大大提升
所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
同時在發(fā)布會中,黃仁勛還提到了一項新技術——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間,對于存儲空間的負擔暫且不提,但存放在硬盤中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù),經(jīng)過解壓縮再發(fā)送到顯存中。
傳統(tǒng)的數(shù)據(jù)交換
在這個過程中,會占用多個CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時其實GPU是處于閑置狀態(tài)的。RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。
RTX IO可以極大解放CPU負擔
相關文章
NVIDIA RTX3080值得入手嗎 NVIDIA RTX3080顯卡詳細評測
NVIDIA RTX3080顯卡怎么樣?性能如何?玩游戲卡不卡?值得買嗎?下面小編帶來NVIDIA RTX3080顯卡詳細評測2020-09-17NVIDIA 30系顯卡怎么樣 NVIDIA 30系顯卡發(fā)布會內(nèi)容詳解
NVIDIA這場發(fā)布會簡短精悍節(jié)奏緊湊,滿打滿算不過40分鐘,但NVIDIA CEO黃仁勛先生的每一句話都值得細細品味,乃至反復觀看,一起看看吧2020-09-02英偉達 RTX 30 顯卡值得入手嗎 一文看懂英偉達 RTX 30 系顯卡
英偉達 RTX 30 顯卡值得入手嗎?9月2日凌晨消息,英偉達在線上舉行發(fā)布會,正式發(fā)布了GeForce RTX 30系顯卡。下文中為大家?guī)砹擞ミ_ RTX 30 系顯卡詳細介紹,感興趣的朋2020-09-02win10 2004系統(tǒng)顯卡驅(qū)動報錯怎么辦 顯卡驅(qū)動報錯的原因和解決方法
最近很多win10 2004系統(tǒng)的朋友遇到了不少的問題,最為常見的就是顯卡驅(qū)動總是報錯,那么是什么原因造成的顯卡報錯呢?又該如何解決win10 2004顯卡驅(qū)動報錯呢?還有不知道的2020-08-07影馳GTX 1650 Ultra驍將顯卡怎么樣 影馳GTX 1650 Ultra驍將評測
今天給大家?guī)淼氖菐ltra后綴的1650驍將顯卡,這是一張入門甜品卡,一起看看吧2020-08-06藍寶石RX570白金 4G版怎么樣 藍寶石RX570白金 4G版顯卡介紹
藍寶石RX 570 4G D5白金OC顯卡采用了AMD全新14nm工藝的Polaris 20 XL核心,顯卡的顯存規(guī)格為4GB/256-Bit,核心頻率為1244-1284MHz,搭載了2048個流處理器,一起看看吧2020-07-27AMD GPU RX-5300M顯卡怎么樣?AMD GPU RX-5300M顯卡詳細測試
外媒 Notebookcheck 現(xiàn)已發(fā)布了微星 Bravo 15 的評測,這款筆記本搭載了 R7 4800H 和 RX 5300M 顯卡。一起來看一下這款 AMD 移動端入門級顯卡表現(xiàn)如何吧2020-07-15性能強大燈效炫目 七彩虹RTX 2080 SUPER顯卡評測
最近,微軟正式公布了DX12 Ultimate,新增對DXR 1.1光線追蹤的支持,提高了光追游戲的性能,所以我就在上個月入手了七彩虹iGame GeForce RTX 2080 SUPER Vulcan X OC,一起2020-07-07暢玩光線追蹤游戲 iGame RTX 2060 SUPER顯卡評測
隨著3A大作游戲的不斷涌進,所帶來極致光效的渲染畫面也是讓人為之驚嘆,而七彩虹iGame GeForce RTX 2060 SUPER Vulcan X OC作為熱賣的甜品級顯卡之一,不僅外觀炫彩華麗,2020-07-01技嘉GTX1650顯卡怎么樣 技嘉GTX1650 EAGLE OC-4GD DDR6顯卡評測
技嘉GTX1650顯卡怎么樣?性能如何?適合玩游戲嗎?值不值得買?下面小編帶來技嘉GTX1650 EAGLE OC-4GD DDR6顯卡評測2020-06-29