性能飆升12.5倍! Intel銳炫B580/B570顯卡性能測評

Intel今天正式發(fā)布了代號Battlemage的第二代銳炫B系列顯卡,首發(fā)兩型號銳炫B580、B570,而此時距離第一代A系列最初登場已經(jīng)兩年多了。
兩款新品定位主流市場,主要面向2K超高畫質(zhì)游戲玩家,大致對標(biāo)NVIDIA RTX 4060系列、AMD RX 7600系列。
因為根據(jù)Intel提供的數(shù)據(jù),1080p在游戲玩家中的占比逐年遞減,如今已經(jīng)降至56%,2K分辨率則增長到了22%,預(yù)計到2026年即可實現(xiàn)反超。
這一代,Intel主打三個亮點:最佳性價比、XeSS 2、AI加速。我們會逐一和大家介紹。
新的Xe2架構(gòu)在前代Xe基礎(chǔ)上進(jìn)行大量的優(yōu)化改進(jìn),尤其是投入了大量精力對架構(gòu)的兼容性和軟件開銷進(jìn)行重構(gòu)和優(yōu)化。
Xe2不僅進(jìn)一步提升了軟件的適配性,還增強(qiáng)了架構(gòu)的效率,提高了資源利用率,特別是減輕了軟件對硬件的開銷。
先來看一下兩款新卡的公版規(guī)格,后邊再講架構(gòu)和技術(shù)。
銳炫B580配備了20個新一代Xe2核心(分為5個切片),對比上代A580反而少了4個核心與1個切片,同時有20個光追單元、160個XXM AI引擎。
不過,核心頻率從1700MHz大幅提高到2670MHz,彌補(bǔ)了核心數(shù)量的不足,INT8算力性能從197 TOPS來到了233 TOPS,提升幅度約18%。
顯存位寬從256-bit降至192-bit,但是容量從8GB GDDR6擴(kuò)大到12GB GDDR6,等效頻率也從16GHz提高到19GHz,因此帶寬從512GB/s略微降至456GB/s。
整卡功耗190W,只增加了區(qū)區(qū)5W,從而大大提高了能效比,只需單個8針供電。
銳炫B570做了一部分精簡,配備18個Xe2核心、18個光追單元、144個XMX引擎,核心頻率略降至2500MHz,INT8算力性能203 TOPS。
搭配160-bit 10GB GDDR6顯存,等效頻率依然是19GHz,帶寬380GB/s,整卡功耗僅為150W。
系統(tǒng)總線接口很遺憾并不是PCIe 5.0,而且從PCIe 4.0 x16砍半為PCIe 4.0 x8,當(dāng)然對這種級別的卡來說影響可以忽略不計。
硬件解碼支持AV1、HEVC(H.265)、AVC(H.264)、VP9、XAVC-H,但是不支持更新的VVC(H.266)。
視頻輸出支持HDMI 2.1、DisplayPort 2.1 UHBR 13.5——上代是DP 2.0 UHBR 10。
官方宣稱,銳炫B580對比定位更高的銳炫A750,平均性能提升幅度可達(dá)24%。
特別是打開XeSS之后,提升更加明顯,《堡壘之夜》甚至可達(dá)78%,《刺客信條:幻景》也能有56%。
對比競品RTX 4060,平均領(lǐng)先幅度為10%,考慮到種種因素,可以大致視為二者基本在同一檔次,和RX 7600也基本差不多。
沒有達(dá)到之前預(yù)期的RTX 4060 Ti的水平,有點小遺憾。
不過無論對比RTX 4060還是RX 7600,銳炫B580的一個顯著優(yōu)勢就是顯存多了一半,在游戲中更不容易爆顯存,運行AI負(fù)載時也更有余力。
這一次,Intel依然打造了官方公版,也就是限量版。
仍舊是雙風(fēng)扇、雙插槽、黑色風(fēng)格,重點優(yōu)化了散熱設(shè)計,背面有一半都做了散熱格柵,風(fēng)流更大,噪音也更低。
首批合作伙伴除了老朋友宏碁、華擎、藍(lán)戟、撼與,還新增了兩家,一是常年主打高性價比的銘瑄,二是新的傲世創(chuàng)科(Onix)。
各品牌普遍都做了雙風(fēng)扇、三風(fēng)扇兩種設(shè)計,除了宏碁暫時只有一款雙風(fēng)扇,傲世創(chuàng)科則都是雙風(fēng)扇。
銳炫B580顯卡將于12月13日正式上市(12日晚評測解禁),定價249美元起。
要知道,銳炫A750兩年多前首發(fā)的時候,還是要289美元。
銳炫B570顯卡則要等到明年1月16日才會開賣,定價219美元起。
其實,Lunar Lake即酷睿Ultra 200V系列處理器中已經(jīng)率先應(yīng)用Xe2架構(gòu)的核顯,也就是銳炫140V、銳炫130V,如今終于來到了桌面獨立顯卡,未來還會陸續(xù)進(jìn)入筆記本獨立顯卡、車載方案、嵌入式方案等。
Intel表示,Xe2架構(gòu)相對于初代,重點就是提升各方面的效率,包括更高的利用率、更好的負(fù)載分配、更好的軟件開銷等等。
同時,Xe架構(gòu)誕生兩年多來,Intel一直在努力完善驅(qū)動、游戲的生態(tài)支持,先后迭代了50多個版本的驅(qū)動,新游戲0日支持超過120款,游戲適配優(yōu)化數(shù)量也比當(dāng)初增加了2.5倍。
這就是Xe2的整體架構(gòu)圖,主體依然是渲染切片,這是整個SoC芯片的基本結(jié)構(gòu),配合指令前端、二級緩存構(gòu)成一個整體,和第一代如出一轍,基本沒啥變化。
每個渲染切片內(nèi)包含4個Xe核心(計算引擎)、4個光追單元,以及4個采樣器、幾何單元、光柵單元、HiZ單元(層次Z)、兩個像素后端等模塊。
各個部分的具體變化,下邊拆開來講。
二代Xe2核心除了繼續(xù)原生支持SIMD16指令,還增加了對SIMD32的支持,雖然不是原生,但執(zhí)行SIMD32指令是沒問題的,從而能夠更好地分配計算資源,還支持64位原子操作。
每個Xe核心內(nèi)部,包含8個512位的矢量引擎(XVE)、8個2048位的XMX引擎,比上代減少了足足一半,可能調(diào)度效率會更高、更靈活。
這一次,Intel為每個Xe核心加入了多達(dá)256KB容量的一級緩存、本地共享緩存(SLM),大大減輕了對二級緩存的依賴。
XVE矢量引擎除了支持SIMD16/SIMD32,還支持矩陣擴(kuò)展,包括INT2、INT4、INT8、FP16、BF16、TF32等數(shù)據(jù)類型,其中TF32是針對AI優(yōu)化的數(shù)據(jù)格式還擴(kuò)展了Math、FP64支持。
另外,它還支持三路并發(fā),包括FP、INT/EM、XMX,指令調(diào)度和執(zhí)行效率更高。
對比初代,XVE引擎現(xiàn)在更小巧(基本可以視為砍半),應(yīng)該也會更靈活。
光追部分,Intel也做了大刀闊斧地改進(jìn),整體結(jié)構(gòu)沒太大變化,但是規(guī)模和性能高得多,比如遍歷流水線從2條增至3條、方盒相交增大1.5倍、三角形相交增大2倍、BVH(包圍盒層次結(jié)構(gòu))緩存增大2倍來到16KB。
這樣的規(guī)模當(dāng)然遠(yuǎn)遠(yuǎn)沒法和NVIDIA相比,甚至不如AMD,但提升也是相當(dāng)明顯的,應(yīng)該能夠達(dá)到基本可用的水平,當(dāng)然更有賴于游戲的適配和優(yōu)化。
媒體引擎包含兩個相同的多媒體解碼器(MFX),但注意它和Lunar Lake里集成的核顯媒體引擎略有不同,沒有XMX硬件編解碼單元,因此不支持VVC(H.266)硬解碼。
這就是BMG-G21,二代銳炫顯卡首發(fā)的GPU核心芯片。
它總共有5個渲染切片、20個Xe2核心、20個光追單元、160個XMX引擎、20個紋理采樣器、10個像素后端,以及2個多格式X編解碼器,還有多達(dá)18MB二級緩存、192位顯存。
各家的GPU架構(gòu)設(shè)計不同,所以核心規(guī)模不具備直接可比性,但如果將這些與NVIDIA GPU類比,那就相當(dāng)于80個ROP光柵單元、160個TMU紋理單元。
這是因為,紋理采樣器轉(zhuǎn)換為TMU的比例是1:8,像素后端與ROP的轉(zhuǎn)換比例同樣是1:8。
按照Intel的首發(fā),經(jīng)過優(yōu)化的第二代Xe核心,性能提高了70%,能效提高了50%。
而在一組微基準(zhǔn)測試中,性能提升幅度最高可達(dá)驚人的12.5倍。
比如在《堡壘之夜》中,上圖白線代表銳炫A系列,藍(lán)線代表銳炫B系列,單位是毫秒,時間則越短越好。
銳炫A系列執(zhí)行一幀渲染的時間為19.33毫秒,銳炫B系列則縮短到了13.01毫秒。
關(guān)鍵是,每一個渲染環(huán)節(jié)的效率都更高了,比如直接執(zhí)行節(jié)省了1.1毫秒,間接執(zhí)行節(jié)省了1.5毫秒等。
這也就證明,銳炫B系列的每一個地方都做了微架構(gòu)優(yōu)化,都可以節(jié)省渲染時間,從而提升渲染效率和性能。
隨著圖形技術(shù)的進(jìn)步,單純的渲染已經(jīng)不足以反應(yīng)GPU計算能力,也無法做到顯著提升性能,AI渲染就越來越普遍。
XeSS就是Intel打造的AI超分解決方案,對標(biāo)NVIDIA DLSS、AMD FSR,在較低分辨率的畫面幀的基礎(chǔ)上,提取運動矢量,使用超分辨率技術(shù)進(jìn)行放大和加速,從而生成更高質(zhì)量的圖像。
官方號稱,在2K超高畫質(zhì)游戲中,XeSS可以帶來22-80%的性能提升,尤其是在光追等像素生成較為困難的場景中效果更明顯。
經(jīng)過不斷努力,Intel XeSS已經(jīng)有超過150款游戲支持,初具規(guī)模。
如今,XeSS終于升級為第二代,SR超分技術(shù)基礎(chǔ)上增加了兩項新技術(shù):XeSS FG幀生成技術(shù),提升畫面質(zhì)量與幀率;XeLL低延遲技術(shù),提升響應(yīng)速度。
XeSS FG幀生成技術(shù)的工作原理是:首先使用游戲引擎,原生渲染出第一幀和第二幀,然后通過插幀技術(shù)和AI算法,生成二者之間的中間幀并插入。
為了實現(xiàn)這一目標(biāo),Intel采用了兩種技術(shù),分別是光流重投影技術(shù)、運動矢量重投影技術(shù),二者結(jié)合以確保插幀的準(zhǔn)確性、畫面的流暢性。
不過不同于NVIDIA RTX 40系列,Intel不需要單獨的光流加速器硬件,至于是否支持NVIDIA、AMD的顯卡還在評估。
目前暫時還沒有支持XeSS FG幀生成的游戲,畢竟剛剛宣布,但是《F1 24》等游戲已經(jīng)在積極開發(fā)集成,UE等游戲引擎也可以通過插件支持。
當(dāng)然,XeSS SR超分、XeSS FG幀生成兩項技術(shù)也是可以一起使用的。
XeSS SR渲染一個稍低分辨率的畫面幀,并將它放大,在送到XeSS FG插幀里,實現(xiàn)幀率翻倍。
比如《F1 24》,可以看到XeSS 2的性能提升是非常顯著的,遠(yuǎn)超初代XeSS。
2K超高畫質(zhì)下,銳炫B580的基準(zhǔn)幀率為48FPS,開啟XeSS 2質(zhì)量模式就能提升至2.8倍,不但比初代XeSS高了超過65%,甚至超過了XeSS SR超高性能模式。
依次開啟XeSS 2平衡模式、性能模式、超高性能模式,幀率還可以逐步提升,最終高達(dá)186FPS,是原生性能的幾乎4倍。
介紹XeLL低延遲技術(shù)之前,先回顧一下PC游戲中的系統(tǒng)延遲怎么來的。
這個過程始于玩家點擊鼠標(biāo)的動作,一直持續(xù)到畫面最終顯示在屏幕上,這個過程所需要的時間,就是我們說的延遲。
具體來說,玩家操作的信號首先傳遞給CPU,隨后進(jìn)入一個稱作渲染隊列的環(huán)節(jié),然后GPU將這些指令轉(zhuǎn)換成屏幕上的像素,最后這些像素構(gòu)成的圖像呈現(xiàn)在顯示器上。
整個流程中的每一步都可能增加延遲,累積起來就是我們在游戲中感受到的卡頓現(xiàn)象。
為了盡可能降低延遲,NVIDIA打造了Reflex技術(shù),AMD則推出了兩代Anti-Lag,現(xiàn)在輪到了Intel XeLL。
XeLL重點針對CPU渲染隊列等待過程,基本消除了它,從而大大縮短了從鼠標(biāo)點擊到屏幕顯示的整個過程。
Intel PresentMon工具已經(jīng)可以顯示具體延遲,方便玩家測量從鼠標(biāo)輸入到系統(tǒng)顯示的整個延遲時間。
同時,Intel內(nèi)部還開發(fā)了延遲測量工具(LMT),基于微控制器的一款特殊設(shè)備。
實際性能如何呢?還是以《F1 24》為例。
原生渲染時,48FPS幀率的延遲是57毫秒,而在開啟XeLL之后,延遲降低到了32毫秒,改善了多達(dá)45%。
更神奇的是,如果把XeSS SR、FG、XeLL低延遲全部打開,可以把延遲降至28毫秒,改善51%,同時幀率高達(dá)152FPS,提升2.17倍。
當(dāng)然,也可以只開啟SR、低延遲,此時延遲僅有19ms,改善足有67%,而幀率為90FPS,仍有原生渲染的接近2倍。
除了游戲原生支持,XeLL低延遲技術(shù)還可以基于驅(qū)動程序?qū)崿F(xiàn),因此效果不是最好的,但很容易集成到游戲中。
首發(fā)支持的有《F1 24》、《漫威暗夜之子》、《刺客信條:幻景》等等,未來還會有更多加入。
AI,尤其是生成式AI,是如今GPU繞不開的話題,銳炫B系列也通過增強(qiáng)的XMX引擎,提供了更好的支持。
銳炫B580對比RTX 4060,運行常見的Llama 2、Llama 3.1、Mistral、Phi-3等大型語言模型,都有相當(dāng)大的性能優(yōu)勢,最多領(lǐng)先約50%。
Intel之前還推出了一個免費的生成式AI工具AI Playground 2.0,專為Xe2架構(gòu)而來(包括核顯)。
它允許用戶在本地端側(cè)體驗圖像創(chuàng)建、編輯、AI對話等,下載模型即可體驗,無需連接云端。
好的顯卡,除了好的硬件架構(gòu)技術(shù),更離不開好的驅(qū)動,Intel也在持續(xù)完善,功能不斷豐富,無論是圖形設(shè)置、3D設(shè)置,還是超頻,該有的都有。
說到超頻,銳炫B系列當(dāng)然也可以,而且更簡單,在驅(qū)動中開啟高級模式即可操作。
上圖中,淺藍(lán)色顯示的是默認(rèn)頻率和電壓曲線,玩家可以向上推動該曲線,從而提升頻率,獲得更高的性能。
玩家還可以使用電壓偏移來改變電壓,并訪問更多電壓點,這一切都實時可見。
電壓、功耗都可以設(shè)置一定的最高閾值,確保安全超頻。
以銳炫B580為例,默認(rèn)狀態(tài)下即可輕松超頻200MHz;增加20%功耗可以再超200MHz;繼續(xù)增加25%電壓還能繼續(xù)超200MHz。
當(dāng)然,具體超頻幅度和電壓、功耗設(shè)置,取決于顯卡的不同個體體質(zhì),以及散熱等外部因素。
相關(guān)文章
超頻達(dá)2850MHz! 藍(lán)戟銳炫B580系列顯卡正式發(fā)布
Intel銳炫B580/B570顯卡正式發(fā)布,英特爾昨日正式推出了代號為Battlemage的第二代銳炫B系列顯卡,首發(fā)型號包括銳炫B580和B570,距離第一代A系列首次亮相已經(jīng)過去兩年多的時2024-12-05影馳GEFORCE RTX 4070Ti SUPER 金屬大師Plus OC顯卡全面評測
影馳上架了 GeForce RTX 4070Ti SUPER 金屬大師 Plus OC 顯卡,與之前 RTX 4070Ti SUPER 金屬大師不同,這是一塊 OC 還帶 Plus 的版本,下面我們就來看看這款顯卡的測評2024-12-05蘋果放大招了? 蘋果 M4 Ultra顯卡性能超越RTX 4090
蘋果即將推出的M4 Ultra芯片可能會在性能上帶來驚喜,其圖形性能有望超越英偉達(dá)的RTX 4090,這是目前市面上最強(qiáng)大的消費級顯卡2024-11-12- 在顯卡性能對比中,1650明顯優(yōu)于960,其性能領(lǐng)先30%左右,參數(shù)對比顯示,1650的流處理器數(shù)量雖然少了128個,但晶體管數(shù)量多了1660個,顯存多了2GB,基礎(chǔ)頻率和加速頻率分別高了31%2024-10-28
盡享極致游戲體驗! 索泰GeForce RTX 4090 D TRINITY顯卡評測
憑借著強(qiáng)勁的性能,索泰GeForce RTX 4090 D TRINITY 月白給人留下了頗為深刻的印象,下面我們就來看看這款顯卡性能測評2024-10-26- 在性能對比中,盡管GTX 1650為10系顯卡,但與GTX 970相比,存在約20%的性能差距,970顯卡在游戲幀數(shù)、流處理器數(shù)量、核心面積等方面均優(yōu)于1650,盡管1650的能耗比較優(yōu)異,但從整2024-10-25
1650ti和3050差距多少 1650ti和3050顯卡對比詳解
NVIDIA GeForce RTX 3050相較于GTX 1650 Ti在移動端顯卡性能上約有40%的提升,3050具有更多流處理器和略高的加速頻率,盡管基礎(chǔ)頻率略低,通過測試不同游戲在1080p下的表現(xiàn),302024-10-25- 顯卡作為提升電腦性能的關(guān)鍵部件,性能與價格是選購的主要考量,性能強(qiáng)的顯卡更受歡迎,但價格差異大,推薦幾款雙十一性價比高的顯卡,七彩虹RTX4060戰(zhàn)斧豪華版、藍(lán)寶石RX6750GR2024-10-23
只要清灰降畫質(zhì)就能再戰(zhàn)? GTX 1050 Ti顯卡游戲性能測評
GeForce GTX 1050 Ti這款老顯卡的口碑很不錯,但它畢竟已經(jīng)是8年前的老產(chǎn)品,本文的測試目的就是評估GeForce GTX 1050 Ti在清灰,調(diào)低畫質(zhì)(1080P低)之后,還能否流暢運行2024-10-113080ti和rx7800xt玩游戲選哪個 3080ti和rx7800xt顯卡游戲性能測試
3080ti和rx7800xt均為高性能顯卡,3080ti在生產(chǎn)力優(yōu)化上表現(xiàn)更佳,而rx7800xt在價格上更具優(yōu)勢,如果主要用途是游戲,rx7800xt的性價比更高;若涉及到生產(chǎn)力任務(wù),例如視頻編輯2024-10-11