英特爾銳炫移動級獨立顯卡解析 劍指高性能GPU領域

北京時間2022年3月30日23點整,英特爾正式發(fā)布首款全新的銳炫A系列高性能移動級獨立顯卡,也就是英特爾銳炫3顯卡家族。自去年英特爾宣布推出獨立顯卡的計劃以來,用戶對于這一天的到來期待已久。
數(shù)十年來,英特爾為PC用戶交付了一代又一代高性能CPU,為全球數(shù)十億人提供計算能力。而在獨立顯卡發(fā)布之前,英特爾已經(jīng)在集成顯卡領域打下了堅實基礎。尤其是隨著圖形技術大神Raja Koduri的加入,英特爾向高性能GPU領域邁進勢不可擋。
目前,首批搭載英特爾銳炫3獨立顯卡的筆記本電腦已經(jīng)上市,而更加強大的銳炫5、銳炫7系列產(chǎn)品將于今年夏天問世。
英特爾銳炫獨立顯卡將包含通用架構和高級功能集,并且支持DX12 Ultimate以及英特爾最為先進的AI和媒體引擎。從產(chǎn)品定位來看,英特爾銳炫3系列主要立足于Evo輕薄筆記本電腦,為其提供增強的1080P游戲性能和出色的內(nèi)容創(chuàng)作性能。而銳炫5和銳炫7在提供領先內(nèi)容創(chuàng)作功能之外,還會提供更高的圖形計算能力,以應對高性能游戲需求。
那么全新的英特爾銳炫3系列顯卡有哪些特性呢?
靈活可拓展的XeHPG微架構
首先,英特爾銳炫A系列產(chǎn)品全部基于Xe HPG架構打造,它包含了強大的AI引擎和增強的媒體引擎。除此之外,英特爾還為其打造了下一代Xe顯示引擎和新的圖形管線,用來處理各種不同顯示任務。
要想系統(tǒng)性的了解銳炫顯卡特性,我們首先從渲染切片(Rendering Slice)開始談起。渲染切片是英特爾可重用IP的基本構建塊,在XeHPG微架構里,每4個Xe內(nèi)核組成一個渲染切片。每一個Xe內(nèi)核中都配備了數(shù)量可觀的運算單元,如矢量引擎XVE,矩陣引擎XMX。此外XeHPG也集成了其它主流圖形技術,如網(wǎng)格著色,采樣器反饋等,同時也能在渲染切片中找到其相應的硬件支持。
XeHPG架構最大特點就是擁有出色的靈活性。因此,英特爾可以通過疊加渲染切片來構建不同的SoC,目前最少為2個,最大可以做到8個。這樣的結構最主要的特點就是可擴展性很強,根據(jù)渲染切片數(shù)量不同,產(chǎn)品線變得更加豐富,為用戶提供更多選擇。與此前的Xe LP微架構相比,XeHPG每瓦性能提升了1.5倍。同時,渲染切片支持DX12 Ultimate,其中包括對所有圖形固定功能塊的改進,并且還有支持微軟DXR和Vulkan RT的專用硬件光追單元。每個切片還配備了4個硬件光追加速器,用來支持實時光線追蹤技術,能夠顯著提升3A大作的游戲畫面表現(xiàn)和光影效果。
XeHPG的核心,是Xe-Core,即可Xe內(nèi)核,它是XeHPG微架構的組成模塊,取代了此前集成顯卡中EU(執(zhí)行單元)的概念。因此XeHPG架構中最基礎的執(zhí)行單元是Xe-Core。它包括16個256位寬的SIMD矢量引擎,為傳統(tǒng)圖形著色器執(zhí)行大部分運算。矢量引擎主要負責傳統(tǒng)圖像處理的計算任務。而由于AI算法核心幾乎完全圍繞著一系列大型矩陣乘法和累加算法,英特爾在每個Xe內(nèi)核中構建了專用矩陣引擎來進行硬件加速。Xe內(nèi)核包含16個矩陣引擎,每個引擎都是1024位寬。矩陣引擎專為加速AI運算而生。同時為了滿足矩陣、矢量和光線追蹤單元的高帶寬需求,英特爾在每個Xe內(nèi)核中構建了一個192KB的大型本地內(nèi)存。它可以根據(jù)每個工作負載的需要在L1緩存和共享本地內(nèi)存(SLM) 之間動態(tài)分配。
談到矢量引擎,英特爾為了給浮點運算(FP)提供專用執(zhí)行端口,對ALU(算術邏輯單元)進行了改進。FP指令現(xiàn)在可以與整數(shù)運算(INT)指令同時運行,其中包括DP4a的快速INT8計算。同時英特爾還強化了AI能力,增加了新的XMX矩陣引擎用于高吞吐量矩陣乘法,涵蓋最常見的AI數(shù)據(jù)類型,包括BF16和INT8。
那么矩陣引擎的優(yōu)勢在哪?其規(guī)模到底如何呢?
首先,MAC是圖形中使用的基本SIMD矢量指令,是銳炫顯卡矢量引擎的核心。它執(zhí)行8次并行運算乘法,然后執(zhí)行8次并行加法(每個時鐘總共16個Ops)。DP4a是針對那些不需32位精度的AI計算所做的優(yōu)化。它的工作原理是將所有32位輸入分成8位塊,然后獨立的乘以這些塊,執(zhí)行總共32次并行乘法(參考下圖中紫色方塊顯示)。 接下來是32次累加或每個周期總共64次操作,這比標準SIMD MAC提高了4倍性能。矩陣引擎通過將乘法累加4深度流水線化,將其提升到一個新的水平。與DP4a一樣,每個操作數(shù)都被分成4個塊,這些塊被獨立的相乘和累加——每個階段64個操作(由紫色圖塊顯示)。通過4個階段,每個時鐘產(chǎn)生256次操作——比傳統(tǒng)32位SIMD MAC增加了16倍性能。
為了有效提高執(zhí)行性能和算力,英特爾Xe HPG架構可以同時調(diào)度和執(zhí)行浮點FP、整數(shù)INT和 XMX指令,并以鎖步形式并行兩個引擎和共享資源。
其實,矩陣引擎的一個主要應用是在實時渲染過程中調(diào)用AI。英特爾使用這種技術的第一個算法稱為XeSS,也就是英特爾自家的超級采樣技術。與傳統(tǒng)高分辨率渲染相比,XeSS可在游戲中提供更高的性能。它使用神經(jīng)網(wǎng)絡輔助運動矢量,從低分辨率渲染中生成精美的高分辨率圖像。
目前,第一時間支持XeSS的游戲總計有14款,未來數(shù)月還會有更多游戲實現(xiàn)對XeSS的支持。此外,英特爾與游戲開發(fā)者良好的關系,也將幫助其更加快速的拓展XeSS支持。
強大的Xe媒體引擎 首個支持AV1編解碼的GPU
除了強大的AI引擎之外,英特爾銳炫顯卡還提供了強大的媒體引擎,即Xe媒體引擎,進而構建了領先的媒體加速器。
銳炫顯卡所搭載的媒體引擎內(nèi)置了非常廣泛的編解碼器,包括H.265/HEVC、H.264/MPEG-4/AVC、VP9等,同時還是首個支持AV1硬件編解碼加速的GPU,這也使其在內(nèi)容創(chuàng)作領域的應用倍受期待。
這里我們重點說說AV1。
從效率比來講,AV1比最為常見的H.264編解碼器高出50%,比HEVC高出20%,因此能夠以更低帶寬和更小文件提供更高質(zhì)量的畫面。而且AV1是完全開放沒有任何授權費用的編解碼器。雖然目前還沒有被廣泛采用,但行業(yè)內(nèi)用戶對其前景非常認可。
和以往各類常用的編解碼器相比,AV1提供了更好的壓縮比和視覺效果。銳炫圖形中的AV1編碼硬件加速與傳統(tǒng)軟件實現(xiàn)相比,編碼速度提高了50倍。目前,包括FFMPEG、Handbrake、Adobe和XSplit都已集成了對銳炫AV1的支持。
擴展性方面,Xe顯示引擎支持HDMI 2.0b和DP1.4a,游戲玩家可享受1080p@360Hz畫面,或4臺4K@120Hz HDR顯示器拓展,雖然沒有支持到HDMI 2.1,但整體拓展性已經(jīng)能夠覆蓋當下主流用戶的需求。
此外,英特爾銳炫顯卡支持Adaptive Sync技術,可提供流暢、無撕裂的游戲畫面。而在此基礎之上,英特爾還打造了全新的Speed Sync技術,它可以適用于任何顯示器并解決不同問題。
時下,不少游戲玩家會通過V-Sync以避免在高渲染率下玩電子競技游戲時的畫面撕裂。但由于顯示器與游戲畫面刷新率不同步,會導致延遲大幅增加。Speed Sync通過關閉V-Sync來改善這一點,通過始終顯示最后一個渲染幀的整體,避免類似情況發(fā)生。
此外,Smooth Sync也是伴隨英特爾銳炫顯卡的一項新技術。該技術通過運用模糊化兩個撕裂幀之間的邊界來減少視覺失真。
兩種尺寸規(guī)格滿足不同筆記本電腦需求
英特爾銳炫3顯卡現(xiàn)階段主要載體是Evo認證輕薄本,不過考慮到后續(xù)拓展需求,英特爾設計了兩種不同尺寸的芯片。面積較大的芯片代號為ACM-G10,它包含32個Xe內(nèi)核和光追單元,擁有16MB L2緩存,256bit GDDR6接口,16路PCIe 4.0接口。面積較小的芯片代號為ACM-G11,包含8個Xe內(nèi)核和光追單元,4MB L2緩存,96bit顯存接口,8路PCIe 4.0。兩種芯片設計均包含兩個Xe多功能編解碼引擎,和4路顯示輸出引擎。
GPU頻率是非常重要的參數(shù),直接影響最終性能表現(xiàn)。頻率提高相應就會要求更高的工作電壓,會帶來更大功耗。英特爾銳炫顯卡支持實時監(jiān)控性能指標,如功耗、溫度和占用率,并且通過動態(tài)調(diào)節(jié)時鐘頻率來與之適配。
通常來說在筆記本設計中,功耗限制會壓低頻率。如果顯卡只是間歇性被占用,由于每時鐘內(nèi)功耗密度較低,時鐘頻率一般就會趨于上升。反之當顯卡負載較重,比如玩游戲的時候,或者圖像視頻處理等場景下,時鐘頻率會相應降低,讓整體功耗保持在設計范圍內(nèi)。
因此,英特爾銳炫顯卡在運行不同負載時,或者同一負載的不同階段時,其頻率、其占用率等指標是不一樣的,從而時鐘頻率會在一個范圍內(nèi)動態(tài)調(diào)整,而且這個范圍的分布也是有規(guī)律的,在分布內(nèi),一些接近中部的頻率出現(xiàn)的概率會高一些。
考慮到這些情況,英特爾制定獨立顯卡參數(shù)時,首先標定了一個有代表性的負載,之后在這個負載運行的時候,全程測量并統(tǒng)計時鐘頻率的分布,最終在整個負載完成后,把平均時鐘頻率作為參數(shù)配置中的定義。當然,對于不同的平臺,有著不同的TDP,即基于散熱的設計功耗。如圖中所描述的,更寬松的TDP限制下,時鐘頻率的分布范圍也會整體提升。
Deep Link激發(fā)銳炫顯卡性能表現(xiàn)
英特爾銳炫獨顯性能一部分來自于出色的底層架構設計,以及先進的AI、媒體引擎加持。而另一部分則是不得不說的基于整個系統(tǒng)的Deep Link技術。
英特爾Deep Link簡單來說就是多種技術的總稱,目前包含動態(tài)功率共享,超級編碼和超級算力三大主要技術。
電腦在實際應用過程當中,CPU和GPU并不都是同時處于高負載狀態(tài)運行,因此借助動態(tài)功率共享技術,就可以在系統(tǒng)功耗的限制范圍內(nèi),盡可能最大化釋放CPU和GPU性能。簡單來說,當CPU更加需要功率去處理負載任務時,系統(tǒng)會自動把更多功率分配給CPU,反之對GPU也一樣,這樣就解決了功率浪費問題。
動態(tài)功率共享技術
動態(tài)功率共享運行原理是通過循環(huán)采集各種系統(tǒng)信息,包括但不限于CPU和GPU的溫度,占用率,各自的功耗等等,其中最核心的參數(shù)還是利用率。當系統(tǒng)發(fā)現(xiàn)GPU負載過高,比如玩游戲的時候,系統(tǒng)會動態(tài)調(diào)整GPU和CPU的功率配比,將更多功率分配給GPU。反之則將更多功率分配給CPU。
此外,顯卡使用率其實是有一段最優(yōu)區(qū)間,此時需要讓GPU既“不吃太飽也別餓著”,因此當顯卡占用率超過這一區(qū)間,就會提升顯卡功率配比。當顯卡占用率低于這一區(qū)間,則提升CPU功率配比。而當顯卡占用率非常低時,就會把功率盡可能都分配給CPU?,F(xiàn)階段,所有搭載英特爾12代酷睿和銳炫顯卡的筆記本電腦都能夠啟用這項技術。
超級編碼技術
Deep Link里的第二項重要技術就是超級編碼技術,如其名,該技術的存在就是為了大大提升編解碼效率。而超級編碼技術可以同時調(diào)用銳炫獨顯和銳炬核顯的硬件編解碼能力,可以看做是“顯卡交火”。
這種協(xié)作是通過OneVPL的API接口來實現(xiàn)的。OneVPL是一個跨平臺的開放性框架,應用程序通過接口可以識別并調(diào)用平臺上多個多媒體引擎,充分利用視頻處理能力。當超級編碼開始工作時,一組組解碼后的原始幀通過特定的API函數(shù)被交給oneVPL,進而按組被分配到不同的多媒體引擎上,拷貝到相應的內(nèi)存中緩存起來。不論每一組有多少幀,相應的集顯或者獨顯的多媒體引擎會開始按照設定的格式編碼。而OneVPL會完成后續(xù)的打包工作,把編碼后的幀一組組拼接成最終視頻來輸出。這種并行處理,編碼效率比單一顯卡更加顯著。
超級算力技術
隨著內(nèi)容創(chuàng)作個人化趨勢加劇,算力需求也逐步提高。而GPU本身就是內(nèi)容創(chuàng)作相關應用最高效的硬件之一,因此,超級算力技術某種程度上來說就是為內(nèi)容創(chuàng)作而生。不過,英特爾并未忽視CPU在內(nèi)容創(chuàng)作應用中的計算力,因此超級算力技術主要是通過把負載合理的分配給不同計算引擎,從而實現(xiàn)更加高效的內(nèi)容創(chuàng)作過程。
為此英特爾設計了MLS,即基于機器學習的服務。
MLS是Open Vino中的一個框架,它能夠智能地把負載分配給不同算力模塊。根據(jù)當前應用或負載特征,例如延遲敏感度,吞吐量,性能要求,功率消耗等等。這些因素幫助MLS做出決策,把負載分配給獨立顯卡,集成顯卡,或者CPU。
以視頻處理為例我們來看看MLS的工作原理。比如在對視頻進行去噪點,超分,銳化等處理時,導入畫面會逐幀傳遞給MLS框架,每一幀還會拆成若干塊,這些塊排在工作隊列里,MLS啟動一個個工作線程,把這些塊根據(jù)需求自動分配到不同的算力模塊中。
如下圖所示,MLS將一部分工作線程分配到集顯的計算引擎,一部分分配到獨顯的矩陣引擎。隨著顯卡完成當前任務,MLS會不斷派發(fā)新的任務。直到最后完成所有塊的處理,打包這些增強后的畫面作為最終輸出結果。
其實簡單來講,超級算力的實現(xiàn)就是靠CPU、集成GPU、獨立GPU協(xié)同工作來、并行計算實現(xiàn)算力和效率的增強。
銳炫3為輕薄本賦予更強的游戲性能
接下來回歸到具體產(chǎn)品。英特爾今天正式發(fā)布的銳炫3家族,是移動級獨立顯卡,主要覆蓋輕薄型筆記本,后續(xù)的銳炫5、銳炫7會覆蓋到游戲本。
銳炫3家族首發(fā)型號為A350M和A370M兩款。其中,A350M包含6個Xe內(nèi)核,6個光追單元,頻率1150MHz,擁有4GB GDDR6顯存,64bit位寬,功率為25-35W;A370M包含8個Xe內(nèi)核和8個光追單元,頻率1550MHz,同樣擁有4GB GDDR6顯存,64bit位寬,功率為35-50W。
功能特性方面前面我們也介紹了,銳炫3系列顯卡均支持DirectX12 Ultimate,并且支持光線追蹤,可變速率著色,網(wǎng)格著色和采樣器反饋。此外,英特爾也放出了一些游戲實測數(shù)據(jù),可以看到A370M獨顯與英特爾銳炬Xe核顯相比,在游戲的中或高畫質(zhì)下,畫面幀數(shù)差異還是相當大的,A370M整體表現(xiàn)還是相當不錯的。
其實對于輕薄型筆記本而言,能夠在游戲方面有這樣的表現(xiàn)已經(jīng)相當不錯。
不過從目前A系列顯卡應用適配情況來看,其特性更加契合內(nèi)容創(chuàng)作需求。在視頻編解碼方面,以Davinci為例,4K H.264轉H.265的性能相比銳炬Xe核顯提升多達60%。
隨著銳炫3獨顯發(fā)布,英特爾還帶來了全新的銳炫控制面板,即Intel ARC Control。它提供了一站式與銳炫顯卡相關的設定或者信息接收,包括可以讓用戶快速升級驅動,及時看到顯卡性能的工作負載、虛擬攝像頭設定、自動生成游戲高光時刻、提供便捷的直播、串流相關的功能和設置,用戶可以快速的開啟直播功能將游戲精彩的畫面分享到直播平臺上。
ARC Control控制面板也將提供便捷的安裝和自動更新服務,每當有新游戲上架或游戲發(fā)布新驅動時,用戶會自動收到通知,如果用戶不想要被這些信息打擾,也可以根據(jù)自己的需求靈活調(diào)整。
此外,ARC Control控制面板還會提供性能檢測功能,并以具體的參數(shù)和可視化圖標提供給用戶參考。
目前,ARC Control控制面板已經(jīng)開放下載,而且即便不是銳炫顯卡,它也支持英特爾銳炬核顯。另外最為重要的是,它真的不需要登錄使用。
結語
銳炫3系列獨立顯卡是英特爾重歸高性能GPU領域交出的第一張答卷,我們非常期待拿到實際產(chǎn)品后的測試結果究竟如何。不過無論怎樣,在NVIDIA和AMD兩強相爭多年的格局下,英特爾重回GPU市場,無疑會在未來幾年內(nèi)對市場格局帶來巨大沖擊。而且憑借英特爾的技術力,相信在不久之后,英特爾顯卡將爆發(fā)出更加強勁的實力。
本篇文章就到這里了,希望能夠給你帶來幫助,也希望您能夠多多關注腳本之家的更多內(nèi)容!
相關文章
- 小伙伴們裝機的時候遇到最大的問題并不是到底該選擇什么樣的配件,而是自己的預算是否能支持自己選擇的配件,某些小伙伴的預算并不是很高,但還想自己的電腦擁有高性能,那2022-03-30
- 這篇文章主要為大家詳細介紹了iGame RTX 3090Ti顯卡,這款RTX 30系“掌門人”如今終于和我們見面了,讓我們一起來了解一下2022-03-30
- rx460顯卡怎么樣?這篇文章主要為大家?guī)韗x460顯卡詳細介紹2022-03-24
- mx110顯卡怎么樣?這篇文章主要為大家?guī)韒x110顯卡詳細介紹2022-03-23
1060支持144hz顯示器嗎 144hz顯示器最低顯卡要求介紹
1060支持144hz顯示器嗎?144hz顯示器顯卡需要多少?下面一起來看看吧2022-03-21技嘉RX 6500 XT魔鷹顯卡評測 2000元以下唯一選擇
這篇文章主要為大家介紹了技嘉RX 6500 XT魔鷹顯卡,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助2022-03-212022年3月顯卡天梯圖最新版 2022年3月最新版顯卡天梯圖排行榜高清完整
本文為大家?guī)砹?022年3月最新版顯卡天梯圖排行榜高清完整版,需要的朋友一起看看吧2022-03-18電腦4g顯卡和2g顯卡的差別大嗎 4g顯卡和2g顯卡區(qū)別對比
電腦4g顯卡和2g顯卡的差別大嗎?本文給大家?guī)?g顯卡和2g顯卡對比介紹2022-03-17- 這篇文章主要為大家詳細介紹了映眾RTX 3050黑金至尊版顯卡,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助2022-03-17
- mx230顯卡怎么樣?mx230相當于gtx多少?下面一起來看看吧2022-03-14