英特爾銳炫移動級獨立顯卡解析劍指高性能GPU領(lǐng)域

ZOL 發(fā)布時間：2022-03-31 13:25:00 作者：Y

這篇文章主要為大家詳細(xì)介紹了英特爾銳炫移動級獨立顯卡，2022年3月30日23點整，英特爾正式發(fā)布首款全新的銳炫A系列高性能移動級獨立顯卡，也就是英特爾銳炫3顯卡家族。自去年英特爾宣布推出獨立顯卡的計劃以來，用戶對于這一天的到來期待已久,現(xiàn)在我們一起來看看

北京時間2022年3月30日23點整，英特爾正式發(fā)布首款全新的銳炫A系列高性能移動級獨立顯卡，也就是英特爾銳炫3顯卡家族。自去年英特爾宣布推出獨立顯卡的計劃以來，用戶對于這一天的到來期待已久。

數(shù)十年來，英特爾為PC用戶交付了一代又一代高性能CPU，為全球數(shù)十億人提供計算能力。而在獨立顯卡發(fā)布之前，英特爾已經(jīng)在集成顯卡領(lǐng)域打下了堅實基礎(chǔ)。尤其是隨著圖形技術(shù)大神Raja Koduri的加入，英特爾向高性能GPU領(lǐng)域邁進(jìn)勢不可擋。

目前，首批搭載英特爾銳炫3獨立顯卡的筆記本電腦已經(jīng)上市，而更加強大的銳炫5、銳炫7系列產(chǎn)品將于今年夏天問世。

英特爾銳炫獨立顯卡將包含通用架構(gòu)和高級功能集，并且支持DX12 Ultimate以及英特爾最為先進(jìn)的AI和媒體引擎。從產(chǎn)品定位來看，英特爾銳炫3系列主要立足于Evo輕薄筆記本電腦，為其提供增強的1080P游戲性能和出色的內(nèi)容創(chuàng)作性能。而銳炫5和銳炫7在提供領(lǐng)先內(nèi)容創(chuàng)作功能之外，還會提供更高的圖形計算能力，以應(yīng)對高性能游戲需求。

那么全新的英特爾銳炫3系列顯卡有哪些特性呢？

靈活可拓展的XeHPG微架構(gòu)

首先，英特爾銳炫A系列產(chǎn)品全部基于Xe HPG架構(gòu)打造，它包含了強大的AI引擎和增強的媒體引擎。除此之外，英特爾還為其打造了下一代Xe顯示引擎和新的圖形管線，用來處理各種不同顯示任務(wù)。

要想系統(tǒng)性的了解銳炫顯卡特性，我們首先從渲染切片（Rendering Slice）開始談起。渲染切片是英特爾可重用IP的基本構(gòu)建塊，在XeHPG微架構(gòu)里，每4個Xe內(nèi)核組成一個渲染切片。每一個Xe內(nèi)核中都配備了數(shù)量可觀的運算單元，如矢量引擎XVE，矩陣引擎XMX。此外XeHPG也集成了其它主流圖形技術(shù)，如網(wǎng)格著色，采樣器反饋等，同時也能在渲染切片中找到其相應(yīng)的硬件支持。

XeHPG架構(gòu)最大特點就是擁有出色的靈活性。因此，英特爾可以通過疊加渲染切片來構(gòu)建不同的SoC，目前最少為2個，最大可以做到8個。這樣的結(jié)構(gòu)最主要的特點就是可擴展性很強，根據(jù)渲染切片數(shù)量不同，產(chǎn)品線變得更加豐富，為用戶提供更多選擇。與此前的Xe LP微架構(gòu)相比，XeHPG每瓦性能提升了1.5倍。同時，渲染切片支持DX12 Ultimate，其中包括對所有圖形固定功能塊的改進(jìn)，并且還有支持微軟DXR和Vulkan RT的專用硬件光追單元。每個切片還配備了4個硬件光追加速器，用來支持實時光線追蹤技術(shù)，能夠顯著提升3A大作的游戲畫面表現(xiàn)和光影效果。

XeHPG的核心，是Xe-Core，即可Xe內(nèi)核，它是XeHPG微架構(gòu)的組成模塊，取代了此前集成顯卡中EU（執(zhí)行單元）的概念。因此XeHPG架構(gòu)中最基礎(chǔ)的執(zhí)行單元是Xe-Core。它包括16個256位寬的SIMD矢量引擎，為傳統(tǒng)圖形著色器執(zhí)行大部分運算。矢量引擎主要負(fù)責(zé)傳統(tǒng)圖像處理的計算任務(wù)。而由于AI算法核心幾乎完全圍繞著一系列大型矩陣乘法和累加算法，英特爾在每個Xe內(nèi)核中構(gòu)建了專用矩陣引擎來進(jìn)行硬件加速。Xe內(nèi)核包含16個矩陣引擎，每個引擎都是1024位寬。矩陣引擎專為加速AI運算而生。同時為了滿足矩陣、矢量和光線追蹤單元的高帶寬需求，英特爾在每個Xe內(nèi)核中構(gòu)建了一個192KB的大型本地內(nèi)存。它可以根據(jù)每個工作負(fù)載的需要在L1緩存和共享本地內(nèi)存(SLM) 之間動態(tài)分配。

談到矢量引擎，英特爾為了給浮點運算（FP）提供專用執(zhí)行端口，對ALU（算術(shù)邏輯單元）進(jìn)行了改進(jìn)。FP指令現(xiàn)在可以與整數(shù)運算(INT)指令同時運行，其中包括DP4a的快速INT8計算。同時英特爾還強化了AI能力，增加了新的XMX矩陣引擎用于高吞吐量矩陣乘法，涵蓋最常見的AI數(shù)據(jù)類型，包括BF16和INT8。

那么矩陣引擎的優(yōu)勢在哪？其規(guī)模到底如何呢？

首先，MAC是圖形中使用的基本SIMD矢量指令，是銳炫顯卡矢量引擎的核心。它執(zhí)行8次并行運算乘法，然后執(zhí)行8次并行加法（每個時鐘總共16個Ops）。DP4a是針對那些不需32位精度的AI計算所做的優(yōu)化。它的工作原理是將所有32位輸入分成8位塊，然后獨立的乘以這些塊，執(zhí)行總共32次并行乘法（參考下圖中紫色方塊顯示）。接下來是32次累加或每個周期總共64次操作，這比標(biāo)準(zhǔn)SIMD MAC提高了4倍性能。矩陣引擎通過將乘法累加4深度流水線化，將其提升到一個新的水平。與DP4a一樣，每個操作數(shù)都被分成4個塊，這些塊被獨立的相乘和累加——每個階段64個操作（由紫色圖塊顯示）。通過4個階段，每個時鐘產(chǎn)生256次操作——比傳統(tǒng)32位SIMD MAC增加了16倍性能。

為了有效提高執(zhí)行性能和算力，英特爾Xe HPG架構(gòu)可以同時調(diào)度和執(zhí)行浮點FP、整數(shù)INT和 XMX指令，并以鎖步形式并行兩個引擎和共享資源。

其實，矩陣引擎的一個主要應(yīng)用是在實時渲染過程中調(diào)用AI。英特爾使用這種技術(shù)的第一個算法稱為XeSS，也就是英特爾自家的超級采樣技術(shù)。與傳統(tǒng)高分辨率渲染相比，XeSS可在游戲中提供更高的性能。它使用神經(jīng)網(wǎng)絡(luò)輔助運動矢量，從低分辨率渲染中生成精美的高分辨率圖像。

目前，第一時間支持XeSS的游戲總計有14款，未來數(shù)月還會有更多游戲?qū)崿F(xiàn)對XeSS的支持。此外，英特爾與游戲開發(fā)者良好的關(guān)系，也將幫助其更加快速的拓展XeSS支持。

強大的Xe媒體引擎首個支持AV1編解碼的GPU

除了強大的AI引擎之外，英特爾銳炫顯卡還提供了強大的媒體引擎，即Xe媒體引擎，進(jìn)而構(gòu)建了領(lǐng)先的媒體加速器。

銳炫顯卡所搭載的媒體引擎內(nèi)置了非常廣泛的編解碼器，包括H.265/HEVC、H.264/MPEG-4/AVC、VP9等，同時還是首個支持AV1硬件編解碼加速的GPU，這也使其在內(nèi)容創(chuàng)作領(lǐng)域的應(yīng)用倍受期待。

這里我們重點說說AV1。

從效率比來講，AV1比最為常見的H.264編解碼器高出50%，比HEVC高出20%，因此能夠以更低帶寬和更小文件提供更高質(zhì)量的畫面。而且AV1是完全開放沒有任何授權(quán)費用的編解碼器。雖然目前還沒有被廣泛采用，但行業(yè)內(nèi)用戶對其前景非常認(rèn)可。

和以往各類常用的編解碼器相比，AV1提供了更好的壓縮比和視覺效果。銳炫圖形中的AV1編碼硬件加速與傳統(tǒng)軟件實現(xiàn)相比，編碼速度提高了50倍。目前，包括FFMPEG、Handbrake、Adobe和XSplit都已集成了對銳炫AV1的支持。

擴展性方面，Xe顯示引擎支持HDMI 2.0b和DP1.4a，游戲玩家可享受1080p@360Hz畫面，或4臺4K@120Hz HDR顯示器拓展，雖然沒有支持到HDMI 2.1，但整體拓展性已經(jīng)能夠覆蓋當(dāng)下主流用戶的需求。

此外，英特爾銳炫顯卡支持Adaptive Sync技術(shù)，可提供流暢、無撕裂的游戲畫面。而在此基礎(chǔ)之上，英特爾還打造了全新的Speed Sync技術(shù)，它可以適用于任何顯示器并解決不同問題。

時下，不少游戲玩家會通過V-Sync以避免在高渲染率下玩電子競技游戲時的畫面撕裂。但由于顯示器與游戲畫面刷新率不同步，會導(dǎo)致延遲大幅增加。Speed Sync通過關(guān)閉V-Sync來改善這一點，通過始終顯示最后一個渲染幀的整體，避免類似情況發(fā)生。

此外，Smooth Sync也是伴隨英特爾銳炫顯卡的一項新技術(shù)。該技術(shù)通過運用模糊化兩個撕裂幀之間的邊界來減少視覺失真。

兩種尺寸規(guī)格滿足不同筆記本電腦需求

英特爾銳炫3顯卡現(xiàn)階段主要載體是Evo認(rèn)證輕薄本，不過考慮到后續(xù)拓展需求，英特爾設(shè)計了兩種不同尺寸的芯片。面積較大的芯片代號為ACM-G10，它包含32個Xe內(nèi)核和光追單元，擁有16MB L2緩存，256bit GDDR6接口，16路PCIe 4.0接口。面積較小的芯片代號為ACM-G11，包含8個Xe內(nèi)核和光追單元，4MB L2緩存，96bit顯存接口，8路PCIe 4.0。兩種芯片設(shè)計均包含兩個Xe多功能編解碼引擎，和4路顯示輸出引擎。

GPU頻率是非常重要的參數(shù)，直接影響最終性能表現(xiàn)。頻率提高相應(yīng)就會要求更高的工作電壓，會帶來更大功耗。英特爾銳炫顯卡支持實時監(jiān)控性能指標(biāo)，如功耗、溫度和占用率，并且通過動態(tài)調(diào)節(jié)時鐘頻率來與之適配。

通常來說在筆記本設(shè)計中，功耗限制會壓低頻率。如果顯卡只是間歇性被占用，由于每時鐘內(nèi)功耗密度較低，時鐘頻率一般就會趨于上升。反之當(dāng)顯卡負(fù)載較重，比如玩游戲的時候，或者圖像視頻處理等場景下，時鐘頻率會相應(yīng)降低，讓整體功耗保持在設(shè)計范圍內(nèi)。

因此，英特爾銳炫顯卡在運行不同負(fù)載時，或者同一負(fù)載的不同階段時，其頻率、其占用率等指標(biāo)是不一樣的，從而時鐘頻率會在一個范圍內(nèi)動態(tài)調(diào)整，而且這個范圍的分布也是有規(guī)律的，在分布內(nèi)，一些接近中部的頻率出現(xiàn)的概率會高一些。

考慮到這些情況，英特爾制定獨立顯卡參數(shù)時，首先標(biāo)定了一個有代表性的負(fù)載，之后在這個負(fù)載運行的時候，全程測量并統(tǒng)計時鐘頻率的分布，最終在整個負(fù)載完成后，把平均時鐘頻率作為參數(shù)配置中的定義。當(dāng)然，對于不同的平臺，有著不同的TDP，即基于散熱的設(shè)計功耗。如圖中所描述的，更寬松的TDP限制下，時鐘頻率的分布范圍也會整體提升。

Deep Link激發(fā)銳炫顯卡性能表現(xiàn)

英特爾銳炫獨顯性能一部分來自于出色的底層架構(gòu)設(shè)計，以及先進(jìn)的AI、媒體引擎加持。而另一部分則是不得不說的基于整個系統(tǒng)的Deep Link技術(shù)。

英特爾Deep Link簡單來說就是多種技術(shù)的總稱，目前包含動態(tài)功率共享，超級編碼和超級算力三大主要技術(shù)。

電腦在實際應(yīng)用過程當(dāng)中，CPU和GPU并不都是同時處于高負(fù)載狀態(tài)運行，因此借助動態(tài)功率共享技術(shù)，就可以在系統(tǒng)功耗的限制范圍內(nèi)，盡可能最大化釋放CPU和GPU性能。簡單來說，當(dāng)CPU更加需要功率去處理負(fù)載任務(wù)時，系統(tǒng)會自動把更多功率分配給CPU，反之對GPU也一樣，這樣就解決了功率浪費問題。

動態(tài)功率共享技術(shù)

動態(tài)功率共享運行原理是通過循環(huán)采集各種系統(tǒng)信息，包括但不限于CPU和GPU的溫度，占用率，各自的功耗等等，其中最核心的參數(shù)還是利用率。當(dāng)系統(tǒng)發(fā)現(xiàn)GPU負(fù)載過高，比如玩游戲的時候，系統(tǒng)會動態(tài)調(diào)整GPU和CPU的功率配比，將更多功率分配給GPU。反之則將更多功率分配給CPU。

此外，顯卡使用率其實是有一段最優(yōu)區(qū)間，此時需要讓GPU既“不吃太飽也別餓著”，因此當(dāng)顯卡占用率超過這一區(qū)間，就會提升顯卡功率配比。當(dāng)顯卡占用率低于這一區(qū)間，則提升CPU功率配比。而當(dāng)顯卡占用率非常低時，就會把功率盡可能都分配給CPU。現(xiàn)階段，所有搭載英特爾12代酷睿和銳炫顯卡的筆記本電腦都能夠啟用這項技術(shù)。

超級編碼技術(shù)

Deep Link里的第二項重要技術(shù)就是超級編碼技術(shù)，如其名，該技術(shù)的存在就是為了大大提升編解碼效率。而超級編碼技術(shù)可以同時調(diào)用銳炫獨顯和銳炬核顯的硬件編解碼能力，可以看做是“顯卡交火”。

這種協(xié)作是通過OneVPL的API接口來實現(xiàn)的。OneVPL是一個跨平臺的開放性框架，應(yīng)用程序通過接口可以識別并調(diào)用平臺上多個多媒體引擎，充分利用視頻處理能力。當(dāng)超級編碼開始工作時，一組組解碼后的原始幀通過特定的API函數(shù)被交給oneVPL，進(jìn)而按組被分配到不同的多媒體引擎上，拷貝到相應(yīng)的內(nèi)存中緩存起來。不論每一組有多少幀，相應(yīng)的集顯或者獨顯的多媒體引擎會開始按照設(shè)定的格式編碼。而OneVPL會完成后續(xù)的打包工作，把編碼后的幀一組組拼接成最終視頻來輸出。這種并行處理，編碼效率比單一顯卡更加顯著。

超級算力技術(shù)

隨著內(nèi)容創(chuàng)作個人化趨勢加劇，算力需求也逐步提高。而GPU本身就是內(nèi)容創(chuàng)作相關(guān)應(yīng)用最高效的硬件之一，因此，超級算力技術(shù)某種程度上來說就是為內(nèi)容創(chuàng)作而生。不過，英特爾并未忽視CPU在內(nèi)容創(chuàng)作應(yīng)用中的計算力，因此超級算力技術(shù)主要是通過把負(fù)載合理的分配給不同計算引擎，從而實現(xiàn)更加高效的內(nèi)容創(chuàng)作過程。

為此英特爾設(shè)計了MLS，即基于機器學(xué)習(xí)的服務(wù)。

MLS是Open Vino中的一個框架，它能夠智能地把負(fù)載分配給不同算力模塊。根據(jù)當(dāng)前應(yīng)用或負(fù)載特征，例如延遲敏感度，吞吐量，性能要求，功率消耗等等。這些因素幫助MLS做出決策，把負(fù)載分配給獨立顯卡，集成顯卡，或者CPU。

以視頻處理為例我們來看看MLS的工作原理。比如在對視頻進(jìn)行去噪點，超分，銳化等處理時，導(dǎo)入畫面會逐幀傳遞給MLS框架，每一幀還會拆成若干塊，這些塊排在工作隊列里，MLS啟動一個個工作線程，把這些塊根據(jù)需求自動分配到不同的算力模塊中。

如下圖所示，MLS將一部分工作線程分配到集顯的計算引擎，一部分分配到獨顯的矩陣引擎。隨著顯卡完成當(dāng)前任務(wù)，MLS會不斷派發(fā)新的任務(wù)。直到最后完成所有塊的處理，打包這些增強后的畫面作為最終輸出結(jié)果。

其實簡單來講，超級算力的實現(xiàn)就是靠CPU、集成GPU、獨立GPU協(xié)同工作來、并行計算實現(xiàn)算力和效率的增強。

銳炫3為輕薄本賦予更強的游戲性能

接下來回歸到具體產(chǎn)品。英特爾今天正式發(fā)布的銳炫3家族，是移動級獨立顯卡，主要覆蓋輕薄型筆記本，后續(xù)的銳炫5、銳炫7會覆蓋到游戲本。

銳炫3家族首發(fā)型號為A350M和A370M兩款。其中，A350M包含6個Xe內(nèi)核，6個光追單元，頻率1150MHz，擁有4GB GDDR6顯存，64bit位寬，功率為25-35W；A370M包含8個Xe內(nèi)核和8個光追單元，頻率1550MHz，同樣擁有4GB GDDR6顯存，64bit位寬，功率為35-50W。

功能特性方面前面我們也介紹了，銳炫3系列顯卡均支持DirectX12 Ultimate，并且支持光線追蹤，可變速率著色，網(wǎng)格著色和采樣器反饋。此外，英特爾也放出了一些游戲?qū)崪y數(shù)據(jù)，可以看到A370M獨顯與英特爾銳炬Xe核顯相比，在游戲的中或高畫質(zhì)下，畫面幀數(shù)差異還是相當(dāng)大的，A370M整體表現(xiàn)還是相當(dāng)不錯的。

其實對于輕薄型筆記本而言，能夠在游戲方面有這樣的表現(xiàn)已經(jīng)相當(dāng)不錯。

不過從目前A系列顯卡應(yīng)用適配情況來看，其特性更加契合內(nèi)容創(chuàng)作需求。在視頻編解碼方面，以Davinci為例，4K H.264轉(zhuǎn)H.265的性能相比銳炬Xe核顯提升多達(dá)60%。

隨著銳炫3獨顯發(fā)布，英特爾還帶來了全新的銳炫控制面板，即Intel ARC Control。它提供了一站式與銳炫顯卡相關(guān)的設(shè)定或者信息接收，包括可以讓用戶快速升級驅(qū)動，及時看到顯卡性能的工作負(fù)載、虛擬攝像頭設(shè)定、自動生成游戲高光時刻、提供便捷的直播、串流相關(guān)的功能和設(shè)置，用戶可以快速的開啟直播功能將游戲精彩的畫面分享到直播平臺上。

ARC Control控制面板也將提供便捷的安裝和自動更新服務(wù)，每當(dāng)有新游戲上架或游戲發(fā)布新驅(qū)動時，用戶會自動收到通知，如果用戶不想要被這些信息打擾，也可以根據(jù)自己的需求靈活調(diào)整。

此外，ARC Control控制面板還會提供性能檢測功能，并以具體的參數(shù)和可視化圖標(biāo)提供給用戶參考。

目前，ARC Control控制面板已經(jīng)開放下載，而且即便不是銳炫顯卡，它也支持英特爾銳炬核顯。另外最為重要的是，它真的不需要登錄使用。

結(jié)語

銳炫3系列獨立顯卡是英特爾重歸高性能GPU領(lǐng)域交出的第一張答卷，我們非常期待拿到實際產(chǎn)品后的測試結(jié)果究竟如何。不過無論怎樣，在NVIDIA和AMD兩強相爭多年的格局下，英特爾重回GPU市場，無疑會在未來幾年內(nèi)對市場格局帶來巨大沖擊。而且憑借英特爾的技術(shù)力，相信在不久之后，英特爾顯卡將爆發(fā)出更加強勁的實力。

本篇文章就到這里了，希望能夠給你帶來幫助，也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!