AMD 銳龍 AI 9 365 處理器性能測(cè)試

這周從某不知名小廠工作的朋友那里借到了 Strix Point 工程機(jī),有機(jī)會(huì)在筆記本正式發(fā)售前體驗(yàn)一段時(shí)間。于是我運(yùn)行了一系列的測(cè)試,從微架構(gòu)與性能兩方面提前體驗(yàn)時(shí)隔兩年的 AMD 新微架構(gòu)。
由于只有幾個(gè)小時(shí)的時(shí)間,這次就只針對(duì) CPU 部分簡(jiǎn)單跑了一些現(xiàn)成的跑分而沒(méi)有仔細(xì)深究微架構(gòu)的每一個(gè)細(xì)節(jié)。如果有必要,后續(xù) Zen5 量產(chǎn)版本發(fā)售之后我會(huì)再做一些補(bǔ)充。
處理器參數(shù)
Strix Point 系列首發(fā)的兩個(gè) SKU 分別是HX 370和365,均僅支持 FP8 封裝。首發(fā)時(shí)僅支持 LPDDR5x 內(nèi)存,本次測(cè)試的平臺(tái)為 LPDDR5x-7500 32GB。
在移動(dòng)端處理器連續(xù)4代提供8核移動(dòng)端處理器、連續(xù)3代使用原生8核心的CCX之后,Strix Point 終于大幅度修改了核心配置。Strix Point 是一個(gè)原生12核心的處理器,并且由非對(duì)稱的兩個(gè) CCX 組成:
- CCX0: 4個(gè)核心,搭配 16 MB L3 緩存
- Zen 5 青春版大核心:相比桌面/服務(wù)器的完整版 Zen 5,其最高頻率從 5.7 GHz 降低到 5.1 GHz,SIMD 吞吐減半,對(duì)應(yīng)的 L1 向量load帶寬也減半
- CCX1: 6或8個(gè)核心,搭配 8 MB L3 緩存
- Zen 5c 小核心:使用與大核完全相同的微架構(gòu),在后端物理設(shè)計(jì)層面繼續(xù)降低Fmax target以縮減面積,頻率不超過(guò)4 GHz。
最高端的HX 370處理器有完整的4+8核心,大核最高頻率為 5.1 GHz;而本次測(cè)試的次高端365則是4+6核心的搭配,大核頻率為 5.0 GHz。由于保留了完整的4個(gè)大核并且大核頻率僅降低0.1 GHz,日常使用不會(huì)與HX370有非常明顯的差異。
AMD 官網(wǎng)沒(méi)有寫明小核參數(shù),經(jīng)過(guò)實(shí)測(cè)可得365小核頻率為 3.3 GHz,HX 370則只有后續(xù)再進(jìn)行測(cè)試才知道。與 Phoenix2 不同的是,Strix Point處理器大小核可同時(shí)跑滿各自的最大頻率,而不會(huì)出現(xiàn)互相拖累的問(wèn)題。
微架構(gòu)特性
與 Zen 4 相對(duì)微小的改動(dòng)不同的是,Zen 5是一個(gè)“ground-up”的全新微架構(gòu),其地位與 Zen 3 相近。因此它也開啟了新的篇章:CPUID family從19h (25) 改為 1Ah (26)。本文選取了一些比較基礎(chǔ)的微架構(gòu)測(cè)試數(shù)據(jù)整理發(fā)布。
指令吞吐
使用 InstructionRate 工具分別測(cè)量 Zen 3/4/5 的指令吞吐/延遲,
從上面的測(cè)試中可以看出,Zen 5 相比 Zen 4 的改動(dòng)有進(jìn)有退:
- 大幅度增加各種 scalar ALU 指令的吞吐,但由于移動(dòng)端Zen 5的向量單元相比桌面與服務(wù)器減半,在本次測(cè)試中相比Zen 4的SIMD吞吐基本維持不變。即便是在向量單元減半的Zen 5核心上,所有寬度的SIMD store操作依然相比前代翻倍,SIMD load store 吞吐達(dá)到 1:1;
- 大幅度增強(qiáng)分支處理能力,每周期可處理的 non-taken branch 從兩個(gè)增加到3個(gè),且每周期可處理兩個(gè) taken branch。這個(gè)應(yīng)該與新的前端設(shè)計(jì)有關(guān);
- 128/256/512bit 的 SSE/A VX/A VX512 SIMD 整數(shù)加法計(jì)算的延遲全部增加到2周期,這個(gè)改動(dòng)可能是為了讓維持高頻變得更容易;
- 128/256bit SIMD 整數(shù)加法運(yùn)算吞吐相比Zen 4全部減半,但512bit不變。推測(cè)這個(gè)問(wèn)題只在 SIMD減半的Zen 5核心上存在,可能與 port 分配有關(guān);
- 移除 Zen 4 引入的 nop fusion 功能?,F(xiàn)在不再可以將 nop 指令與另一條指令合并在同一個(gè) macro-op 上;
- 調(diào)整了一些邏輯寄存器操作的吞吐,將一部分 mov 以及一部分寄存器 zeroing 吞吐統(tǒng)一為5,相比 Zen 4 有增有減;
從整體上看,Zen 5的后端指令吞吐以增加為主,但也有少部分指令作出了相當(dāng)大的取舍,部分指令的吞吐偏保守。
取指令、解碼與macro-op cache
Zen 5目前公開的信息里沒(méi)有太詳細(xì)地提到前端的規(guī)模,只有一個(gè)提到前端指令吞吐最多翻倍的頁(yè)面。
除此之外AMD還提到一個(gè)關(guān)鍵詞:“Parallel dual pipe front-end”,這個(gè)設(shè)計(jì)讓人聯(lián)想到兩年前公布的兩個(gè)專利:
通過(guò)運(yùn)行不同指令長(zhǎng)度、不同指令數(shù)量的NOP指令,我們可以較為容易地觀測(cè)取指令、解碼與 macro-op cache 的行為。從這個(gè)測(cè)試中,我們可以看出 Zen 5 的前端相比 Zen 4 有著相當(dāng)特殊的表現(xiàn)。
首先從2字節(jié)的NOP開始:
在這個(gè)測(cè)試?yán)铮梢钥吹絑en 5單線程運(yùn)行2字節(jié)NOP的取指令能力并沒(méi)有相對(duì)Zen 4表現(xiàn)出任何明顯優(yōu)勢(shì)(除去 macro-op cache 內(nèi)的吞吐略微提升了一些),且在以下情況下相對(duì)劣勢(shì):
- 可觀測(cè)到的 macro-op cache 減少。Zen 4在8-12KB(也就是對(duì)應(yīng)4k-6k條指令)的吞吐下降幅度相比Zen 5更為平緩,推測(cè)Zen 5將 macro-op cache 減少到與Zen 3相同的4k條;
- 出緩存后從DRAM取指令的帶寬減半,推測(cè)單線程最大in-flight L1i$ miss減半。
在這個(gè)測(cè)試?yán)?,Zen 5單個(gè)線程依舊是一個(gè)4解碼x86核心的表現(xiàn)。但當(dāng)我們開啟兩個(gè)SMT線程一起測(cè)試時(shí),可以觀察到吞吐翻倍,指令吞吐在L1-L2乃至L3區(qū)間內(nèi)都達(dá)到了8,在DRAM區(qū)間也恢復(fù)了與Zen 4相同的正常水平。
繼續(xù)使用4字節(jié)NOP指令觀察,可以看出Zen 4在這個(gè)測(cè)試?yán)镉|發(fā)了NOP融合,因此 macro-op cache的NOP吞吐和等效容量翻倍,而Zen 5則維持了相似的表現(xiàn)——macro-op cache內(nèi)IPC略大于6,單線程等效為4寬的x86解碼。而4字節(jié)指令不僅會(huì)出現(xiàn)DRAM fetch帶寬下降,從L3 fetch也觀察到帶寬減半。開啟SMT后則可在L2內(nèi)做到8寬解碼,L3 fetch 帶寬也恢復(fù)正常。
在8字節(jié)NOP的測(cè)試中,由于4096條指令的 macro-op cache 可以完全覆蓋32K L1i,因此無(wú)法準(zhǔn)確判斷這種情況下的x86解碼性能,只能看出Zen 4/Zen 5各自走 macro-op cache 時(shí)的指令吞吐分別為6和8。
從上述測(cè)試中可以猜個(gè)八九不離十:
- Zen 5采用了與Tremont相似但更寬的多前端設(shè)計(jì),采用兩個(gè)4寬的x86解碼器,搭配至少8寬的 macro-op cache 實(shí)現(xiàn)8寬 rename;
- 考慮以下現(xiàn)象
- Zen 5單線程運(yùn)行連續(xù)的NOP指令時(shí)并不能讓x86解碼帶寬超過(guò)4;
- 在指令吞吐小節(jié)中測(cè)試得出其單周期可以處理兩個(gè)taken branch;
- 合理推測(cè)Zen 5沒(méi)有采用類似Gracemont的predecode ILD緩存方案,而是必須在分支預(yù)測(cè)器預(yù)測(cè)發(fā)生taken branch時(shí)才能讓兩個(gè)解碼同時(shí)工作,也就是直接讓其中一個(gè)解碼器去從下一個(gè)分支目標(biāo)地址開始解碼。從這個(gè)角度來(lái)看,AMD本代依然需要依賴 macro-op cache 來(lái)實(shí)現(xiàn)分支較為稀疏的場(chǎng)景的高吞吐;
- Zen 5不僅要支持同一周期從兩個(gè)位置開始解碼 x86 指令,也要支持同一周期從 macro-op cache 中的兩個(gè)位置分別 fetch 指令,以實(shí)現(xiàn) macro-op cache 覆蓋范圍內(nèi)的每個(gè)周期處理兩個(gè) taken branch;
- 當(dāng)核心運(yùn)行兩個(gè)SMT線程時(shí),可以各自獨(dú)占一個(gè)解碼器使整個(gè)核心的x86解碼吞吐上限在大部分情況下達(dá)到8。
由于時(shí)間和測(cè)試條件關(guān)系,本次暫時(shí)沒(méi)有收集性能計(jì)數(shù)器數(shù)據(jù)結(jié)合實(shí)際跑分來(lái)觀察新的前端表現(xiàn),因此僅僅只能進(jìn)行一些簡(jiǎn)單的理論分析。
個(gè)人推測(cè)在不久的將來(lái),macro-op cache可能會(huì)被從 Zen 核心上完全移除,從而轉(zhuǎn)向更為靈活的predecode ILD緩存方案來(lái)解決x86可變長(zhǎng)度寬解碼問(wèn)題。同時(shí),AMD可以增加多組解碼器的數(shù)量以輕松為高性能核心實(shí)現(xiàn)更寬的x86解碼(同時(shí)支持單周期處理更多的 taken branch),或減少解碼器數(shù)量為低功耗核心實(shí)現(xiàn)更節(jié)能、面積更小的x86解碼。
訪存延遲與帶寬
Zen 5并沒(méi)有對(duì)緩存容量和核心拓?fù)溥M(jìn)行非常大的改動(dòng),因此跑一些比較常規(guī)的測(cè)試。
從上圖可以看出,
- Zen 5將L1緩存增加到48 KB并且延遲維持4周期不變。
L1延遲性能優(yōu)于Ice Lake之后實(shí)現(xiàn)48KB L1的微架構(gòu),與即將發(fā)布的 Arrow Lake (Lion Cove) 相同。 - L2延遲屬性整體維持不變(1MB 14周期)
- L3延遲從50周期降低到46周期左右。
考慮到Zen 5的頻率并沒(méi)有非常大的下降,可以認(rèn)為它的L3延遲獲得了小幅度進(jìn)步。
接下來(lái)進(jìn)行SIMD讀取帶寬的測(cè)試,
可以看出,
- SIMD規(guī)格減半的Zen 5的L1讀取帶寬與Zen 4基本相同,均為每周期64字節(jié);
- 與L1不同的是,L2帶寬翻倍的屬性被保留;
- 單線程讀取L3的帶寬更接近理論的每周期32字節(jié),而Zen 4只有每周期24字節(jié)左右。
跨核心同步
Strix Point 處理器再次引入雙CCX設(shè)計(jì)引發(fā)了一些人對(duì)跨CCX同步性能的擔(dān)憂,因此本文也進(jìn)行了簡(jiǎn)單的跨核心同步的性能測(cè)試。
可以看出,Strix Point的兩組核心在不同的CCX內(nèi),表現(xiàn)與一般的 Ryzen 沒(méi)有什么明顯區(qū)別???CCX 同步的延遲偏高(大約是桌面 Ryzen 的兩倍左右),可能與 FCLK 頻率動(dòng)態(tài)調(diào)節(jié)等因素有關(guān)。
性能實(shí)測(cè)
由于時(shí)間關(guān)系,本次選取了SPEC CPU 2017 rate-1、Geekbench 5/6的單核/多核,分別對(duì)高頻的Zen 5以及低頻的Zen 5c進(jìn)行測(cè)試。
- 其中Geekbench測(cè)試時(shí)間較短,因此所有設(shè)備運(yùn)行于默認(rèn)最高頻率(frequency governor配置到“performance”);
- SPEC CPU 2017運(yùn)行時(shí)間較長(zhǎng),其中500和548等子項(xiàng)的局部發(fā)熱非常嚴(yán)重,單核運(yùn)行測(cè)試也會(huì)撞溫度墻。在對(duì)Ryzen AI 9 365進(jìn)行測(cè)試時(shí),部分情況下頻率會(huì)降低到4.9 GHz左右。為獲得準(zhǔn)確數(shù)據(jù),在SPEC測(cè)試中將所有處理器使用CPPC限制到4.8 GHz同頻對(duì)比。
- “Relative Performance”以7735U為基準(zhǔn),計(jì)算所有其它處理器的提升幅度
- “IPC uplift”則以前代為基準(zhǔn)計(jì)算IPC提升幅度。Zen 4的IPC提升幅度相對(duì)Zen 3計(jì)算,Zen 5/5c相對(duì)Zen 4計(jì)算。
SPEC CPU 2017
觀察子項(xiàng)成績(jī)可以發(fā)現(xiàn),500.perlbench_r的提升較大,達(dá)到了24%。而525.x264_r幾乎沒(méi)有性能提升,531.deepsjeng_r甚至發(fā)生性能下降(-5%)。以這三個(gè)測(cè)試為例進(jìn)行一些簡(jiǎn)短的分析(猜測(cè)為主):
- perlbench是AMD的傳統(tǒng)劣勢(shì),其性能瓶頸被L1容量、load/store能力的提升很好地緩解。除此之外perlbench的ILP較好,分支指令數(shù)量適中,可能可以較好地發(fā)揮新的前端吞吐提升;
- x264主要是執(zhí)行單元瓶頸,編譯器自動(dòng)向量化生成了大量SIMD整數(shù)運(yùn)算代碼。通過(guò)前面的分析可以發(fā)現(xiàn),Strix Point上的Zen 5不僅在這方面毫無(wú)進(jìn)步,甚至還有相當(dāng)大的退步。那么微架構(gòu)方面的提升極有可能被這些SIMD方面的削減抵消,想要在這個(gè)測(cè)試?yán)铽@得完整的Zen 5性能可能只能等待桌面版;
- 在之前針對(duì)Zen 4運(yùn)行SPEC的性能計(jì)數(shù)器分析中可以看出,531子項(xiàng)哪怕是在擁有 6.75K macro-op cache 的Zen 4核心上運(yùn)行也會(huì)造成相當(dāng)高的 macro-op cache MPKI。而Zen 5這方面有較為明顯的削減會(huì)進(jìn)一步拉低命中率,推測(cè)IPC下降與此有一定的關(guān)聯(lián)。
總之,在有條件收集性能計(jì)數(shù)器數(shù)據(jù)之后,我會(huì)對(duì)跑分進(jìn)行更詳細(xì)的性能分析。
Geekbench
從整體看,Zen 5在 Geekbench 5/6 中的IPC提升比較符合官方宣傳(在沒(méi)有 FP/ML 子項(xiàng)刷分的情況下做到了大約15%-17%的提升),好于 SPEC CPU 2017 int rate 的提升。
需要注意的是,Geekbench 6 的 Object Detection 子項(xiàng)會(huì)使用 A VX512-VNNI 或者 A VX-VNNI 進(jìn)行加速,因此 Zen 4相比 Zen 3 在此項(xiàng)測(cè)試中性能超過(guò)翻倍,拉高了平均數(shù)。而移動(dòng)端 Zen 5 相比 Zen 4 并沒(méi)有提高 A VX512 吞吐,在此項(xiàng)測(cè)試中的提升并不占優(yōu)。由于 Geekbench 6 的這些改動(dòng),我認(rèn)為 Geekbench 5 的整數(shù)子項(xiàng)放在今天依然比 Geekbench 6 更加具備參考價(jià)值。
總結(jié)
Zen 5 是世界上首個(gè) 8-wide rename 的 x86 微架構(gòu)。本次 AMD 一反常態(tài)地將 Zen 5 移動(dòng)端 APU 首先展示出來(lái),但不幸的是無(wú)論是大核還是小核都并非性能最好的完全體。移動(dòng)端一如既往減半的緩存、以往沒(méi)有出現(xiàn)過(guò)的減半 SIMD 單元、較上代更低的頻率,無(wú)不意味著 Zen 5 移動(dòng)平臺(tái)和桌面版本的綜合性能差距將會(huì)來(lái)到史無(wú)前例的級(jí)別。
好在通過(guò)測(cè)試 Strix Point 已經(jīng)可以足夠了解這個(gè)微架構(gòu)的設(shè)計(jì)思想和最重要的新特性,以解答那個(gè)老生常談的問(wèn)題——x86 作為一個(gè)復(fù)雜的變長(zhǎng)指令,在這個(gè)RISC當(dāng)?shù)赖臅r(shí)代,未來(lái)應(yīng)該何去何從?在我看來(lái),當(dāng) Intel 目前最有活力的 atom 團(tuán)隊(duì)與后來(lái)者 AMD 給出了相同的結(jié)論時(shí),我相信答案已經(jīng)離我們不遠(yuǎn)了。期待后續(xù)有機(jī)會(huì)進(jìn)行更多的詳細(xì)完整測(cè)試。
聲明:本文僅為博主 Da vid Huang個(gè)人測(cè)試,測(cè)試使用的一切設(shè)備、工具等資產(chǎn)與本人所在公司/職位無(wú)關(guān),也沒(méi)有接受任何贊助。由于使用非正式版系統(tǒng)固件/軟件,測(cè)試結(jié)論可能與零售設(shè)備有少許差異,僅供參考.
相關(guān)文章
OEM專供的8400F性價(jià)比還是雞肋? AMD Ryzen5 8400F深度測(cè)評(píng)
AMD最近不是發(fā)布了原定用于OEM整機(jī)產(chǎn)品的全新銳龍8000F系列處理器,也看到了不少采用這個(gè)系列處理器的整機(jī)產(chǎn)品已經(jīng)上市了,能不能找一下這個(gè)系列的處理器來(lái)測(cè)試一下2024-06-19性能炸裂! AMD Ryzen AI 9 HX370 CPU和核顯跑分已曝光
AMD Ryzen AI 9 HX 370 現(xiàn)身 GeekBench 跑分庫(kù),該 APU 屬于 Ryzen AI 300 "Strix Point" 系列,擁有 12 核 24 線程芯片,采用 4 Zen 5 和 8 Zen 5C 配置2024-06-17i5-12490F VS 銳龍5 7500F怎么選? 酷睿對(duì)比AMD處理器對(duì)比測(cè)評(píng)
都2024年了還是不知道到底是選擇intel酷睿i5 12490F,還是選擇AMD銳龍5 7500F?這個(gè)問(wèn)題其實(shí)很容易弄明白,詳細(xì)請(qǐng)看下文對(duì)比測(cè)評(píng)2024-06-06整機(jī)新寵C(jī)PU表現(xiàn)如何? AMD銳龍5 8400F處理器詳細(xì)評(píng)測(cè)
取消核顯就能進(jìn)一步增強(qiáng)性價(jià)比?本文介紹了AMDR5-8400F CPU的性能測(cè)試與整機(jī)市場(chǎng)表現(xiàn),分析了8400F的優(yōu)缺點(diǎn),詳細(xì)請(qǐng)看下文介紹2024-05-258000MHz高頻內(nèi)存也贏不了! AMD銳龍 7800X3D和14900K處理器對(duì)比測(cè)評(píng)
在最新Win 11/10系統(tǒng)中游戲性能誰(shuí)更強(qiáng)?針對(duì)Intel的i9-14900K和AMD的銳龍7 7800X3D這兩款處理器,我們來(lái)進(jìn)行一次詳細(xì)的游戲性能對(duì)比2024-05-23AMD 8400F與12400F誰(shuí)更勝一籌? 入門級(jí)處理器對(duì)比測(cè)評(píng)
最近AMD推出了一款R5 8400F處理器,總算填補(bǔ)了自家千元內(nèi)的低端CPU空白,玩家們?cè)谶x購(gòu)U的時(shí)候,都喜歡將R5 8400F和Intel i5 12400F兩者進(jìn)行對(duì)比,畢竟它們多少是有些相同的2024-05-23Intel i5-12600KF和AMD R5-5700X3D怎么選? 千元級(jí)CPU推薦
千元級(jí)檔位的cpu,Intel和AMD各有一款選擇產(chǎn)品,分別是酷睿i5-12600KF和銳龍R7 5700X3D,從CPU的規(guī)格參數(shù)來(lái)看,兩者各有勝負(fù):12600KF有單核高性能和睿頻的優(yōu)勢(shì),詳細(xì)請(qǐng)看2024-03-27貴就一定強(qiáng)? AMD 銳龍7 7800X3和Intel i9 14900K詳細(xì)對(duì)比測(cè)評(píng)
AMD的銳龍7 7800X3D處理器憑借其出色的游戲性能再次引起了廣泛關(guān)注,而Intel的i9-14900K搭配8000MHz內(nèi)存也未能撼動(dòng)AMD的地位,本次我們將會(huì)使用RTX 4070來(lái)進(jìn)行測(cè)試,對(duì)比銳2024-03-11amd7950x和i913900有什么不同 amd7950x和i913900區(qū)別介紹
amd7950x和i913900哪個(gè)好?AMD和英特爾相繼發(fā)布Zen4架構(gòu)銳龍7000系列處理器和13代酷睿處理器,下面小編帶來(lái)amd7950x和i913900對(duì)比詳解,希望對(duì)大家有所幫助2024-01-31amd7700x和amd5900x哪個(gè)好 amd7700x和amd5900x對(duì)比介紹
amd7700x和amd5900x哪個(gè)好?大家在選購(gòu)電腦的時(shí)候,CPU尤為重要,一款好的cpu可以大大的提高電腦的運(yùn)行速度,下面小編帶來(lái)amd7700x和amd5900x區(qū)別對(duì)比,希望對(duì)大家有所幫助2024-01-31