雖然AMD在去年底就發(fā)布了覆蓋16核心到96核心,1P到2P配置的新一代EPYC 9004系列處理器,但由于巨大的計算市場涵蓋了眾多不同的應(yīng)用需求與場景,比如高性能計算要求的產(chǎn)品往往對單核心性能、并行性能、內(nèi)存帶寬等要求很高,云計算廠商則更在乎核心數(shù)量、數(shù)據(jù)帶寬等,要求計算環(huán)境高效、敏捷、可擴展能力強。所以為滿足云計算市場用戶的需求,AMD在今年6月發(fā)布了EPYC 9004系列處理器的新產(chǎn)品:采用Zen 4c核心架構(gòu),代號“Bergamo”的三款新處理器:EPYC 9754、EPYC 9754S與EPYC 9734。與之前的產(chǎn)品相比,這三款處理器的核心數(shù)量更多,最高可以達(dá)到128核心,區(qū)別在于它們采用的是Zen 4c核心,相比擁有更大L3緩存容量,采用Zen 4核心設(shè)計的其他EPYC 9004系列處理器,它們在多核心計算上是否真的更有優(yōu)勢呢?
降低三級緩存容量、核心數(shù)更多
與EPYC 9654、EPYC 9554等處理器采用的Zen 4處理器架構(gòu)相比,新的Zen 4c核心在TSMC 5nm工藝下,只有2.48平方毫米的面積,相比之前的Zen 4的3.84平方毫米,縮減了35%,這樣將使得AMD有條件在1個CCD中集成16顆Zen 4c核心,并使用8個CCD完成128核心的配置。AMD的數(shù)據(jù)顯示,擁有16個Zen 4c核心的CCD面積為72.7平方毫米,而8個Zen 4核心的CCD是66.3平方毫米,AMD使用僅多9.6%的面積空間,使得核心數(shù)量翻倍。
Zen 4c的核心面積相比Zen 4更小
同時兩款處理器架構(gòu)在LDQ、STP、微指令緩存、L1、L2、L2 TLB、L2延遲、L3延遲以及執(zhí)行端的整數(shù)性能、浮點性能、ROB、復(fù)雜指令計算延遲(FADD、FUML、FMA)、L1 BTB、L2 BTB等方面,均無差別。唯一的差別在于,Zen 4c的L3緩存每核心配置只有2MB,而不是Zen 4的4MB。對需要極高計算密度的客戶而言,更大的L3緩存雖然可以提升性能,但是顯然沒有更多的核心數(shù)量更重要,并且L3緩存是每8個核心一起使用16MB。
Zen 4c的架構(gòu)變化,僅有L3緩存減半一條,其余維持不變。
Zen 4c處理器架構(gòu)圖,每個CCD中可集成16顆Zen 4c核心,2×16MB三級緩存,每個核心擁有1MB L2二級緩存。
目前AMD推出了3款采用Zen 4c核心的EPYC 97X4處理器,具體型號包含:EPYC 9754、EPYC 9754S和EPYC 9734。這三款處理器都擁有256MB L3緩存,均支持12個DDR5內(nèi)存通道,可以提供128條PCIe 5.0通道。
EPYC 97X4系列處理器、規(guī)格一覽
不同之處在于,雖然EPYC 9754和EPYC 9754S的核心數(shù)量都是128個,默認(rèn)功耗設(shè)置均為360W,基礎(chǔ)頻率均為2.25GHz,加速頻率也都為3.1GHz。但EPYC 9754S不支持SMT同步多線程技術(shù),因此只有128個線程,而EPYC 9754則支持SMT,擁有多達(dá)256個線程。
定位最低的EPYC 9734則關(guān)閉了一組CCD,有112個核心和224個線程,且基礎(chǔ)頻率與加速頻率分別小幅降低到2.2GHz、3.0GHz,默認(rèn)功耗設(shè)置也降低為340W,相比EPYC 9754的360W更低一些。此外這三款處理器也可以根據(jù)用戶需求、散熱條件等進行配置,比如功耗可以配置到320W~400W之間。?
基于Zen 4c核心的AMD EPYC 9754(上圖)依然為SP5 LGA6096封裝,與基于Zen 4核心的EPYC 9654(下圖)相同,采用接近正方形的外觀設(shè)計,相比第三代EPYC處理器面積更大。?
根據(jù)AMD之前的測試顯示,以至強鉑金8490H和8480+(分別有56個和60個CPU核心)為對比對象,128核心、256線程的EPYC 9754在云計算方面的性能最高可以達(dá)到對比處理器的2.65倍,最低也能達(dá)到1.49倍之多。
EPYC 9754在云計算方面的性能最高可以達(dá)到至強鉑金8490H和8480+處理器的最高2.65倍,Ampere Altra 128核心的最高3.7倍。
如果對比已經(jīng)上市、針對云計算設(shè)計的處理器也就是Ampere Altra 128核心的話(采用ARM Neoverse-N1核心),EPYC 9754的性能勝出幅度就更大了,其性能最高可以達(dá)到前者的3.7倍,畢竟Ampere Altra 128甚至都不是英特爾至強鉑金8490系列處理器的對手。
在其他性能方面,比如線程性能,容器能力、每瓦特性能方面,AMD都給出了相關(guān)的測試數(shù)據(jù),EPYC 9754處理器基本上都是以遙遙領(lǐng)先的態(tài)勢出現(xiàn)。
不過與采用Zen 4架構(gòu)的EPYC處理器相比,基于Zen 4c核心的EPYC 97X4系列處理器是否依然具備優(yōu)勢呢?為此我們特別采用在之前測試中表現(xiàn)出彩的EPYC 9004系列處理器中的旗艦:96核心、192線程設(shè)計的EPYC 9654處理器與EPYC 9754處理器進行了對比,讓我們看看擁有更多核心,但三級緩存容量有所減少的EPYC 9754處理器能否戰(zhàn)勝核心數(shù)更少,但擁有更大三級緩存容量的EPYC 9654。
我們?nèi)绾螠y試
本次測試統(tǒng)一考察的是雙路系統(tǒng)的性能,因此EPYC 9754、EPYC 9654處理器都統(tǒng)一使用了AMD Titanite SP5 2P2U雙路主板。內(nèi)存方面,兩款處理器單路支持12條內(nèi)存通道,雙路系統(tǒng)支持24條內(nèi)存通道,因此我們也為它們采用了24通道內(nèi)存配置。本次測試所使用的內(nèi)存為三星DDR5 4800 64GB,內(nèi)存總數(shù)量為24根,內(nèi)存總?cè)萘繛?.5TB,搭配美光9300系列企業(yè)級NVMe SSD。
本次測試統(tǒng)一考察的是雙路系統(tǒng)的性能,EPYC 9754、EPYC 9654處理器統(tǒng)一采用了AMD Titanite SP5 2P2U雙路主板,12通道、24條內(nèi)存配置。
接下來我們在Ubuntu 22.04操作系統(tǒng)下,特別采用考察處理器浮點與整數(shù)性能、內(nèi)存性能,以及光線追蹤、渲染等10個專業(yè)軟件、13個子項項目對兩款處理器的性能進行了全面測試。
需要提及的是,為了讓讀者更好地了解這兩款處理器在眾多企業(yè)級產(chǎn)品中的性能水準(zhǔn),我們還在部分測試中引入了其他處理器已經(jīng)測試過的成績。它們是128核心、256線程配置的雙路EPYC 9554系統(tǒng),64核心、128線程配置的雙路EPYC 9374F系統(tǒng),以及128核心、256線程配置,使用DDR4 3200內(nèi)存的雙路EPYC 7763系統(tǒng)。后者隸屬第三代EPYC霄龍?zhí)幚砥?,采用Zen 3處理器架構(gòu)、TSMC 7nm生產(chǎn)工藝。
第四代AMD EPYC處理器雙路系統(tǒng)測試平臺一覽
處理器:EPYC 9754 ×2
EPYC 9654 ×2
內(nèi)存:? 三星DDR5 4800 64GB×24
主板:? AMD Titanite
硬盤:??美光9300系列企業(yè)級NVMe SSD
系統(tǒng):? Ubuntu 22.04
性能測試:SPECrate 2017
SPECrate 2017測試的是單位時間的吞吐量或工作量,這是服務(wù)器采購時的主要性能指標(biāo),所以服務(wù)器廠商和處理器廠商通常提供的是這一測試成績。在SPECrate 2017中包含SPECrate Integer和SPECrate Floating Point,前者測試的是整型并發(fā)性能,后者測試的是浮點并發(fā)性能。該軟件的一個重要特性是可以調(diào)動處理器內(nèi)的所有核心、線程數(shù)參與計算。
接下來我們重點關(guān)注了EPYC 9754與EPYC 9654在雙路配置性能上的對比。測試顯示,盡管雙路EPYC 9654系統(tǒng)三級緩存容量更大,擁有192核心、384線程,并且輕松擊敗了其他核心數(shù)更少的產(chǎn)品,但由于核心、線程數(shù)不如EPYC 9754,因此最終擁有256核心、512線程的EPYC 9754雙路系統(tǒng)在測試成績上擊敗了EPYC 9654。其整數(shù)性能相對于EPYC 9654雙路系統(tǒng)領(lǐng)先了多達(dá)12.1%,浮點運算性能領(lǐng)先了5.2%。對提供云服務(wù)的廠商而言,這是非常有意義的結(jié)果,畢竟任何云業(yè)務(wù)計算都需要占用大量CPU的運算能力,比如直播業(yè)務(wù)高峰期云服務(wù)器中的CPU占用率經(jīng)常會達(dá)到90%以上,因此只有采用具有更強算力的處理器才能保證業(yè)務(wù)更流暢地在客戶端運行。
性能測試:Stream-Triad
Stream是業(yè)界廣為流行的綜合性內(nèi)存帶寬實際性能測量工具之一。和硬件廠商提供的理論最大內(nèi)存帶寬不同,通過fortran、C兩種高級且高效的語言編寫完成的Stream,可以在測試中充分發(fā)揮出內(nèi)存的能力。Stream一共包含Copy、Scale、Add 和Triad 這4種操作,其中Triad組合了前面3種操作,所以其測試成績更具參考價值。
從測試結(jié)果可以看到,采用DDR5內(nèi)存的兩款EPYC雙路系統(tǒng)都擁有很大的優(yōu)勢,畢竟這些系統(tǒng)每一路采用的都是規(guī)格大幅提升的12通道DDR5 4800內(nèi)存系統(tǒng),單路理論內(nèi)存帶寬就可以達(dá)到460.8GB/s,因此在內(nèi)存性能測試上,EPYC 9754、EPYC 9654沒有明顯區(qū)別,差別很小。前者的測試成績?yōu)?43502MB/s,后者為741063MB/s,其雙路內(nèi)存帶寬都在720GB/s以上,遠(yuǎn)遠(yuǎn)高于使用DDR4 3200內(nèi)存的第三代EPYC處理器:雙路EPYC 7763系統(tǒng)。
第三代雙路EPYC系統(tǒng)每一路采用的都是8通道DDR4內(nèi)存系統(tǒng),在使用DDR4 3200內(nèi)存時的帶寬只有363GB/s左右。顯然借助對12通道DDR5 4800內(nèi)存的支持,采用Zen 4c小核心的EPYC 97X4系列處理器也具備頗為強大的內(nèi)存性能。
性能測試:NAMD
NAMD是一種并行的分子動力學(xué)代碼,由伊利諾伊大學(xué)厄巴納- 香檳分校貝克曼高級科學(xué)與技術(shù)研究所的理論和計算生物物理學(xué)小組開發(fā),它主要用于大型生物分子系統(tǒng)的高性能模擬。本次測試中,我們主要通過NAMD來考察參測處理器的浮點性能。
NAMD也是一個依賴處理器核心數(shù)量的科學(xué)計算,因此測試結(jié)果與SPECrate 2017非常類似,憑借更多的處理器核心數(shù)量,256核心、512線程配置的EPYC 9754雙路系統(tǒng)比192核心、384線程配置的EPYC 9654雙路系統(tǒng)快了12.5%,領(lǐng)先幅度較大。對于準(zhǔn)備提供科研計算云服務(wù)的廠商來說,這也是非常值得關(guān)注的結(jié)果。目前隨著處理器、GPU性能的快速提升,科研計算云服務(wù)器也成為一種強大的計算工具,被廣泛應(yīng)用于數(shù)據(jù)處理、人工智能、生物醫(yī)學(xué)。如在生物醫(yī)學(xué)領(lǐng)域,科學(xué)家們也在進行著類似NAMD這樣的生物分子、基因數(shù)據(jù)運算,而且由于運算量非常大,往往需要借助云服務(wù)器來提高工作效率。
性能測試:OpenSSL
OpenSSL廣泛用于保護服務(wù)器之間的通信,這是許多服務(wù)器堆棧中的重要協(xié)議。OpenSSL測試主要包含生成簽名和驗證簽名兩部分,我們在本次此時中主要進行了OpenSSL生成簽名測試。
測試結(jié)果顯示,OpenSSL測試同樣是一個依賴處理器多線程運算性能的測試,兩個不同核心數(shù)、線程數(shù)配置的雙路系統(tǒng)在成績上也有顯著的區(qū)別。擁有256核心、512線程的EPYC 9754雙路系統(tǒng)在簽名效率上比192核心、384線程配置的EPYC 9654雙路系統(tǒng)快了12.8%,Zen 4c架構(gòu)處理器核心數(shù)更多的優(yōu)勢顯而易見。對于云服務(wù)器商來說,這是一個很有意義的結(jié)果,因為OpenSSL一直是云計算中為應(yīng)用程序提供信息安全的保障,但在不少服務(wù)器中由于硬件設(shè)備性能不濟,用戶數(shù)量增多等問題,使得運算速度不斷降低。運營商如果采用EPYC 9754雙路系統(tǒng)這樣的高性能處理器,顯然可以很好地解決這些問題,能夠?qū)penSSL的計算任務(wù)均衡分配給各個核心,達(dá)到提高資源利用率,工作效率的目的。
基準(zhǔn)性能測試:UnixBench Dhrystone 2和Whetstone
UnixBench來源于BYTE UNIX基準(zhǔn)測試套件,該工具的主要目的是提供服務(wù)器性能的基本指標(biāo)。這是一個系統(tǒng)基準(zhǔn)測試工具,擁有多個測試子項,而不僅僅是CPU、內(nèi)存或磁盤基準(zhǔn)測試工具。其結(jié)果不僅取決于硬件,還取決于操作系統(tǒng)、庫甚至編譯器。在本次測試中我們主要使用了體現(xiàn)整數(shù)性能的Dhrystone 2 using register variables和測試雙精度浮點操作速度與效率的Double-Precision Whetstone。此外,在這兩個測試項目均可選用單線程或多線程進行,本次測試我們選用的是多線程。
與SPECrate 2017相比,這兩個測試更能體現(xiàn)處理器核心數(shù)量的重要性。首先EPYC 9754雙路系統(tǒng)在雙精度浮點性能運算上領(lǐng)先20%,在體現(xiàn)整數(shù)性能的Dhrystone 2 using register variables上更領(lǐng)先EPYC 9654雙路系統(tǒng)高達(dá)23.5%,其優(yōu)勢非常明顯。
性能測試:C-ray 1.1
C-ray是一種常用的光線追蹤基準(zhǔn)測試,可以顯示多線程工作負(fù)載下處理器的差異,時間越短說明系統(tǒng)性能越強。在本次測試中,我們使用了4K和8K這兩種分辨率進行測試,從而對比參測系統(tǒng)在不同負(fù)載下的性能差異。?
從測試結(jié)果來看,使用處理器來完成光線追蹤任務(wù)不僅需要處理器的計算能力,也比較依賴處理器的三級緩存容量,大容量緩存可以有效提高光線追蹤性能,因為光線追蹤計算過程中需要在內(nèi)存和緩存中存儲大量的場景幾何信息、紋理和光線追蹤過程中的中間結(jié)果等數(shù)值,所以緩存容量越大,就能減少處理器訪問內(nèi)存的時間,提高計算效率,所以最終緩存容量更大的192核心、384線程配置的EPYC 9654雙路系統(tǒng)在這個測試中可以和256核心、512線程的EPYC 9754雙路系統(tǒng)打平,兩個測試系統(tǒng)都取得了完全相同的成績。
性能測試:Sysbench CPU
Sysbench是一款被廣泛使用的Linux基準(zhǔn)測試,它可以對CPU進行性能測試,在測試中主要是通過CPU進行質(zhì)數(shù)加法運算,質(zhì)數(shù)極限為10000個。
同樣對于提供云服務(wù)的廠商而言,這也是一個值得關(guān)注的結(jié)果,畢竟Linux是一種在服務(wù)器中廣泛應(yīng)用的操作系統(tǒng),具有高度的穩(wěn)定性、安全性、可擴展性、靈活性和定制性,被主要用在Web服務(wù)器、數(shù)據(jù)庫服務(wù)器、云計算等領(lǐng)域。測試結(jié)果意味著,在Linux系統(tǒng)下進行處理器多核心運算測試的話,擁有256核心、512線程的EPYC 9754雙路系統(tǒng)可以完全發(fā)揮出最大性能,每秒能完成922370.2輪運算,比EPYC 9654雙路系統(tǒng)的成績領(lǐng)先了12%。
性能測試:HPL
HPL的英文全稱為“High-Performance Linpack”,Linpack是國際上一款用于測試高性能計算機系統(tǒng)浮點性能的基準(zhǔn)測試工具。通過對高性能計算機采用高斯消元法求解一元N次稠密線性代數(shù)方程組的測試,考察高性能計算機的浮點性能。值得一提的是,該測試支持AVX-512指令集,在支持AVX-512技術(shù)的硬件上,可以使用AVX-512指令集運算來完成該測試。?
結(jié)果令人欣喜,擁有更多計算核心的EPYC 9754雙路系統(tǒng)在該測試中輕松戰(zhàn)勝了EPYC 9654雙路系統(tǒng),領(lǐng)先幅度達(dá)到17.7%。由于云計算服務(wù)器的一個重要作用是向用戶提供計算力,評價一款服務(wù)器總體計算力的方法就是采用統(tǒng)一標(biāo)準(zhǔn)作為評判,而Linpack測試就是其中之一,包括世界最快500臺巨型機系統(tǒng)的排名都采用了這一標(biāo)準(zhǔn),因此EPYC 9754雙路系統(tǒng)的勝出意味著它的算力的確要更勝一籌。
性能測試:DGEMM
DGEMM是一個基于雙精度矩陣乘法例行程序的快速基準(zhǔn)測試,可計算以下乘積:C←αAB+βC。其中A、B和C是包含雙精度浮點值的矩陣,α和β是標(biāo)量。AMD的開源DGEMM基準(zhǔn)使用了AOCL 4.0的AMD BLIS組件,其結(jié)果最終會反饋出一個Gflops值,該值將接近于可實現(xiàn)的最大系統(tǒng)吞吐量。同樣這個測試也可以使用AVX-512指令集運算,可以體現(xiàn)處理器在支持AVX-512指令集后的性能優(yōu)勢。
HPL的Linpack測試類似,DGEMM也是體現(xiàn)處理器總體算力的一個基準(zhǔn)測試,因此256核心、512線程配置的EPYC 9754雙路系統(tǒng)并不意外地在這個測試中獲得了領(lǐng)先,其測試成績突破11000Gflops,而EPYC 9654雙路系統(tǒng)盡管明顯領(lǐng)先其他核心數(shù)更少的雙路系統(tǒng),但面對EPYC 9754雙路系統(tǒng),它那9282.5Gflops的成績還是明顯落后。
性能測試:V-RAY 5.02
VRay是業(yè)內(nèi)非常受歡迎的一款渲染引擎?;赩-Ray內(nèi)核開發(fā)的有VRay for 3ds max、Maya、Sketchup、Rhino等諸多版本,為不同領(lǐng)域的優(yōu)秀3D建模軟件提供了高質(zhì)量的圖片和動畫渲染,方便使用者渲染各種圖片。目前通過V-Ray渲染引擎提供云渲染服務(wù)的平臺也很多,顯然如果服務(wù)器內(nèi)部的處理器、GPU要進行這類渲染作業(yè),就必須具備很高的性能,因此V-Ray引擎的開發(fā)公司Chaos特別推出了V-Ray ?Benchmark。這是一款獨立的渲染速度測試軟件,可以用于測試處理器、GPU的渲染速度。
長久以來,渲染應(yīng)用對多核心處理器、多線程技術(shù)都有很好的支持,畢竟只有高效地將渲染任務(wù)分配給多個線程,每個線程都同時處理一部分渲染任務(wù),才能大大提高渲染時的速度和效率。因此256核心、512線程配置的EPYC 9754雙路系統(tǒng)也毫無懸念地戰(zhàn)勝了192核心、384線程配置的EPYC 9654雙路系統(tǒng),其每分鐘可以渲染217416 vsamples,領(lǐng)先EPYC 9654雙路系統(tǒng)約4.1%。
更多核心帶來更強大的算力
綜合以上測試,可以看到EPYC 9754雙路系統(tǒng)幾乎在所有項目中取得了領(lǐng)先,最大領(lǐng)先幅度可以達(dá)到23.5%,這也體現(xiàn)出EPYC 9754處理器的128顆Zen 4c核心的確擁有不凡的算力,能夠在與云計算相關(guān)的應(yīng)用與運算中大顯身手,如科學(xué)計算、OpenSSL生成簽名、圖形渲染等應(yīng)用中EPYC 9754都具備明顯的優(yōu)勢。
第四代EPYC處理器包含三大不同系列的處理器,分別面向不同的應(yīng)用領(lǐng)域。
更值得一提的是,EPYC 9754的售價相對于96核心、192線程的EPYC 9654并沒有貴多少,EPYC 9754的官方售價在11900美元左右,而EPYC 9654的官方售價在11805美元左右,以高了不到100美元的差價,就能獲得額外32顆核心,顯然非常超值。相對于競爭對手的同類產(chǎn)品如至強8490H,EPYC 9754更擁有碾壓級的性價比優(yōu)勢,目前僅采用60核心、120線程設(shè)計的至強8490H售價就高達(dá)17000美元。不過需要注意的是,EPYC 9754的出現(xiàn)也并不意味著它可以替代EPYC 9654這樣使用Zen 4核心,擁有更大L3緩存容量的第四代EPYC霄龍?zhí)幚砥?。畢竟有部分?yīng)用如測試中的C-ray光線追蹤也非常依賴處理器的緩存容量,在這些應(yīng)用中,緩存容量更多的EPYC 9654這類處理器會有更好的表現(xiàn)。
總之,EPYC 9754、EPYC 9754S、EPYC 9734處理器的出現(xiàn)只是AMD進一步細(xì)分市場,削減了處理器緩存容量,擁有更多核心數(shù)量,專門針對云計算推出的產(chǎn)品,它們將和EPYC 9654、EPYC 9554等處理器,以及最新采用3D緩存技術(shù)的EPYC 9084X系列處理器,分別在云計算、數(shù)據(jù)中心、技術(shù)計算領(lǐng)域各顯神通,為不同類型的企業(yè)級用戶帶來更高的工作效率,創(chuàng)造更多的價值。
編輯:黃飛
?
評論
查看更多