近年來(lái),在服務(wù)器和數(shù)據(jù)中心等企業(yè)級(jí)市場(chǎng),AMD憑借持續(xù)更新的“Zen”架構(gòu),其EPYC(霄龍)系列處理器的市場(chǎng)占有率上升勢(shì)頭非常迅猛。2022年11月,AMD推出全新第四代EPYC處理器。新處理器將單插槽處理器核心數(shù)量提升到最多96核,并且采用了最新的“Zen 4”架構(gòu),帶來(lái)大量全新特性。接下來(lái),本文就對(duì)第四代EPYC處理器進(jìn)行詳細(xì)解讀。
第四代EPYC處理器:EPYC 9004系列登場(chǎng)
在解析AMD第四代EPYC處理器的架構(gòu)之前,我們先來(lái)梳理一下它的型號(hào)定義,因?yàn)樵谶@方面它與上代產(chǎn)品存在顯著差異。
此前,AMD采用EPYC 7000系列作為原始命名。最后一位數(shù)代表不同代次,比如EPYC 7001、EPYC 7002和EPYC 7003就分別代表三代不同的產(chǎn)品,其中又包含大量細(xì)分型號(hào)。在第四代EPYC處理器上,AMD改用了EPYC 9004作為產(chǎn)品基礎(chǔ)代號(hào),這可能是考慮到本代產(chǎn)品具備極為顯著的性能提升。同時(shí),在大多數(shù)人的概念中,“9”相比“7”顯得定位更高、性能更強(qiáng)。第二位數(shù)字代表處理器核心數(shù)量,其基本對(duì)應(yīng)關(guān)系如下表:
第三位數(shù)字代表性能情況,數(shù)字越大則性能越強(qiáng),目前由2~7的不同數(shù)字組成。如果AMD愿意,未來(lái)還可能進(jìn)一步擴(kuò)展到9。最后一位數(shù)字則固定為“4”,代表第四代EPYC處理器。
▲AMD詳細(xì)解讀了EPYC 9004產(chǎn)品命名情況
▲AMD將EPYC 9004產(chǎn)品分為了三類:追求核心密度的產(chǎn)品、追求平衡和優(yōu)化的性能的產(chǎn)品以及追求核心性能的產(chǎn)品。
AMD本次發(fā)布了18款EPYC 9004系列處理器,分為3個(gè)大類,分別是追求核心密度的產(chǎn)品、追求平衡和優(yōu)化的性能的產(chǎn)品以及追求核心性能的產(chǎn)品,具體規(guī)格見(jiàn)下表。
▲EPYC 9004、EPYC 7003、英特爾第12代酷睿、銳龍7000以及英特爾第11代酷睿處理器(從左到右)的外觀對(duì)比,可以看到EPYC 9004大了不少。
計(jì)算和擴(kuò)展的領(lǐng)先地位:EPYC 9004技術(shù)架構(gòu)一覽
毫不夸張地說(shuō),EPYC 9004是目前市面上最先進(jìn)的企業(yè)級(jí)產(chǎn)品之一。它在CPU架構(gòu)、Chiplet應(yīng)用以及互聯(lián)方式上,幾乎都是當(dāng)前技術(shù)條件下所能達(dá)到的極致。這一次,AMD在超大規(guī)模的企業(yè)級(jí)產(chǎn)品研發(fā)上進(jìn)入了一個(gè)新的層次,短時(shí)間內(nèi),能超越它的只有AMD自己的下一代產(chǎn)品。
設(shè)計(jì)目標(biāo):擁有擴(kuò)展和計(jì)算性能的優(yōu)勢(shì)地位
▲AMD EPYC 9004的設(shè)計(jì)理念
按照慣例,我們先來(lái)看看EPYC 9004的設(shè)計(jì)理念和實(shí)現(xiàn)情況。AMD EPYC 9004的設(shè)計(jì)理念就是繼續(xù)保持計(jì)算性能和擴(kuò)展能力的優(yōu)勢(shì)地位。AMD分四個(gè)方面進(jìn)行了闡述:首先是擁有最先進(jìn)的單核心性能和單插槽性能,這依靠最新的Zen 4架構(gòu)和5nm工藝實(shí)現(xiàn);其次是配備超大的內(nèi)存帶寬和容量,這依靠12通道的DDR5內(nèi)存來(lái)實(shí)現(xiàn);第三是采用全新的下一代IO接口,這包括最大160通道的PCIe 5.0控制器以及可以利用CXL協(xié)議擴(kuò)展的內(nèi)存尋址功能等;第四則是加密計(jì)算方面的新進(jìn)展,主要通過(guò)CXL以及2倍的SEV-SNP功能來(lái)實(shí)現(xiàn)。
▲EPYC 9004和上代產(chǎn)品的性能比較情況
根據(jù)AMD官方數(shù)據(jù)顯示,和EPYC 7003系列的頂級(jí)型號(hào)EPYC 7763相比,EPYC 9004系列中的頂級(jí)型號(hào)EPYC 9654能夠在云端、HPC和企業(yè)級(jí)性能方面分別領(lǐng)先107%、123%以及94%。AMD宣稱第四代EPYC處理器是全世界最好的數(shù)據(jù)中心處理器,擁有最快的數(shù)據(jù)中心性能、領(lǐng)先的能源效率、優(yōu)秀的TCO表現(xiàn)、安全的加密計(jì)算能力以及豐富的生態(tài)系統(tǒng)。
▲AMD EPYC 9004的宏觀布局
為了達(dá)到這些設(shè)計(jì)要求,EPYC 9004在結(jié)構(gòu)上依舊采用了Chiplet設(shè)計(jì),布局在中間的是全新設(shè)計(jì)的IO芯片,周圍的CCD單元數(shù)量增加到12個(gè)。每個(gè)CCD中依舊包含了8個(gè)CPU核心和相應(yīng)的緩存,以及32MB L3緩存。EPYC 9004核心數(shù)量大增的原因是CCD數(shù)量從上代產(chǎn)品的最多8個(gè)增加到了最多12個(gè),這使得它最多能提供96核心192線程。
Zen 4架構(gòu):IPC提升14%
AMD在企業(yè)級(jí)產(chǎn)品和消費(fèi)級(jí)產(chǎn)品上采用了同樣的核心微架構(gòu):EPYC 9004和桌面銳龍7000系列都是最新的Zen 4架構(gòu)。有關(guān)Zen 4架構(gòu),本刊在之前銳龍7000首發(fā)文章中曾有過(guò)介紹,本文再簡(jiǎn)單回顧一下。
▲Zen 4微架構(gòu)及改進(jìn)一覽
AMD Zen 4架構(gòu)是基于Zen 3架構(gòu)改進(jìn)而來(lái),在架構(gòu)設(shè)計(jì)上,AMD希望實(shí)現(xiàn)更高的性能、更低的延遲和更好的能效比。其中性能的提升來(lái)自頻率和IPC的提升;更低的延遲主要是提升了緩存的性能并且降低了整個(gè)架構(gòu)的平均延遲;能效比方面則通過(guò)新設(shè)計(jì)、新工藝以及將移動(dòng)端的一些技術(shù)移植在桌面端,降低了整個(gè)CPU的動(dòng)態(tài)功耗。
▲Zen 4架構(gòu)相比Zen 3架構(gòu)的重要提升
具體來(lái)看,Zen 4架構(gòu)在分支預(yù)測(cè)、Op緩存、指令排序相關(guān)窗口、整數(shù)或浮點(diǎn)寄存器、每核心更深的緩沖區(qū)、后端讀取和加載等方面進(jìn)行了優(yōu)化。特別的變化是另外加入對(duì)AVX-512指令集的支持,以及重新調(diào)整的每核心1MB、8-way L2緩存。
前端方面,分支預(yù)測(cè)部分有大幅加強(qiáng)。AMD使用了一個(gè)更強(qiáng)有力的分支預(yù)測(cè)單元,每周期可以執(zhí)行2次分支預(yù)測(cè)。此外,L1分支目標(biāo)緩沖區(qū)的容量提升了50%,達(dá)到1.5K條目,L2分支目標(biāo)緩沖區(qū)則達(dá)到7K。Zen 4還擁有更大的Op緩存、更大的指令回寫(xiě)隊(duì)列,它們?cè)诤艽蟪潭壬咸嵘颂幚砥鞯那岸诵阅堋?/p>
執(zhí)行單元部分,Zen 4沒(méi)有提升執(zhí)行單元的數(shù)量,而是持續(xù)增大重排緩沖區(qū)。它增加了浮點(diǎn)/整數(shù)寄存器的體積,整數(shù)從192增加至224,浮點(diǎn)從160增加至192,核心緩沖區(qū)達(dá)到320條目。執(zhí)行單元方面依舊是每周期10個(gè)INT和6個(gè)FP。
后端的讀取和加載部分,Zen 4擁有更大的讀取排序單元,更少的緩存端口沖突以及增大50%的L2 DTLB。另外依舊擁有每周期3個(gè)內(nèi)存操作,最多每周期3個(gè)讀取和2個(gè)寫(xiě)入。
緩存方面,最明顯的改變是每個(gè)核心的L2緩存翻倍到1MB,這樣可以降低CPU核心的未命中率并提升命中率,同時(shí)也降低了從L3和內(nèi)存讀取數(shù)據(jù)的幾率。但是由于L2緩存增大,延遲也相應(yīng)提升,L2和L3的延遲分別增加到最多14個(gè)周期和最多50個(gè)周期。
▲AMD在Zen 4上設(shè)計(jì)了全新的AVX-512引擎,和英特爾的路線有巨大差異。
在指令集方面,Zen 4實(shí)現(xiàn)了對(duì)AVX-512指令集的支持。Zen 4采用了2個(gè)AVX 256來(lái)合并執(zhí)行1個(gè)AVX-512,而英特爾采用了獨(dú)立的AVX512 SIMD核心。AMD的設(shè)計(jì)可以節(jié)省晶體管資源,并且不需要降低頻率來(lái)運(yùn)行AVX-512。但是當(dāng)同時(shí)執(zhí)行AVX2和AVX-512的時(shí)候,則必須完成一個(gè)后再執(zhí)行另一個(gè)。AVX-512比之前Zen架構(gòu)多核心執(zhí)行FP32的工作效能提升了30%。此外,Zen 4也實(shí)現(xiàn)了對(duì)BF16數(shù)據(jù)格式的支持,這是AI計(jì)算中新興的一種重要數(shù)據(jù)格式。
▲在啟用AVX-512后,相關(guān)性能得到了巨大提升。
根據(jù)AMD官方數(shù)據(jù)顯示,在支持AVX-512后,使用2路EPYC 9654(192核心)對(duì)比2路EPYC 7763(128核心),在NLP、圖像識(shí)別以及物體檢測(cè)的吞吐量測(cè)試中,前者的領(lǐng)先幅度分別達(dá)到4.2倍、3倍和3.5倍。
AMD還給出了Zen 4相比Zen 3的性能改進(jìn)情況??偟膩?lái)看,Zen 4有大約14%的IPC提升。其中貢獻(xiàn)最大的是前端的改進(jìn),其次是存儲(chǔ)和加載部分,再次是分支預(yù)測(cè)部分,執(zhí)行部分和L2部分的改進(jìn)帶來(lái)的性能增幅則相對(duì)較小。在發(fā)布銳龍7000系列的時(shí)候,AMD給出的IPC提升數(shù)據(jù)是13%,所以這里提到的14%應(yīng)該是根據(jù)服務(wù)器所面向的不同負(fù)載重新測(cè)試而來(lái)。
▲AMD Zen 4架構(gòu)在服務(wù)器端取得了14%的IPC提升
最后再來(lái)看看安全方面的內(nèi)容。Zen 4架構(gòu)目前支持安全加密的虛擬化,包括SEV-ES、SEV-SNP,內(nèi)存加密支持AES-256-XTS,支持最多1006個(gè)加密的客戶機(jī)以及多主機(jī)秘鑰SMKE。此外,它還支持虛擬化X2APIC、免SMT攻擊和額外的SPEC_CTL功能等。
12通道DDR5內(nèi)存
每核心帶寬至少比上代產(chǎn)品提升50%
所有EPYC 9004系列處理器都支持12通道DDR5內(nèi)存,相比上代支持的8通道DDR4內(nèi)存有巨大進(jìn)步。從內(nèi)存帶寬來(lái)看,DDR5的使用在很大程度上緩解了超多核心處理器內(nèi)存帶寬不足的情況。
▲AMD在EPYC 9004上全面啟用DDR5內(nèi)存
舉例來(lái)說(shuō),上代EPYC 7763擁有64個(gè)核心128線程,支持8通道DDR4內(nèi)存,內(nèi)存總帶寬為204.8GB/s,平均每核心3.2GB/s。新一代的EPYC 9654擁有96核心192線程,支持12通道DDR5內(nèi)存,內(nèi)存總帶寬為460.8GB/s,平均每核心4.8GB/s。EPYC 9654在處理器核心數(shù)量更多的情況下,每核心內(nèi)存帶寬提升了50%。如果是48核心或者32核心產(chǎn)品,每核心內(nèi)存帶寬的提升會(huì)更大,這為內(nèi)存帶寬敏感型應(yīng)用帶來(lái)了極為不錯(cuò)的性能提升空間。
▲EPYC 9004的內(nèi)存架構(gòu)和特性一覽
從AMD官方給出的實(shí)際測(cè)試數(shù)據(jù)來(lái)看,EPYC 7003系列的實(shí)際內(nèi)存帶寬大約為154GB/s,EPYC 9004則高達(dá)356GB/s,是前代產(chǎn)品的大約2.3倍。延遲方面,由于EPYC 9004支持的DDR5內(nèi)存容量更大、通道數(shù)量更多,因此延遲有所上升。EPYC 9004的SoC延遲大約在73ns左右,設(shè)備延遲大約是45ns左右,因此總延遲在118ns左右,而EPYC 7003的對(duì)應(yīng)數(shù)據(jù)分別是70ns、35ns和105ns。從整體上來(lái)看,EPYC 9004的延遲略高,但是考慮到它擁有更大的帶寬,這一點(diǎn)是完全可以接受的。
▲EPYC 9004的內(nèi)存性能情況
在內(nèi)存容量方面,所有EPYC 9004系列處理器都支持高達(dá)6TB容量。不過(guò)目前AMD只給出了1DPC(DIMM Per Channel),也就是12個(gè)內(nèi)存通道、12條內(nèi)存插槽下的配置情況,內(nèi)存最高支持12通道的DDR5 4800。至于2DPC配置,AMD宣稱會(huì)在2023年第一季度再公布詳細(xì)信息。不過(guò)考慮到EPYC 9004不小的面積,12通道DDR5內(nèi)存插槽所占的體積以及接近400W的CPU供電所需要的PCB面積,未來(lái)出現(xiàn)24通道、48插槽的2DPC主板的可能性較低,并且6TB內(nèi)存對(duì)大多數(shù)應(yīng)用場(chǎng)景來(lái)說(shuō)已經(jīng)足夠了。
▲EPYC 9004設(shè)計(jì)有內(nèi)存分區(qū)管理
最后再來(lái)看看內(nèi)存分區(qū)。由于EPYC 9004系列處理器的規(guī)模很大,因此AMD也提供了NUMA域的管理和設(shè)置,使得用戶可以在某些情況下對(duì)內(nèi)存和核心進(jìn)行調(diào)配。它包括了NPS1、NPS2和NPS4三種分區(qū)方式:NPS1就是整個(gè)處理器;NPS2是將處理器分為2個(gè)部分,每個(gè)部分有6個(gè)內(nèi)存通道和6個(gè)GMI3接口;NPS4則是將處理器分為4個(gè)部分。
IO芯片和總線連接系統(tǒng):采用最新的GMI3連接
AMD在EPYC 9004上繼續(xù)采用大獲成功的Chiplet方案。整個(gè)處理器除了CCD之外,還有一個(gè)IO芯片。EPYC 9004的CCD由臺(tái)積電5nm工藝制造,這也是首個(gè)使用5nm工藝的企業(yè)級(jí)CPU產(chǎn)品。IO芯片也采用了臺(tái)積電6nm工藝制造。
▲EPYC 9004架構(gòu)簡(jiǎn)圖和特性一覽
因?yàn)镋PYC系列一直采用Chiplet方案,因此在CCD和IO芯片之間需要通信協(xié)議予以連接。上一代EPYC處理器采用的是GMI2總線,其IO芯片內(nèi)部有8個(gè)GMI2總線端口,因此總共能支持8個(gè)CCD單元連接,每個(gè)CCD擁有2個(gè)GMI總線接口,可以根據(jù)需要進(jìn)行配置。
▲EPYC 9004的Chiplet連接圖一覽
EPYC 9004升級(jí)為GMI3總線。其中Zen 4架構(gòu)的8個(gè)CCD和12個(gè)CCD采用的是每個(gè)CCD與1個(gè)GMI3總線互聯(lián),4個(gè)CCD架構(gòu)中每個(gè)CCD通過(guò)2個(gè)GMI3總線進(jìn)行互聯(lián),從而實(shí)現(xiàn)更高的互聯(lián)帶寬。對(duì)于核心數(shù)量較少的型號(hào),這樣的設(shè)計(jì)能夠?yàn)镃CD數(shù)量較少時(shí),帶來(lái)更大的互聯(lián)帶寬。IO芯片的GMI3總線端口數(shù)量升級(jí)到12個(gè),因此可以最多連接12個(gè)CCD。
帶寬和功耗方面,每個(gè)GMI3總線每周期可以實(shí)現(xiàn)32Bit的數(shù)據(jù)讀取和16Bit的數(shù)據(jù)寫(xiě)入,能耗為2pj/bit。帶寬方面最高可達(dá)36Gbps,和FCLK的頻率比值是20∶1,最高可達(dá)1.8GHz。AMD宣稱,GMI3的吞吐能力最高可達(dá)GMI2的2倍。
值得一提的是,IO芯片上的GMI3端口排序是經(jīng)過(guò)設(shè)計(jì)的。它的端口序號(hào)排列如下:
顯然,GMI3的端口并不是按照常規(guī)的從小到大或者從大到小排列的。AMD這樣做的原因,是考慮到CCD和IO芯片的距離和延遲。以96核的EPYC 9654為例,每個(gè)CCD有8個(gè)處理器核心,12個(gè)CCD分布在IO芯片兩側(cè),每側(cè)各6個(gè)CCD。考慮到幾何和空間形狀,將優(yōu)先使用IO芯片周圍的某幾個(gè)端口。比如有8個(gè)CCD,將使用GMI0~GMI7這幾個(gè)端口,位于中間和最遠(yuǎn)端的GMI8、GMI9、GMI10和GMI11反而會(huì)空余。AMD還提到,靠近IO芯片的CCD位置將被優(yōu)先使用,這意味著如果是8個(gè)CCD,那么最遠(yuǎn)4個(gè)位置上的CCD要么徹底被屏蔽,要么干脆就是占位用的晶體塊。
AMD還特別對(duì)連接模式進(jìn)行了說(shuō)明。GMI3有兩種連接模式,一種被稱為窄連接模式,主要用在大于4個(gè)CCD也就是32核心以上的處理器上;另一種被稱為寬連接模式,它是新加入的,主要用在小于等于4個(gè)CCD,也就是32核心以下的產(chǎn)品。
▲EPYC 9004的8CCD連接模式,注意GMI11和GMI9等端口的空閑。
在窄連接模式中,如果8個(gè)CCD連接到IO芯片上,就像上文提到的那樣,將使用GMI0~GMI7進(jìn)行連接。此時(shí)每個(gè)CCD的1個(gè)GMI3端口將被激活,并與IO芯片相應(yīng)的GMI3端口進(jìn)行連接,空余剩下的4個(gè)端口。
▲EPYC 9004的4CCD連接模式,每個(gè)CCD采用2個(gè)GMI總線連接IO芯片。
在寬連接模式中,每個(gè)CCD的2個(gè)GMI3端口將被激活,并和IO芯片上的GMI3端口進(jìn)行連接。以4個(gè)CCD為例,每個(gè)CCD的第一個(gè)GMI3端口將先和GMI0~GMI3端口連接,然后第二個(gè)GMI3端口會(huì)和GMI8~GMI11端口連接,GMI7、GMI5、GMI4和GMI6端口將被閑置。
全新的SP5插槽:更大、更穩(wěn)固
EPYC 9004的插槽上也被更新。新插槽被稱作Socket SP5,不兼容上一代Socket SP3。不兼容的原因主要是因?yàn)镋PYC 9004系列處理器的基板為了放下12個(gè)CCD和IO芯片,變得更大。更多的內(nèi)存通道、供電和CPU核心,也要求有更多的觸點(diǎn)來(lái)傳輸數(shù)據(jù)。
▲Socket SP5和插入其中的EPYC 9004處理器,共有6096個(gè)觸點(diǎn)。
官方數(shù)據(jù)顯示,Socket SP3的長(zhǎng)寬分別是58.5mm、75.4mm,面積為4410.9mm2,包含了4094個(gè)觸點(diǎn)或者彈性接觸片。相比之下,Socket SP5的長(zhǎng)寬分別為72mm、75.4mm,總面積達(dá)到5428.8mm2,包含了高達(dá)6096個(gè)觸點(diǎn)或者彈性接觸片。Socket SP5的CPU供電能力高達(dá)400W,這剛好對(duì)應(yīng)了EPYC 9004系列處理器的最大功耗值。
▲ AMD給出了不同接口處理器的散熱器示意圖,可見(jiàn)SP5的散熱器更大。
▲Socket SP5結(jié)構(gòu)分層圖
Socket SP5在安裝方式上沒(méi)有做出太多改變,依舊采用先讓處理器模塊“滑入”扣具,然后扣下并固定在主板上的方式。這種安裝方式和桌面處理器需要手動(dòng)將處理器放入插槽的方法完全不同,起固定作用的主要是扣具。值得注意的是,之前在Socket SP3處理器上出現(xiàn)過(guò)3個(gè)緊固螺絲由于緊固不到位導(dǎo)致接觸不良,從而使得某些內(nèi)存通道消失的情況。因此在Socket SP5上,AMD選擇了多達(dá)6個(gè)緊固螺絲來(lái)實(shí)現(xiàn)主板和CPU的穩(wěn)定連接,并平衡應(yīng)力。相比上代產(chǎn)品,Socket SP5在耐久性方面更為出色。
雙CPU互聯(lián):最多對(duì)外提供160條PCIe 5.0總線
再來(lái)看有關(guān)雙CPU互聯(lián)的內(nèi)容。EPYC 9004系列中2P型號(hào)的處理器可以搭建雙路系統(tǒng),而在2個(gè)CPU的互聯(lián)上,它有一些新的變化。
▲AMD EPYC 9004系列處理器的1P、2P配置圖
▲AMD依舊采用IF總線連接2個(gè)處理器,不過(guò)EPYC 9004多了很多功能和設(shè)置。
每個(gè)EPYC 9004處理器能夠?qū)ν馓峁?28條PCIe 5.0通道。當(dāng)組建2P系統(tǒng)時(shí),通過(guò)IF總線使用的SerDes(串行器-解串器,AMD的SerDes支持兩種類型的連接,一種類型是支持標(biāo)準(zhǔn)的GMI或者PCIe接口、Infinity Fabric總線等,另一種則是支持其他類型的接口,包括SATA、CXL等,用戶可以根據(jù)需要進(jìn)行配置),最多有64條通道被設(shè)置為4條Infinity Fabric總線(后文簡(jiǎn)稱IF總線)來(lái)實(shí)現(xiàn)2個(gè)CPU的互聯(lián)傳輸。也就是說(shuō),在AMD的定義中每一條IF總線實(shí)際上相當(dāng)于PCIe 5.0 x16的規(guī)格。
▲EPYC 9004的IO性能一覽
早期的IF總線采用的是PCIe 3.0 x16規(guī)格,帶寬較低。在升級(jí)到PCIe 5.0 x16規(guī)格后,其帶寬大增,所以可能有部分用戶認(rèn)為3條IF總線已經(jīng)足以承擔(dān)2個(gè)CPU的互聯(lián)工作。AMD允許用戶自行選擇啟用3條還是4條IF總線實(shí)現(xiàn)2P互聯(lián)操作。如果是3條的話,那么多余的1條IF總線可以被釋放為PCIe 5.0 x16通道。這樣一來(lái),兩個(gè)CPU在3路IF總線連接的情況下,每個(gè)CPU最多可以空余80條PCIe 5.0通道,2個(gè)CPU就是160條。另外,IO芯片還能夠?qū)ν忉尫?2條PCIe 3.0通道。
▲EPYC 9004處理器的擴(kuò)展和連接都非常自由
AMD對(duì)走線也進(jìn)行了更新。現(xiàn)在IO芯片中的總線控制器(SerDes)被分為2個(gè),體現(xiàn)在CPU的物理結(jié)構(gòu)上,就是背部觸點(diǎn)兩側(cè)都可以連接總線輸出。在上一代EPYC 7003上,只有一側(cè)可以輸出IF總線或PCIe總線,并往往在主板上部。此時(shí)如果要連接主板下部的設(shè)備,就需要較長(zhǎng)的走線并增加主板設(shè)計(jì)的復(fù)雜性。在EPYC 9004上,由于有兩個(gè)總線控制器且線路可以從CPU兩側(cè)走,因此更方便。AMD將CPU上部的線路稱為P總線,下部稱為G總線。其中P總線往往用于組成IF總線連接CPU,G總線用于連接外部設(shè)備。當(dāng)然廠商也可以自由設(shè)置,比如使用“2P+2G” 的方式來(lái)連接CPU,或者其他廠商認(rèn)為方便的設(shè)計(jì)亦可。
CXL 1.1+:提供超大規(guī)模的內(nèi)存尋址空間
在互聯(lián)技術(shù)特性上,EPYC 9004對(duì)CLX 1.1+的支持是一個(gè)亮點(diǎn)。本刊之前介紹過(guò)有關(guān)CXL的技術(shù)內(nèi)容,CXL的全稱是Compute eXpress Link,它是一個(gè)開(kāi)放的行業(yè)標(biāo)準(zhǔn),主要用于在CPU和加速單元(GPU、DPU)或者一些IO設(shè)備之間提供高速緩存一致性互聯(lián),同時(shí)允許CPU在連接設(shè)備的相同內(nèi)存區(qū)域上工作,從而提高性能和電源效率,并降低軟件復(fù)雜性,減少數(shù)據(jù)移動(dòng)次數(shù)。該規(guī)范以PCIe 5.0作為技術(shù)基礎(chǔ),最新修訂版本的CXL 3.0則以PCIe 6.0作為技術(shù)基礎(chǔ)。
CXL規(guī)范的推出速度非???,在CXL 1.0技術(shù)還未準(zhǔn)備好之前,CXL 2.0技術(shù)就已經(jīng)到來(lái),新規(guī)范要求在總線的SerDes級(jí)別提供內(nèi)置支持,從而實(shí)現(xiàn)和遠(yuǎn)程內(nèi)存組的低延遲連接。因此,AMD不得不在新處理器的設(shè)計(jì)后期重新設(shè)計(jì)了CXL部分功能,還融入了包括持久內(nèi)存和RAS報(bào)告等功能,但是其余部分則不能全部支持,因此AMD稱之為CXL 1.1+。目前AMD的CXL總線基于PCIe 5.0規(guī)范,和PCIe 5.0共用物理接口。
▲ AMD的CXL 1.1+只支持第三類,也就是內(nèi)存擴(kuò)展。
CXL支持三類設(shè)備,第一種常用于網(wǎng)卡這類高速緩存設(shè)備,第二種常見(jiàn)于GPU、AI等應(yīng)用的內(nèi)存加速器,第三種是內(nèi)存擴(kuò)展控制器,通常作為內(nèi)存緩沖器,常用作內(nèi)存帶寬或是容量的擴(kuò)展。EPYC 9004目前只支持第三種方案,允許用戶將遠(yuǎn)程內(nèi)存作為本地內(nèi)存進(jìn)行尋址,并且允許將多個(gè)CLX Type-C設(shè)備聚合成一個(gè)交錯(cuò)的NUMA節(jié)點(diǎn),還支持“headless NUMA”節(jié)點(diǎn)。其他功能包括能夠優(yōu)化本地內(nèi)存和CXL內(nèi)存之間延遲差異的QoS機(jī)制,支持AMD的SEV-SNP密鑰擴(kuò)展和AES-256-XTS等功能。
AMD目前最多允許將64個(gè)PCIe 5.0通道分配給CXL 1.1+,單個(gè)CXL 1.1+允許最多16個(gè)通道,因此單個(gè)CXL 1.1總線帶寬為雙向128GB/s。如果啟用全部64個(gè)通道的話,帶寬會(huì)高達(dá)雙向512GB/s,這已經(jīng)高出了12通道DDR5內(nèi)存的460GB/s了??紤]到EPYC 9004高達(dá)96個(gè)CPU核心對(duì)內(nèi)存帶寬的需求,這正是AMD支持CXL 1.1+的意義所在。
性能預(yù)覽:輕松拋離競(jìng)爭(zhēng)對(duì)手
在架構(gòu)介紹部分,AMD提及了不少性能方面的信息,不過(guò)最終還得看綜合性能情況。AMD選擇了英特爾第三代至強(qiáng)可擴(kuò)展處理器,也就是Ice Lake-X架構(gòu)的產(chǎn)品進(jìn)行對(duì)比。
▲?EPYC 9004在云端方面的性能大幅度領(lǐng)先
▲AMD宣稱EPYC 9004在多項(xiàng)性能中領(lǐng)先
首先來(lái)看單核心性能。AMD使用了16、32、40/48核心的處理器進(jìn)行對(duì)比。EPYC 9004系列的不同型號(hào)處理器在整數(shù)、浮點(diǎn)性能方面超越英特爾產(chǎn)品最多可達(dá)55%、96%。虛擬化性能方面,EPYC 7003的表現(xiàn)就足以抗衡英特爾產(chǎn)品,EPYC 9004的性能更是英特爾產(chǎn)品的2.8倍之多。在FSI模擬、3D渲染和商務(wù)(MySQL業(yè)務(wù)查詢)方面,EPYC 9654的性能分別是英特爾至強(qiáng)鉑金8380的大約2.1倍、2.4倍和2.7倍。HPC性能方面就更不用多說(shuō)了,2P配置的EPYC 9654在天氣預(yù)報(bào)、計(jì)算流體和有限元分析方面分別是2P配置的英特爾至強(qiáng)鉑金8380的大約2.5倍、2.5倍和2.6倍。HPC單核心性能方面,同樣是這三項(xiàng)測(cè)試,32核心的EPYC 9374F性能是同為32核心的至強(qiáng)鉑金8362的2倍、1.7倍和1.7倍。
▲EPYC 9004系列不同型號(hào)處理器的單核心整數(shù)性能都大幅領(lǐng)先對(duì)手
▲EPYC 9004系列不同型號(hào)處理器的單核心浮點(diǎn)性能同樣大幅領(lǐng)先
▲HPC性能方面,EPYC 9004實(shí)現(xiàn)了對(duì)英特爾處理器的碾壓態(tài)勢(shì)。
此外,AMD還評(píng)估了空間和電能需求。在同時(shí)處理1995個(gè)虛擬化需求的時(shí)候,2P的EPYC 9654處理器只需要5臺(tái)服務(wù)器即可完成,與之對(duì)應(yīng)的英特爾至強(qiáng)鉑金8380則需要15臺(tái)服務(wù)器,AMD節(jié)約了67%的機(jī)架數(shù)量、52%的電能消耗(相當(dāng)于34英畝森林所釋放的二氧化碳值),降低了40%的1年服務(wù)TCO。
▲AMD還評(píng)估了空間和電能需求,EPYC 9004系列更是大獲全勝。
在同樣性能的情況下,比如在SPECreat 2017整數(shù)基準(zhǔn)測(cè)試中同樣獲得8500分,AMD只需要1P EPYC 9654的處理器使用10臺(tái)服務(wù)器即可,英特爾則需要2P的至強(qiáng)鉑金8380的處理器使用15臺(tái)服務(wù)器,這意味著AMD節(jié)約了67%的處理器數(shù)量、20%的核心數(shù)量、50%的能源消耗和46%的1年服務(wù)TCO。
AMD還展示了EPYC處理器在產(chǎn)業(yè)環(huán)境方面的情況。目前已經(jīng)有數(shù)百家企業(yè)使用或者正準(zhǔn)備使用AMD的產(chǎn)品,同時(shí)媒體和內(nèi)容、制造業(yè)、5G和金融服務(wù)等行業(yè)都在使用AMD EPYC產(chǎn)品持續(xù)創(chuàng)造價(jià)值。歷經(jīng)四代進(jìn)化,AMD EPYC終于開(kāi)創(chuàng)了一個(gè)非常不錯(cuò)的產(chǎn)業(yè)環(huán)境,并正在逐漸拓展自己的市場(chǎng)范圍。
總結(jié):強(qiáng)大的產(chǎn)品無(wú)須多言
從已知的信息和規(guī)格來(lái)看,EPYC 9004系列處理器代表了當(dāng)前最先進(jìn)、最強(qiáng)大的計(jì)算性能,無(wú)論是架構(gòu)設(shè)計(jì)還是產(chǎn)品性能都沒(méi)有什么可挑剔的地方。
▲EPYC 9004的晶元結(jié)構(gòu)示意圖,不同的部分清晰可見(jiàn)。
▲AMD EPYC產(chǎn)品路線圖一覽
AMD還給出了EPYC未來(lái)的產(chǎn)品路線圖。目前AMD發(fā)布的EPYC 9004系列是代號(hào)為“Genoa”的產(chǎn)品。接下來(lái),AMD還將陸續(xù)推出采用3D V-Cache技術(shù)的“Genoa-X”,面向云計(jì)算服務(wù)的“Bergamo”(貝爾加莫),以及面向電信基礎(chǔ)設(shè)施和邊緣計(jì)算的“Siena”(錫耶納)。在2023年~2024年,AMD將推出全新設(shè)計(jì)的Zen 5架構(gòu)以及第五代EPYC處理器家族,代號(hào)“Turin”(圖靈)。AMD在前三代EPYC大獲成功之后,已經(jīng)開(kāi)始計(jì)劃利用EPYC進(jìn)入更多市場(chǎng),繼續(xù)和英特爾等廠商展開(kāi)正面廝殺。這樣的競(jìng)爭(zhēng)態(tài)勢(shì),顯示出AMD強(qiáng)大的進(jìn)取心。就像全新進(jìn)化的AMD新品牌平臺(tái) “同超越,共成就 _”(“together we advance_”),持續(xù)進(jìn)步的AMD還會(huì)帶給我們?cè)鯓拥捏@喜呢?一起期待吧!
編輯:黃飛
?
評(píng)論
查看更多