RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

基于PCI-e協(xié)議的CXL技術(shù)

sakobpqhz ? 來源:全球半導體觀察 ? 2023-02-02 09:55 ? 次閱讀

存儲成本不斷增加,以及更為現(xiàn)實的計算和帶寬失衡困境,使得英特爾二十年前開創(chuàng)的PCI-e(PCI Express)技術(shù)逐漸乏力,我們越來越期待一種以內(nèi)存為中心的、富有變革性的新技術(shù)出現(xiàn),基于PCI-e協(xié)議的CXL技術(shù)便在此環(huán)境下出世。

2019年,英特爾推出了CXL技術(shù),短短幾年時間,CXL便成為業(yè)界公認的先進設備互連標準,其最為強勁的競爭對手Gen-Z、OpenCAPI都紛紛退出了競爭,并將Gen-Z協(xié)議、OpenCAPI協(xié)議轉(zhuǎn)讓給CXL。 這種業(yè)界矚目的技術(shù)究竟有何來頭?以及現(xiàn)在業(yè)界火熱的內(nèi)存池、內(nèi)存共享等概念又是什么? 以下將分成上下兩篇,和大家一起深度了解CXL技術(shù)。

本文要點:

CXL是一個全新的得到業(yè)界認同的互聯(lián)技術(shù)標準,其正帶著服務器架構(gòu)迎來革命性的轉(zhuǎn)變。

CXL可以有效解決內(nèi)存墻和IO墻的瓶頸。

目前,PCI-e技術(shù)是當下CXL技術(shù)的底層基礎,會較早進行迭代升級。CXL可視為PCI-e技術(shù)的再提高版本,并且,CXL延伸了更多變革性的功能。

CXL2.0內(nèi)存的池化(Pooling)功能較好的實現(xiàn)了以內(nèi)存為中心的構(gòu)想,CXL3.0則實現(xiàn)Memory sharing(內(nèi)存共享)和內(nèi)存訪問,在硬件上實現(xiàn)了多機共同訪問同樣內(nèi)存地址的能力。

01CXL為何物?

CXL全稱為Compute Express Link,作為一種全新的互聯(lián)技術(shù)標準,其能夠讓CPUGPU、FPGA或其他加速器之間實現(xiàn)高速高效的互聯(lián),從而滿足高性能異構(gòu)計算的要求,并且其維護CPU內(nèi)存空間和連接設備內(nèi)存之間的一致性??傮w而言,其優(yōu)勢高度概括在極高兼容性和內(nèi)存一致性兩方面上。

CXL技術(shù)之所以值得期待,是因為它提出了一種有效解決當下業(yè)界頗為頭疼的內(nèi)存墻和IO墻問題的方式。 819c8698-a236-11ed-bfe3-dac502259ad0.jpg △常見的存儲系統(tǒng)架構(gòu)及存儲墻(全球半導體觀察制圖)

內(nèi)存墻和IO墻現(xiàn)象來源于當前計算架構(gòu)中的多級存儲。如圖所示,當前的主流計算系統(tǒng)所使用的數(shù)據(jù)處理方案,依賴于數(shù)據(jù)存儲與數(shù)據(jù)處理分離的體系結(jié)構(gòu)(馮諾依曼架構(gòu)),為了滿足速度和容量的需求,現(xiàn)代計算系統(tǒng)通常采取高速緩存(SRAM)、主存(DRAM)、外部存儲(NAND Flash)的三級存儲結(jié)構(gòu)。

每當應用開始工作時,就需要不斷地在內(nèi)存中來回傳輸信息,這在時間和精力上都有著較大的性能消耗。越靠近運算單元的存儲器速度越快,但受功耗、散熱、芯片面積的制約,其相應的容量也越小。如SRAM響應時間通常在納秒級,DRAM則一般為100納秒量級,NAND Flash更是高達100微秒級,當數(shù)據(jù)在這三級存儲間傳輸時,后級的響應時間及傳輸帶寬都將拖累整體的性能,形成“存儲墻”。

IO墻則產(chǎn)生于外部存儲中,因為數(shù)據(jù)量過于龐大,內(nèi)存里放不下就需要借助外部存儲,并用網(wǎng)絡IO來訪問數(shù)據(jù)。IO方式的訪問會使得訪問速度下降幾個數(shù)量級,嚴重拖累著整體性能,這即是IO墻。

現(xiàn)代處理器性能的不斷提升,而內(nèi)存與算力之間的技術(shù)發(fā)展差距卻不斷增大。業(yè)界數(shù)據(jù)顯示,在過去的20多年中,處理器的性能以每年大約55%速度快速提升,而內(nèi)存性能的提升速度則只有每年10%左右。并且,當代內(nèi)存容量擴展面臨著摩爾定律的壓力,速度在逐年減緩的同時,帶來的則是成本的愈發(fā)高昂。隨著大數(shù)據(jù)AI/ML等應用爆發(fā),以上問題已經(jīng)成為制約計算系統(tǒng)性能的主要因素。

02從CXL1到CXL3,

內(nèi)存池和內(nèi)存共享的奇妙構(gòu)想

作為一項嶄新的技術(shù),CXL發(fā)展非常可謂非常迅速,過去四年時間CXL已經(jīng)發(fā)表了1.0/1.1、2.0、3.0三個不同的版本,并且它有著非常清晰的技術(shù)發(fā)展路線圖,業(yè)界也對它的未來充滿期待。

81ac528a-a236-11ed-bfe3-dac502259ad0.png

△圖片來源:CXL聯(lián)盟

CXL1.1直球式連接,帶來容量和帶寬的拓展

在2019年,CXL的第一個版本CXL1.0/1.1誕生,其直面內(nèi)存墻和IO墻瓶頸的直球式打法給業(yè)界留下了深刻的印象。CXL1.1起初解決的問題還只是單機設備的問題,主要是對一臺服務器里的內(nèi)存容量和帶寬進行擴展(Memory Expansion)。

CXL在創(chuàng)立之初便支持三種協(xié)議,分別是CXL.io,CXL.cache,CXL.mem。CXL.io是PCIe5.0的增強版本,運行在PCIe總線的物理層上,CXL.cache用于一致的主機緩存訪問,CXL.mem則用于主機內(nèi)存訪問。正如CXL1.0和1.1標準中定義的那樣,這三種方法構(gòu)成了連接主機和設備的新方法的基礎。

創(chuàng)新來講,CXL引入了Flex Bus端口,可以靈活的根據(jù)鏈路層協(xié)商決定是采用PCIE協(xié)議還是CXL協(xié)議。

這讓我們更好的理解CXL和PCI-e的關系,正因為CXL較高的兼容性,更容易被現(xiàn)有支持PCI-e端口的處理器(絕大部分的通用CPU、GPU 和 FPGA)所接納,因此,英特爾將CXL視為在PCIe物理層之上運行的一種可選協(xié)議,也就是說PCI-e的互聯(lián)協(xié)議沒有被完全拋棄,并且英特爾還計劃在第六代PCI-e標準上大力推進CXL的采用。

從CXL1.0/1.1、PCIe5.0、CXL2.0以及PCIe6.0CXL3.0的發(fā)展軌跡,我們也可以清晰看出CXL和PCI-e的關系。PCI-e技術(shù)作為CXL技術(shù)的底層基礎,會更早進行迭代升級。CXL可視為PCI-e技術(shù)的再提高版本,并且,CXL延伸了更多變革性的功能。 從CXL2.0開始,該技術(shù)就超出了單機的范疇,并衍生出了內(nèi)存池的概念。

CXL2.0內(nèi)存池帶來的變革

鑒于CXL標準誕生并不久,目前,CXL2.0是市場最為關注的焦點。

在CXL1.0和1.1的基礎上,2.0版本增加了熱插拔(Hot Plug)、安全升級、持久內(nèi)存(Persistent Memory)、Telemetry和RAS的支持,但最為重要的功能,還是可以改變服務器業(yè)界生態(tài)構(gòu)型的Switching,以及它帶來的加速卡(AI、ML和Smart NIC)和內(nèi)存的池化(Pooling)。

關于設備的Pooling(池化),業(yè)界也曾進行過許多的構(gòu)想與技術(shù)嘗試,想要將各類資源或是數(shù)據(jù)放入一個共享的池子按需提取,如FaceBook致力于分離(disaggregate)和池化(pool)內(nèi)存,IBM的CAPI和OpenCAPI、英偉達的NVLink和NVSwitch、AMD的Infinity Fabric、賽靈思的CCIX,以及HPE和戴爾提供支持Gen-Z。因為各種各樣的原因,上述技術(shù)并沒有很好的發(fā)展開來。直到CXL2.0的池化操作變成現(xiàn)實,業(yè)界再次燃起希望。

CXL1.1還只限于單一Node,是一種CPU到CPU,或者CPU到PCIe設備的cache一致性互聯(lián)。2.0技術(shù)加入了一層(Single Level)的Switch(想一想PCIe的Switch),實現(xiàn)了多個設備連接到一個root port上,為后面的池化打下了技術(shù)基礎。

81bed450-a236-11ed-bfe3-dac502259ad0.png

△圖片來源:CXL聯(lián)盟

上圖的H1到H4到Hn指的是一個個不同的主機(Host),也就是一個個服務器(Server),它可以通過CXL Switch連接多個設備,底下的D1、D2、D3、D4指的是不同的內(nèi)存,也是通過CXL Switch連到上層的主機里。圖中不同的顏色代表設備的擁有者,如D1屬于H2,D2和D3屬于H1。SLD一個設備只能被分配到一個Hos上。

在這套框架之下,它使得Memory Polling(內(nèi)存池)成為可能,你可以跨系統(tǒng)設備實現(xiàn)共享內(nèi)存池,這就增加了很多的靈活性。比如,如果有機器內(nèi)存不夠時,就可以靈活地在這個池子里尋找內(nèi)存空間;如果這臺機器不需要這些內(nèi)存了還可以隨時還回來。也就是說越靠近CPU的存儲器(如DRAM)將被用來處理更為亟需的工作,這無疑將大大提高內(nèi)存的使用率,或者降低內(nèi)存的使用成本。

CXL3.0共享內(nèi)存時代的到來

CXL 3.0是在2022年8月份發(fā)布的新標準,其在許多方面都進行了較大的革新,首先,CXL3.0建立在PCI-Express 6.0之上(CXL1.0/1.1和2.0版本建立在PCIe5.0之上),其帶寬提升了兩倍,并且其將一些復雜的標準設計簡單化,確保了易用性。

81cdfd22-a236-11ed-bfe3-dac502259ad0.png

△圖片來源:CXL聯(lián)盟

最為關鍵的革新還在于物理和邏輯層面的升級,在物理層面,CXL3.0將每通道吞吐量提升了一倍,達到64GT/s。邏輯層面上,CXL3.0擴招了標準邏輯能力,允許更復雜的連接拓撲,以及一組CXL設備內(nèi)可以靈活實現(xiàn)Memory sharing(內(nèi)存共享)和內(nèi)存訪問。比如,它可以使得多個Switch互相連接,可以使得上百個服務器互聯(lián)并共享內(nèi)存。

Memory sharing是非常大的一個亮點,這種能力突破了某一個物理內(nèi)存只能屬于某一臺服務器的限制,在硬件上實現(xiàn)了多機共同訪問同樣內(nèi)存地址的能力。可以說,CXL的內(nèi)存一致性得到很大的增強,因為此前的CXL2.0只能通過軟件實現(xiàn)Memory sharing。

CXL來勢洶洶,在CXL技術(shù)推出的那一年,CXL聯(lián)盟也隨之成立,由英特爾牽頭,聯(lián)合阿里巴巴、戴爾EMC、Facebook(Meta)、谷歌、HPE、華為和微軟共同建立,隨后AMD、Arm加入其中。

近兩年,CXL聯(lián)盟擴展出超過165個成員,幾乎涵蓋了所有主要的CPU、GPU、內(nèi)存、存儲和網(wǎng)絡設備制造商。而在技術(shù)上,2022年,Gen-Z聯(lián)盟、Open CAPI聯(lián)盟均確認將所有技術(shù)規(guī)格和資產(chǎn)轉(zhuǎn)讓給CXL,確保CXL作為行業(yè)標準向前推進,對于業(yè)界而言,這是一個非常偉大的選擇。

03從存儲變革看CXL的未來意義

以內(nèi)存為中心的構(gòu)想由來已久,CXL對于未來的變革目前還無法想象,但是上世紀90年代,存儲也經(jīng)歷了一場類似的變革,這或許可以幫助我們更好的理解它。

上世紀90年代之前,存儲指的就是硬盤,由IBM研發(fā)的350 RAMAC的誕生標志著人類正式進入了硬盤時代。90年代初期,一個叫做Fiber Channel的網(wǎng)絡出現(xiàn),它使存儲從服務器里獨立出來,變成一個與計算分離的、可以獨立擴展與管理的系統(tǒng),這就是人們熟知的SAN系統(tǒng)。

隨后的存儲市場更是出現(xiàn)了各式各樣的網(wǎng)絡共享存儲,這場技術(shù)革命,使得存儲從一個簡單的器件行業(yè)變成了一個軟件和系統(tǒng)行業(yè),并隨著誕生了“存儲軟件”概念。

1995年,集合了軟件和硬件的SAN系統(tǒng)開始出現(xiàn),2000年左右,第一代NAS開始落地。不止的SAN系統(tǒng),在這段技術(shù)革命中,也涌現(xiàn)了一大批成功的領導者公司,包括EMC、NetApp、Veritas、PureStorage等等,存儲軟件和系統(tǒng)迅速成長壯大為一個龐大的市場。

現(xiàn)在的內(nèi)存和30年前的硬盤存儲極為相似。

現(xiàn)在的內(nèi)存還只是服務器里的一個設備,隨著CXL的出現(xiàn),內(nèi)存可以和計算進行分離,就像90年代存儲和計算分離一般,這意味著,內(nèi)存也有望獨立成為一個嶄新的系統(tǒng),并賦予更多的功能。

或許是看到了CXL潛力,2022年8月24日,JEDEC固態(tài)技術(shù)協(xié)會和Compute Express Link(CXL)聯(lián)盟宣布簽署合作備忘錄開展合作,該協(xié)議表明將形成一個聯(lián)合工作組,以提供一個促進信息、要求、建議和請求的交流和共享的論壇,目的是這種信息交流將有助于每個組織制定的標準相互增強。

業(yè)界表示,與具有380個引腳的DDR5接口提供32GB/s帶寬相比,CXL內(nèi)存控制器可以提供相同或更高的帶寬,利用x8或x16CXL通道分別提供32GB/s或64GB/s帶寬。CXL串行連接存儲器可用于緩解當今解決方案的帶寬限制??傮w來看,CXL與JEDEC在DDR方面的合作將給內(nèi)存行業(yè)帶來新的轉(zhuǎn)機。

此外,據(jù)TrendForce集邦咨詢此前研判,CXL(Compute Express Link)原是希望能夠整合各種xPU之間的性能,進而優(yōu)化AI與HPC所需要的硬件成本,并突破原先的硬件限制。

CXL的支援仍是以CPU為源頭去考慮,但由于可支援CXL功能的服務器CPU Intel Sapphire Rapids與AMD Genoa現(xiàn)階段僅支援至CXL 1.1規(guī)格,而該規(guī)格可先實現(xiàn)的產(chǎn)品則是CXL存儲器擴充(CXL Memory Expander)。

因此,TrendForce認為,在各種CXL相關產(chǎn)品內(nèi),CXL存儲器擴充將成為前驅(qū)產(chǎn)品,其產(chǎn)品也與DRAM最為相關。

04結(jié)語

CXL時代將會很快到來,業(yè)界消息顯示,2024年上半年,CXL1.1和CXL2.0可能會有落地產(chǎn)品,CXL3.0的落地還需要更長時間。現(xiàn)階段,相關的合作伙伴也在找相應的廠商對一些工程樣品搭建環(huán)境進行開發(fā)測試。

目前,各大企業(yè)動態(tài)頻頻,《大內(nèi)存時代,振奮人心的CXL技術(shù)》下篇將會對業(yè)界大廠在CXL上的布局以及CXL技術(shù)現(xiàn)存的一些短板進行闡述。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • DRAM
    +關注

    關注

    40

    文章

    2311

    瀏覽量

    183445
  • 存儲器
    +關注

    關注

    38

    文章

    7484

    瀏覽量

    163761
  • NIC
    NIC
    +關注

    關注

    0

    文章

    23

    瀏覽量

    12415
  • PCI-e
    +關注

    關注

    0

    文章

    11

    瀏覽量

    6246

原文標題:大內(nèi)存時代振奮人心的CXL技術(shù)(上)

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    PCI-E 的PADS封轉(zhuǎn)

    PCI-E封裝
    發(fā)表于 03-30 11:30

    在FPGA上設計PCI-e Gen2.0和PCI-e Gen3.0有什么不同

    請教各位大大,在FPGA上進行設計PCI-e的接口通信,2代和3代的設計有什么不同嗎?如果學習了2代改到開發(fā)3代是在原工程上做小改變還是要推倒重做?
    發(fā)表于 03-03 09:55

    pci-e布線規(guī)范

    pci-e布線規(guī)范
    發(fā)表于 07-14 14:49

    解決臺式機PCI-E 1X不夠難題 :樂擴PCI-E 1X轉(zhuǎn)2口PCI-E 1X擴展卡

    針對目前解決臺式機PCI-E 1X插槽不夠用的瓶頸現(xiàn)狀,擁有十幾年研發(fā)和生產(chǎn)經(jīng)驗的老品牌廠家樂擴發(fā)布了一款可以將主機PCI-E1X插槽轉(zhuǎn)換為2個PCI-E 1X插槽的擴展卡,有效解決了需要
    發(fā)表于 10-19 16:25

    RapidIO與PCI-E哪個更適合通信

    大家好,我正在尋找一種協(xié)議,用于單獨的FPGA /板與FPGA之間的通信(有限數(shù)量的引腳/串行高速通信似乎是最好的解決方案),我想知道哪一個更適合這項任務。我已經(jīng)聽說過有關PCI-E的更多信息,所以
    發(fā)表于 01-29 10:01

    PCI PCI-X PCI-E介紹 精選資料分享

    PCI PCI-X PCI-E介紹1.PCI外設互聯(lián)標準(或稱個人電腦接口,Personal Computer Interface),實際應用中簡稱
    發(fā)表于 07-29 06:40

    什么是PCI PCI-X PCI-E?

    什么是PCI PCI-X PCI-E?
    發(fā)表于 10-25 07:37

    一窺CXL協(xié)議

    技術(shù),主要支持一致性緩存,內(nèi)存和IO擴展。CXL是基于PCIe 5.0實現(xiàn)的連接技術(shù),復用了很多PCIe協(xié)議的東西,這一點上與CCIX比較像,但又不完全一樣。說起CCIX和
    發(fā)表于 09-09 15:03

    PCI-E接口定義 引腳定義圖 PCI-E針腳定義圖

    說明:PCI-E
    發(fā)表于 04-27 18:09 ?7.8w次閱讀
    <b class='flag-5'>PCI-E</b>接口定義 引腳定義圖 <b class='flag-5'>PCI-E</b>針腳定義圖

    南橋PCI-E通道數(shù)

    南橋PCI-E通道數(shù)              南橋PCI-E通道數(shù)是指芯片組中
    發(fā)表于 12-26 16:10 ?584次閱讀

    PCI-e總線FPGA開發(fā)板資料說明

    自從2004年pci-e1.0a規(guī)范之后,主板上就開始有了最新的串行高速PCI-E總線,相比原來的PCIV2.3,PCI-E總線有很大的優(yōu)勢,首先,PCI-E降低了芯片連接的管腳數(shù)量,
    發(fā)表于 04-14 00:56 ?171次下載

    淺談顯卡PCI/AGP/PCI-E接口的區(qū)別

    PCI-E 1.0標準提供了2.5GT/s(Giga Transmissionper second ,千兆傳輸/秒,即每一秒內(nèi)傳輸?shù)拇螖?shù),不同于Gbps)的傳輸速度,常用的PCI-E X16提供16
    發(fā)表于 11-03 16:13 ?7700次閱讀

    Intel的核顯真的占用了CPU的4根PCI-E通道嗎

    在討論到CPU的PCI-E通道問題時,我發(fā)現(xiàn)很多人都以為Intel的核顯占用了CPU的4根PCI-E通道,包括很多可以找到的“科普貼”中都寫了核顯會占用4條PCI-E通道。其實這是一種常見的誤區(qū),從
    發(fā)表于 11-23 10:20 ?5408次閱讀
    Intel的核顯真的占用了CPU的4根<b class='flag-5'>PCI-E</b>通道嗎

    連欣PCI模塊連接器PCI-E 52PIN原理圖

    連欣PCI模塊連接器PCI-E 52PIN原理圖
    發(fā)表于 07-08 09:20 ?49次下載

    pci-e插槽的規(guī)格有哪些 各個版本的pci-e的規(guī)范區(qū)別

    PCI-E的接口根據(jù)總線位寬不同而有所差異,包括X1、X4、X8以及X16,而X2模式將用于內(nèi)部接口而非插槽模式。PCI-E規(guī)格從1條 通道連接到32條通道連接,有非常強的伸縮性,以滿足不同系統(tǒng)設備對數(shù)據(jù)傳輸帶寬不同的需求。
    發(fā)表于 08-05 10:16 ?8959次閱讀
    <b class='flag-5'>pci-e</b>插槽的規(guī)格有哪些 各個版本的<b class='flag-5'>pci-e</b>的規(guī)范區(qū)別
    RM新时代网站-首页