?在交換機(jī)上,緩存就是數(shù)據(jù)交換的緩沖區(qū),被交換機(jī)用來協(xié)調(diào)不同網(wǎng)絡(luò)設(shè)備之間的速度匹配問題,突發(fā)數(shù)據(jù)可以存儲在緩沖區(qū)內(nèi),直到被慢速設(shè)備處理為止。數(shù)據(jù)中心交換機(jī)應(yīng)用在HPC/AI大模型訓(xùn)練、分布式存儲等場景時(shí),并非緩存越大越好,過大的緩存會導(dǎo)致更長的隊(duì)列、更高的時(shí)延和抖動、更高的成本,所以不能簡單地去擴(kuò)大緩存,交換機(jī)避免丟包所需的緩存與此帶寬延遲積BDP直接相關(guān),借助于帶寬時(shí)延積BDP可以確定合適的內(nèi)存大小。
緩存架構(gòu)分類
按照緩沖區(qū)的大小,以太網(wǎng)交換機(jī)通常分為深緩沖區(qū)交換機(jī)和淺緩沖區(qū)交換機(jī),深緩沖區(qū)交換機(jī)緩沖區(qū)容量高達(dá)數(shù)GB,與淺緩沖區(qū)交換機(jī)的幾十MB形成鮮明對比。這種設(shè)計(jì)上的差異源于應(yīng)用場景的差異,深緩沖區(qū)交換機(jī)(或路由器)主要面向路由和廣域網(wǎng)場景,RTT時(shí)間長,希望能夠容納更多的數(shù)據(jù)流量,對微突發(fā)流量不敏感,但也意味著更高的尾延遲和抖動,這一點(diǎn)與HPC/AI大模型訓(xùn)練、分布式存儲等場景的低時(shí)延要求顯然是相違背的,淺緩沖區(qū)交換機(jī)在這種場景下更適合,以目前最高端的51.2Tbps(64個(gè)800G)的交換機(jī)為例,如果RTT時(shí)間是3~5微秒,緩存僅需33MB左右,這是交換機(jī)中所需的總緩存,那么這個(gè)總的緩存能否被每一個(gè)端口充分利用嗎?
這就取決于交換機(jī)(交換芯片)所采用緩存架構(gòu)。交換芯片的緩存架構(gòu)通常分為:完全共享緩存架構(gòu)和分片報(bào)文緩存架構(gòu)(也稱分割緩沖區(qū)結(jié)構(gòu))。
完全共享緩存架構(gòu):設(shè)備中的所有緩存都可用于動態(tài)分配到任何端口,意味著在所有輸入-輸出端口之間共享緩存而沒有任何限制,最大限度地提高了可用內(nèi)存的效率。
分片報(bào)文緩存架構(gòu):由多片較小的緩存共同組成了芯片內(nèi)部的緩存,所有的物理接口也被劃分成了不同的組,同一組內(nèi)的物理接口共享對應(yīng)的緩存單元。
不同緩存架構(gòu)影響
如下圖所示,同樣是16MB的緩存情況下,完全共享緩沖架構(gòu)中的每個(gè)端口極限情況下(如多打一的Incast場景,)可以最大利用到16MB;如果是兩個(gè)分片的分組端口緩存架構(gòu)下,每個(gè)端口極限情況下僅可以最大利用到8MB;而如果是四個(gè)分片的分組端口緩存架構(gòu)下,每個(gè)端口極限情況下僅可以最大利用到4MB。
思科之前的文檔中也做過分析,分片報(bào)文緩存架構(gòu)下,不同的流量模型對微突發(fā)流量吸收的影響或限制也不同,如下圖所示:
以圖中右側(cè)圖示情況為例,4個(gè)分片的架構(gòu)下,如果四個(gè)輸出端口位于4個(gè)不同的分片上,最理想的情況可以達(dá)到100%的緩存利用,但是任意一個(gè)輸出端口最多僅可以消耗總內(nèi)存的25%。在復(fù)雜的流量模式下,這種限制可能會更加痛苦,如圖中右側(cè)圖示為例,此情況下,一個(gè)輸出端口的緩存被限制為總緩沖區(qū)的1/16(6.25%),這種限制使得Incast下的緩沖行為不可預(yù)測。 在完全共享緩存架構(gòu)中,設(shè)備中的所有數(shù)據(jù)包緩沖區(qū)都可用于動態(tài)分配到任意一個(gè)端口,這意味著在所有輸入輸出端口之間共享緩存而沒有任何限制,最大限度地提高了可用內(nèi)存的效率,并且使微突發(fā)流量吸收能力可預(yù)測,與流量模型沒有任何關(guān)系。
完全共享緩存的優(yōu)勢也體現(xiàn)在RoCEv2網(wǎng)絡(luò)中,RoCEv2是TCP/IP協(xié)議中UDP層實(shí)現(xiàn),因?yàn)槭褂貌恍枰_認(rèn)的UDP協(xié)議,此時(shí)RTT不是緩沖區(qū)需求的直接驅(qū)動因素,但是RDMA的無損特性往往要依靠PFC來實(shí)現(xiàn),PFC逐級反壓控制會導(dǎo)致?lián)砣樱耆蚕砭彺嫱ㄟ^在需要的時(shí)間和節(jié)點(diǎn)支持更多的緩存,有助于最大限度地減少觸發(fā)PFC流量控制的需要。
主流廠商實(shí)現(xiàn)當(dāng)前市場上,大多數(shù)數(shù)據(jù)中心交換機(jī)都是使用商用交換芯片ASIC構(gòu)建的,這些ASIC針對傳統(tǒng)的數(shù)據(jù)流量模式和數(shù)據(jù)包大小進(jìn)行了成本優(yōu)化,為了在實(shí)現(xiàn)帶寬目標(biāo)的同時(shí)保持低成本,芯片供應(yīng)商更多使用了分片緩存架構(gòu),犧牲了公平性,同時(shí)面臨不可預(yù)測性和微突發(fā)吸收的問題。
但是,當(dāng)前幾個(gè)主要廠商51.2Tbps最高容量的交換芯片,由于應(yīng)對場景以HPC/AI大模型訓(xùn)練等為主,基本都采用完全共享緩存架構(gòu),相關(guān)的交換芯片或交換機(jī)如博通Tomahawk5、英偉達(dá)Spectrum-4、思科Silicon One G200都是宣傳采用完全共享緩存架構(gòu)。
-
網(wǎng)絡(luò)交換機(jī)
+關(guān)注
關(guān)注
1文章
67瀏覽量
16037 -
緩存
+關(guān)注
關(guān)注
1文章
239瀏覽量
26669 -
智算中心
+關(guān)注
關(guān)注
0文章
68瀏覽量
1691
原文標(biāo)題:智算中心網(wǎng)絡(luò)交換機(jī)需要什么樣的緩存架構(gòu)?
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論