RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智算中心網(wǎng)絡(luò)交換機(jī)需要什么樣的緩存架構(gòu)

SDNLAB ? 來源:西貝吹風(fēng) ? 2024-11-14 16:53 ? 次閱讀

?在交換機(jī)上,緩存就是數(shù)據(jù)交換的緩沖區(qū),被交換機(jī)用來協(xié)調(diào)不同網(wǎng)絡(luò)設(shè)備之間的速度匹配問題,突發(fā)數(shù)據(jù)可以存儲在緩沖區(qū)內(nèi),直到被慢速設(shè)備處理為止。數(shù)據(jù)中心交換機(jī)應(yīng)用在HPC/AI大模型訓(xùn)練、分布式存儲等場景時(shí),并非緩存越大越好,過大的緩存會導(dǎo)致更長的隊(duì)列、更高的時(shí)延和抖動、更高的成本,所以不能簡單地去擴(kuò)大緩存,交換機(jī)避免丟包所需的緩存與此帶寬延遲積BDP直接相關(guān),借助于帶寬時(shí)延積BDP可以確定合適的內(nèi)存大小。

緩存架構(gòu)分類

按照緩沖區(qū)的大小,以太網(wǎng)交換機(jī)通常分為深緩沖區(qū)交換機(jī)和淺緩沖區(qū)交換機(jī),深緩沖區(qū)交換機(jī)緩沖區(qū)容量高達(dá)數(shù)GB,與淺緩沖區(qū)交換機(jī)的幾十MB形成鮮明對比。這種設(shè)計(jì)上的差異源于應(yīng)用場景的差異,深緩沖區(qū)交換機(jī)(或路由器)主要面向路由和廣域網(wǎng)場景,RTT時(shí)間長,希望能夠容納更多的數(shù)據(jù)流量,對微突發(fā)流量不敏感,但也意味著更高的尾延遲和抖動,這一點(diǎn)與HPC/AI大模型訓(xùn)練、分布式存儲等場景的低時(shí)延要求顯然是相違背的,淺緩沖區(qū)交換機(jī)在這種場景下更適合,以目前最高端的51.2Tbps(64個(gè)800G)的交換機(jī)為例,如果RTT時(shí)間是3~5微秒,緩存僅需33MB左右,這是交換機(jī)中所需的總緩存,那么這個(gè)總的緩存能否被每一個(gè)端口充分利用嗎?

這就取決于交換機(jī)(交換芯片)所采用緩存架構(gòu)。交換芯片的緩存架構(gòu)通常分為:完全共享緩存架構(gòu)和分片報(bào)文緩存架構(gòu)(也稱分割緩沖區(qū)結(jié)構(gòu))。

完全共享緩存架構(gòu):設(shè)備中的所有緩存都可用于動態(tài)分配到任何端口,意味著在所有輸入-輸出端口之間共享緩存而沒有任何限制,最大限度地提高了可用內(nèi)存的效率。

分片報(bào)文緩存架構(gòu):由多片較小的緩存共同組成了芯片內(nèi)部的緩存,所有的物理接口也被劃分成了不同的組,同一組內(nèi)的物理接口共享對應(yīng)的緩存單元。

不同緩存架構(gòu)影響

如下圖所示,同樣是16MB的緩存情況下,完全共享緩沖架構(gòu)中的每個(gè)端口極限情況下(如多打一的Incast場景,)可以最大利用到16MB;如果是兩個(gè)分片的分組端口緩存架構(gòu)下,每個(gè)端口極限情況下僅可以最大利用到8MB;而如果是四個(gè)分片的分組端口緩存架構(gòu)下,每個(gè)端口極限情況下僅可以最大利用到4MB。

2719230e-906c-11ef-a511-92fbcf53809c.jpg

思科之前的文檔中也做過分析,分片報(bào)文緩存架構(gòu)下,不同的流量模型對微突發(fā)流量吸收的影響或限制也不同,如下圖所示:

273abf0a-906c-11ef-a511-92fbcf53809c.jpg

以圖中右側(cè)圖示情況為例,4個(gè)分片的架構(gòu)下,如果四個(gè)輸出端口位于4個(gè)不同的分片上,最理想的情況可以達(dá)到100%的緩存利用,但是任意一個(gè)輸出端口最多僅可以消耗總內(nèi)存的25%。在復(fù)雜的流量模式下,這種限制可能會更加痛苦,如圖中右側(cè)圖示為例,此情況下,一個(gè)輸出端口的緩存被限制為總緩沖區(qū)的1/16(6.25%),這種限制使得Incast下的緩沖行為不可預(yù)測。 在完全共享緩存架構(gòu)中,設(shè)備中的所有數(shù)據(jù)包緩沖區(qū)都可用于動態(tài)分配到任意一個(gè)端口,這意味著在所有輸入輸出端口之間共享緩存而沒有任何限制,最大限度地提高了可用內(nèi)存的效率,并且使微突發(fā)流量吸收能力可預(yù)測,與流量模型沒有任何關(guān)系。

完全共享緩存的優(yōu)勢也體現(xiàn)在RoCEv2網(wǎng)絡(luò)中,RoCEv2是TCP/IP協(xié)議中UDP層實(shí)現(xiàn),因?yàn)槭褂貌恍枰_認(rèn)的UDP協(xié)議,此時(shí)RTT不是緩沖區(qū)需求的直接驅(qū)動因素,但是RDMA的無損特性往往要依靠PFC來實(shí)現(xiàn),PFC逐級反壓控制會導(dǎo)致?lián)砣樱耆蚕砭彺嫱ㄟ^在需要的時(shí)間和節(jié)點(diǎn)支持更多的緩存,有助于最大限度地減少觸發(fā)PFC流量控制的需要。

主流廠商實(shí)現(xiàn)當(dāng)前市場上,大多數(shù)數(shù)據(jù)中心交換機(jī)都是使用商用交換芯片ASIC構(gòu)建的,這些ASIC針對傳統(tǒng)的數(shù)據(jù)流量模式和數(shù)據(jù)包大小進(jìn)行了成本優(yōu)化,為了在實(shí)現(xiàn)帶寬目標(biāo)的同時(shí)保持低成本,芯片供應(yīng)商更多使用了分片緩存架構(gòu),犧牲了公平性,同時(shí)面臨不可預(yù)測性和微突發(fā)吸收的問題。

但是,當(dāng)前幾個(gè)主要廠商51.2Tbps最高容量的交換芯片,由于應(yīng)對場景以HPC/AI大模型訓(xùn)練等為主,基本都采用完全共享緩存架構(gòu),相關(guān)的交換芯片或交換機(jī)如博通Tomahawk5、英偉達(dá)Spectrum-4、思科Silicon One G200都是宣傳采用完全共享緩存架構(gòu)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)交換機(jī)

    關(guān)注

    1

    文章

    67

    瀏覽量

    16037
  • 緩存
    +關(guān)注

    關(guān)注

    1

    文章

    239

    瀏覽量

    26669
  • 智算中心
    +關(guān)注

    關(guān)注

    0

    文章

    68

    瀏覽量

    1691

原文標(biāo)題:智算中心網(wǎng)絡(luò)交換機(jī)需要什么樣的緩存架構(gòu)?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    廣西南寧企業(yè)級綜合網(wǎng)關(guān)、網(wǎng)絡(luò)核心交換機(jī)等售后維修服務(wù)中心點(diǎn)深妙科技

    隨著信息技術(shù)的迅猛發(fā)展,云計(jì)算和網(wǎng)絡(luò)架構(gòu)的復(fù)雜性日益增加,核心交換機(jī)作為網(wǎng)絡(luò)中心節(jié)點(diǎn),擔(dān)負(fù)著至關(guān)重要的角色。本文旨在探討云管框式核心
    的頭像 發(fā)表于 12-18 15:41 ?70次閱讀
    廣西南寧企業(yè)級綜合網(wǎng)關(guān)、<b class='flag-5'>網(wǎng)絡(luò)</b>核心<b class='flag-5'>交換機(jī)</b>等售后維修服務(wù)<b class='flag-5'>中心</b>點(diǎn)深妙科技

    反射內(nèi)存交換機(jī)與普通交換機(jī)的區(qū)別

    ,實(shí)現(xiàn)低延遲、確定性的數(shù)據(jù)傳輸。普通交換機(jī)則依據(jù)網(wǎng)絡(luò)協(xié)議(如以太網(wǎng)協(xié)議)進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā),通常需要軟件參與處理,數(shù)據(jù)傳輸?shù)难舆t和確定性相對較難保證。傳輸速度和延遲:反射
    的頭像 發(fā)表于 09-05 09:57 ?556次閱讀
    反射內(nèi)存<b class='flag-5'>交換機(jī)</b>與普通<b class='flag-5'>交換機(jī)</b>的區(qū)別

    網(wǎng)管型交換機(jī)和非網(wǎng)管型交換機(jī)的區(qū)別

    網(wǎng)管型交換機(jī)和非網(wǎng)管型交換機(jī)是兩種不同類型的交換機(jī),它們在功能、性能、應(yīng)用場景等方面存在明顯的差異。 定義 網(wǎng)管型交換機(jī)(Managed Switch)是一種具有
    的頭像 發(fā)表于 08-05 15:41 ?2609次閱讀

    園區(qū)交換機(jī) VS 數(shù)據(jù)中心交換機(jī)

    園區(qū)交換機(jī)和數(shù)據(jù)中心交換機(jī)交換機(jī)領(lǐng)域的兩大類別,很多人都很熟悉。但是,這兩者之間的區(qū)別并不是很清楚。在本文中,我們將對園區(qū)交換機(jī)和數(shù)據(jù)
    的頭像 發(fā)表于 06-24 15:33 ?599次閱讀
    園區(qū)<b class='flag-5'>交換機(jī)</b> VS 數(shù)據(jù)<b class='flag-5'>中心</b><b class='flag-5'>交換機(jī)</b>

    數(shù)據(jù)中心交換機(jī)購買指南

    由于數(shù)據(jù)中心網(wǎng)絡(luò)基礎(chǔ)設(shè)施變得更加分散,數(shù)據(jù)中心交換機(jī)正在成為一種新型交換機(jī)。與傳統(tǒng)的三層架構(gòu)
    的頭像 發(fā)表于 06-11 16:37 ?518次閱讀

    廣域網(wǎng)交換機(jī)與局域網(wǎng)交換機(jī)的區(qū)別

      在構(gòu)建和管理網(wǎng)絡(luò)架構(gòu)時(shí),交換機(jī)作為核心設(shè)備,其選擇和配置直接影響到網(wǎng)絡(luò)的性能、可靠性和安全性。廣域網(wǎng)交換機(jī)和局域網(wǎng)
    的頭像 發(fā)表于 06-06 11:07 ?1037次閱讀

    交換機(jī)的基本分類

      交換機(jī)作為網(wǎng)絡(luò)通訊中的核心設(shè)備之一,其在網(wǎng)絡(luò)架構(gòu)中起著至關(guān)重要的作用。隨著信息技術(shù)的飛速發(fā)展,交換機(jī)也在不斷演進(jìn)和革新,以滿足日益復(fù)雜的
    的頭像 發(fā)表于 06-06 11:06 ?1903次閱讀

    淺談交換機(jī)的發(fā)展歷史

      交換機(jī)作為網(wǎng)絡(luò)通訊中的關(guān)鍵設(shè)備,其發(fā)展歷程見證了信息技術(shù)的飛速進(jìn)步和網(wǎng)絡(luò)架構(gòu)的持續(xù)優(yōu)化。從早期的電路交換到現(xiàn)代的以太網(wǎng)
    的頭像 發(fā)表于 06-06 11:05 ?2040次閱讀

    光纖交換機(jī)網(wǎng)絡(luò)交換機(jī)的區(qū)別在哪

    光纖交換機(jī)網(wǎng)絡(luò)交換機(jī)是兩種不同類型的網(wǎng)絡(luò)設(shè)備,它們在數(shù)據(jù)傳輸介質(zhì)、傳輸速率、應(yīng)用場景以及設(shè)計(jì)上有所區(qū)別。
    的頭像 發(fā)表于 05-28 15:16 ?2234次閱讀

    交換機(jī)芯片架構(gòu)的演變

    交換機(jī)芯片架構(gòu)的演變是隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)據(jù)處理需求的增長而逐步推進(jìn)的。
    的頭像 發(fā)表于 03-26 15:03 ?759次閱讀

    工業(yè)網(wǎng)絡(luò)交換機(jī)的分類及其應(yīng)用領(lǐng)域

    工業(yè)網(wǎng)絡(luò)交換機(jī)作為關(guān)鍵的通信設(shè)備,在工業(yè)領(lǐng)域扮演著至關(guān)重要的角色。根據(jù)不同的需求和應(yīng)用場景,工業(yè)網(wǎng)絡(luò)交換機(jī)可以分為多個(gè)分類。本文將圍繞工業(yè)網(wǎng)絡(luò)
    的頭像 發(fā)表于 03-26 10:02 ?833次閱讀

    交換機(jī)分布緩存_述說數(shù)據(jù)中心交換機(jī)的重要性能指標(biāo)——緩存

    交換機(jī)是數(shù)據(jù)中心不可缺少的網(wǎng)絡(luò)設(shè)備,在數(shù)據(jù)中心里發(fā)揮著重要作用。在平時(shí)使用和采購時(shí),大多數(shù)都關(guān)注交換機(jī)的背板帶寬、端口密度、單端口速度、協(xié)議
    的頭像 發(fā)表于 03-15 17:39 ?782次閱讀

    匯聚交換機(jī)和核心交換機(jī)區(qū)別

    匯聚交換機(jī)和核心交換機(jī)網(wǎng)絡(luò)中常見的兩種交換機(jī)設(shè)備,在網(wǎng)絡(luò)中扮演著不同的角色和功能。雖然它們的主要目標(biāo)是提供高速、高效的數(shù)據(jù)
    的頭像 發(fā)表于 01-22 14:32 ?4410次閱讀

    萬兆銅纜交換機(jī)與萬兆光纖交換機(jī)有什么區(qū)別?該如何選擇?

    萬兆銅纜交換機(jī)與萬兆光纖交換機(jī)有什么區(qū)別?該如何選擇? 萬兆銅纜交換機(jī)和萬兆光纖交換機(jī)網(wǎng)絡(luò)通信領(lǐng)域中常見的兩種設(shè)備,它們在性能、適用場景、
    的頭像 發(fā)表于 12-27 15:02 ?856次閱讀

    管理型交換機(jī) vs. 非管理型交換機(jī)

    在構(gòu)建復(fù)雜的網(wǎng)絡(luò)中,選擇適當(dāng)?shù)?b class='flag-5'>交換機(jī)類型很重要。管理型交換機(jī)作為智能網(wǎng)絡(luò)的掌舵者,與非管理型交換機(jī)相比,為
    的頭像 發(fā)表于 12-25 17:59 ?1286次閱讀
    管理型<b class='flag-5'>交換機(jī)</b> vs. 非管理型<b class='flag-5'>交換機(jī)</b>
    RM新时代网站-首页