RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文讀懂智算中心網(wǎng)絡(luò)

SDNLAB ? 來(lái)源:SDNLAB ? 2023-10-21 09:34 ? 次閱讀

作者簡(jiǎn)介:陳起,江蘇有線技術(shù)研究院高級(jí)工程師,碩士,主要從事IPv6、新型城域網(wǎng)方面的研究,曾參與過(guò)TVOS、HINOC等重大項(xiàng)目。

01人工智能主流應(yīng)用場(chǎng)景及算力需求

人工智能領(lǐng)域包括8大重要應(yīng)用場(chǎng)景,包括:識(shí)別檢測(cè)、語(yǔ)音交互、AI芯片、自動(dòng)駕駛、機(jī)器人、視頻解析、人機(jī)協(xié)同、機(jī)器翻譯、精準(zhǔn)推薦等。每類場(chǎng)景對(duì)算力的要求不同。以人工智能最常應(yīng)用的三大類場(chǎng)景為例,在應(yīng)用于安防、醫(yī)療診斷和自動(dòng)駕駛等領(lǐng)域的圖像檢測(cè)和視頻檢索場(chǎng)景中,以卷積網(wǎng)絡(luò)為主要算力需求;在博弈決策類應(yīng)用場(chǎng)景中,以強(qiáng)化學(xué)習(xí)為主要算力需求;在新基建大型計(jì)算機(jī)場(chǎng)景中,以自然語(yǔ)音處理為主要算力需求。人工智能領(lǐng)域涉及較多的矩陣、向量的乘法和加法,專用性高,對(duì)算力消耗大,不適合用通用CPU進(jìn)行計(jì)算。智算中心需要支持不同種類的計(jì)算核心,如CPU、GPUARM、FPGA等,通過(guò)專用處理器高效完成特定計(jì)算。此外,以大數(shù)據(jù)分析為代表的數(shù)據(jù)密集型應(yīng)用需要高效且大量的數(shù)據(jù)存儲(chǔ)空間來(lái)存儲(chǔ)數(shù)據(jù)集。

人工智能正朝著更大型的模型發(fā)展,模型規(guī)模與其對(duì)應(yīng)的參數(shù)不斷增加。2019年GPT-2參數(shù)規(guī)模達(dá)15億,2020年GPT-3參數(shù)規(guī)模達(dá)1700億參數(shù),目前已經(jīng)達(dá)到了1萬(wàn)億的參數(shù)規(guī)模。

02智能算力概況

智能計(jì)算中心指基于GPU、FPGA等芯片構(gòu)建智能計(jì)算服務(wù)器集群,提供智能算力的基礎(chǔ)設(shè)施。主要應(yīng)用于多模態(tài)數(shù)據(jù)挖掘,智能化業(yè)務(wù)高性能計(jì)算、海量數(shù)據(jù)分布式存儲(chǔ)調(diào)度、人工智能模型開發(fā)、模型訓(xùn)練和推理服務(wù)等場(chǎng)景。

自2020年4月,人工智能正式被納入新基建的范疇,我國(guó)已經(jīng)在20多個(gè)城市陸續(xù)啟動(dòng)了人工智能計(jì)算中心建設(shè)。2022年2月,“東數(shù)西算”工程正式全面啟動(dòng),8個(gè)國(guó)家算力樞紐節(jié)點(diǎn)全面開工。根據(jù)中國(guó)信息通信研究院2023年發(fā)布的《中國(guó)綜合算力評(píng)價(jià)白皮書》,截至2022年底,我國(guó)算力總規(guī)模達(dá)到180EFLOPS,智能算力規(guī)模占比約22.8%,相比2021年增加41.4%,智能算力增長(zhǎng)迅速。根據(jù)ICPA智算聯(lián)盟統(tǒng)計(jì),截至2022年3月,我國(guó)人工智能計(jì)算中心已投運(yùn)的近20個(gè),在建設(shè)的超過(guò)20個(gè)。預(yù)計(jì)到2025年,我國(guó)的AI算力總量將超過(guò)1800EFLOPS,占總算力的比重將超過(guò)85%。

表:長(zhǎng)三角人工智能計(jì)算中心情況

wKgaomUzKpqAVRYyAACM_-bCJLk518.jpg

數(shù)據(jù)來(lái)源:2023人工智能發(fā)展白皮書

03AI數(shù)據(jù)中心網(wǎng)絡(luò)流量特征及技術(shù)要求

根據(jù)權(quán)威定義,智能計(jì)算中心是基于最新人工智能理論,采用領(lǐng)先的人工智能計(jì)算架構(gòu),提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施,通過(guò)算力的生產(chǎn)、聚合、調(diào)度和釋放,高效支撐數(shù)據(jù)開放共享、智能生態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集,有力促進(jìn)AI產(chǎn)業(yè)化、產(chǎn)業(yè)AI化及政府治理智能化。

AI模型從生產(chǎn)到應(yīng)用,一般要經(jīng)歷離線訓(xùn)練和推理部署兩個(gè)階段。離線訓(xùn)練是產(chǎn)生模型的過(guò)程,通過(guò)訓(xùn)練模型的數(shù)據(jù)集及算法,經(jīng)過(guò)多輪迭代,最終生成訓(xùn)練后的模型。這一過(guò)程核心是數(shù)據(jù)計(jì)算。通常為了提升計(jì)算效率,通過(guò)GPU等異構(gòu)芯片實(shí)現(xiàn)加速。人工智能模型訓(xùn)練和推理過(guò)程需要強(qiáng)大的算力。人工智能的深度學(xué)習(xí)計(jì)算包含大量的矩陣乘加運(yùn)算。AI加速芯片如GPU、FPGA、ASIC等能夠提供相較于CPU10~100倍的加速。AI服務(wù)器通常以CPU+AI加速芯片為主體,構(gòu)成智算中心的基本單元。其中:

# CPU

通用處理器,用于人機(jī)交互和復(fù)雜條件分支處理,以及任務(wù)之間的同步協(xié)調(diào)。

# GPU

應(yīng)用于深度學(xué)習(xí)等對(duì)并行計(jì)算、浮點(diǎn)計(jì)算要求高的領(lǐng)域。開發(fā)周期短,技術(shù)體系成熟。

# FPGA

在推演階段算法性能高、功耗和延遲低。適用于壓縮/解壓縮、圖片加速、網(wǎng)絡(luò)加速、金融加速等場(chǎng)景。

ASIC,專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。

# ASIC

專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。

由于AI模型計(jì)算對(duì)算力的消耗大,單個(gè)AI計(jì)算單元難以滿足算力需求。同時(shí),為了縮短訓(xùn)練時(shí)間,通常采用分布式技術(shù)對(duì)模型和數(shù)據(jù)進(jìn)行切分,將訓(xùn)練任務(wù)分解為多個(gè)子任務(wù),在多個(gè)計(jì)算節(jié)點(diǎn)上同時(shí)進(jìn)行。每個(gè)計(jì)算節(jié)點(diǎn)完成計(jì)算任務(wù)后,需要進(jìn)行結(jié)果的聚合,完成每一輪次的學(xué)習(xí)。在這一過(guò)程中,多個(gè)AI芯片之間需要高速互聯(lián),AI服務(wù)器之間需要高速通信。因而,需要智算中心網(wǎng)絡(luò)提供低時(shí)延、大帶寬、穩(wěn)定運(yùn)行的保障,并能夠支持大規(guī)模計(jì)算節(jié)點(diǎn),能夠提供方便運(yùn)維的手段。

低時(shí)延

人工智能模型參數(shù)規(guī)模巨大。預(yù)計(jì)2025年將達(dá)到百萬(wàn)億級(jí)。借助NVMe等接口協(xié)議,存儲(chǔ)介質(zhì)訪問速率大幅提升,網(wǎng)絡(luò)時(shí)延占比上升到65%,需要采用先進(jìn)網(wǎng)絡(luò)設(shè)計(jì),降低網(wǎng)絡(luò)時(shí)延。數(shù)據(jù)中心網(wǎng)絡(luò)的時(shí)延主要包括:靜態(tài)時(shí)延、網(wǎng)絡(luò)跳數(shù)、動(dòng)態(tài)時(shí)延以及入網(wǎng)次數(shù)。其中,靜態(tài)時(shí)延由查表與轉(zhuǎn)發(fā)時(shí)延組成,約600ns-1us。網(wǎng)絡(luò)跳數(shù)指網(wǎng)絡(luò)包經(jīng)過(guò)的設(shè)備節(jié)點(diǎn)數(shù),不同節(jié)點(diǎn)處理時(shí)延。該時(shí)延與網(wǎng)絡(luò)架構(gòu)有關(guān)系。動(dòng)態(tài)時(shí)延由消息隊(duì)列產(chǎn)生,該時(shí)延與網(wǎng)絡(luò)擁塞情況相關(guān)。當(dāng)網(wǎng)絡(luò)擁塞時(shí),數(shù)據(jù)包在網(wǎng)絡(luò)設(shè)備中排隊(duì),或者被丟棄,從而產(chǎn)生時(shí)延。入網(wǎng)次數(shù)指數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)的次數(shù)。分布式訓(xùn)練系統(tǒng)的時(shí)延包括單卡的計(jì)算時(shí)間和卡間通信時(shí)間。智算中心網(wǎng)絡(luò)需要降低卡間通信時(shí)間,以提升加速比。降低卡間通信時(shí)間通常采用RDMA技術(shù),通過(guò)繞過(guò)操作系統(tǒng)內(nèi)核的方式,提升數(shù)據(jù)訪問效率。

大帶寬

單節(jié)點(diǎn)計(jì)算任務(wù)的分配以及計(jì)算結(jié)果的搜集需要大帶寬支撐,以快速進(jìn)行模型參數(shù)的迭代計(jì)算。以智算中心典型的服務(wù)節(jié)點(diǎn)為例,單個(gè)服務(wù)節(jié)點(diǎn)可以配置8張GPU卡,8張PCIe網(wǎng)卡。兩個(gè)GPU跨機(jī)互通的突發(fā)帶寬可能達(dá)到50Gbps。一般每個(gè)GPU關(guān)聯(lián)一個(gè)100Gbps網(wǎng)絡(luò)端口,單機(jī)對(duì)外帶寬達(dá)到800Gbps。

穩(wěn)定運(yùn)行

大模型的計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng),訓(xùn)練期間涉及節(jié)點(diǎn)間的頻繁交互,對(duì)網(wǎng)絡(luò)穩(wěn)定性要求高。如果訓(xùn)練期間網(wǎng)絡(luò)出現(xiàn)不穩(wěn)定,輕則將回退到上一個(gè)分布式訓(xùn)練的斷點(diǎn),重則可能要從0開始,會(huì)影響整個(gè)訓(xùn)練任務(wù)進(jìn)度。智算中心支撐自動(dòng)駕駛、智能工廠、遠(yuǎn)程醫(yī)療等行業(yè)應(yīng)用,這些行業(yè)應(yīng)用對(duì)網(wǎng)絡(luò)可靠性要求極高,業(yè)務(wù)中斷會(huì)給客戶帶來(lái)重大損失。

智算中心網(wǎng)絡(luò)要求彈性和可擴(kuò)展性,支持大規(guī)模計(jì)算集群,在提供高速連接能力的同時(shí),提供軟件定義的加速能力,實(shí)現(xiàn)網(wǎng)絡(luò)的控制和轉(zhuǎn)發(fā)分離,減少多維分布式任務(wù)帶來(lái)的性能損耗,提高網(wǎng)絡(luò)的利用率,支持彈性裸金屬服務(wù)器、自定義業(yè)務(wù)功能等特性。

大規(guī)模

分布式訓(xùn)練中涉及萬(wàn)級(jí)別以GPU為代表的計(jì)算節(jié)點(diǎn),智算中心網(wǎng)絡(luò)需要具備支持大規(guī)模節(jié)點(diǎn)的能力,且能夠方便擴(kuò)展,為持續(xù)增長(zhǎng)的算力要求提供接入能力。在智算中心中,多種處理架構(gòu)并存,NPU(Neural-Network Processing Unit)嵌入式神經(jīng)網(wǎng)絡(luò)處理器、VPU(Vector Processing Unit)矢量處理器、GPU等智算中心節(jié)點(diǎn)數(shù)量將達(dá)到百萬(wàn)級(jí)。智算中心需要支持算力調(diào)度,通過(guò)對(duì)應(yīng)用分析和監(jiān)管,優(yōu)化算力設(shè)備布局規(guī)劃,提升業(yè)務(wù)部署效能,提高算力設(shè)備的利用率,降低設(shè)備閑置率,提升智算中心的生產(chǎn)效率。算力調(diào)度涉及配額策略、共享超分、負(fù)載均衡等策略。

可運(yùn)維、可運(yùn)營(yíng)

智算中心節(jié)點(diǎn)眾多,需要具備可運(yùn)維性、可管理性,能夠?qū)崟r(shí)查看智算中心網(wǎng)絡(luò)運(yùn)行狀態(tài),快速發(fā)現(xiàn)和定位網(wǎng)絡(luò)問題。智算中心中,傳統(tǒng)的人機(jī)接口變?yōu)闄C(jī)器與機(jī)器之間的接口,網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算邊界模糊,故障定位困難,需要引入智能引擎,對(duì)應(yīng)用流量與網(wǎng)絡(luò)狀態(tài)進(jìn)行關(guān)聯(lián)分析,為業(yè)務(wù)網(wǎng)絡(luò)提供自愈能力,打造自動(dòng)駕駛網(wǎng)絡(luò)。智算中心以云服務(wù)模式提供算力服務(wù),不同租戶算力需求不同。智算中心需要實(shí)現(xiàn)租戶間的數(shù)據(jù)和算力的隔離。

高效智算中心間互聯(lián)

隨著東數(shù)西算戰(zhàn)略推進(jìn)及分布式算力協(xié)同場(chǎng)景,AI算力突破了單一的智算中心,新型應(yīng)用依賴多個(gè)智算中心之間的協(xié)同。智算中心之間的連接要求更高,需要具備更高的帶寬(百G甚至上T),更低的丟包率。算力之間的聯(lián)網(wǎng)和統(tǒng)一調(diào)度成為趨勢(shì)。

此外,在AI訓(xùn)練以及使用過(guò)程中,還需要處理好存儲(chǔ)問題:解決好處理器內(nèi)部、處理器和內(nèi)存、內(nèi)存和外存以及服務(wù)器之間等不同層級(jí)數(shù)據(jù)存取的效率問題。

04AI數(shù)據(jù)中心網(wǎng)絡(luò)實(shí)現(xiàn)方式

《智能計(jì)算中心規(guī)劃建設(shè)指南》中介紹了智能計(jì)算中心提供4類算力:

# 生產(chǎn)算力

由AI服務(wù)器組成,形成高性能、高吞吐的計(jì)算系統(tǒng),為AI順聯(lián)和推理提供基礎(chǔ)計(jì)算力。

# 聚合算力

由智能網(wǎng)絡(luò)和智能存儲(chǔ)組成,構(gòu)建高帶寬、低延遲的通信系統(tǒng)和數(shù)據(jù)平臺(tái)。智能網(wǎng)絡(luò)、智能存儲(chǔ)采用軟件定義方式,實(shí)現(xiàn)文件、對(duì)象、塊、大數(shù)據(jù)存儲(chǔ)服務(wù)一體化設(shè)計(jì)。

# 調(diào)度算力

將聚合的CPU、GPU、FPGA、ASIC等算力資源進(jìn)行標(biāo)準(zhǔn)化和粒度切分,滿足智能應(yīng)用的算力需求。

# 釋放算力

是指高質(zhì)量AI模型或AI服務(wù)的輸出,促進(jìn)算力高效釋放轉(zhuǎn)化為生產(chǎn)力。

這四類算力是智算中心建設(shè)的出發(fā)點(diǎn)和落腳點(diǎn)。在智算中心網(wǎng)絡(luò)在具體實(shí)現(xiàn)上,從資源管理角度,主要包括三個(gè)路線:

# 以CPU為中心

所有存算資源的管理都運(yùn)行在CPU上,通過(guò)遠(yuǎn)端資源的方式使用其他資源。

# 以內(nèi)存為中心

內(nèi)存管理分離出來(lái),實(shí)現(xiàn)內(nèi)存的獨(dú)立拓展和共享訪問,從而實(shí)現(xiàn)高效的數(shù)據(jù)處理和計(jì)算。減少了內(nèi)存管理開銷,但其他資源依然由CPU管理和調(diào)度。

# 以網(wǎng)絡(luò)IO為中心

《未來(lái)網(wǎng)絡(luò)白皮書(2023)以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心》提出了以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心架構(gòu),資源去中心化。計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等資源都被視為獨(dú)立的服務(wù),不同資源的拓展和使用相互獨(dú)立。資源之間通過(guò)消息傳遞的方式進(jìn)行通信和協(xié)作。網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室圍繞該理念設(shè)計(jì)了以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心。通過(guò)I/O process Unit解耦存算單元使用和協(xié)作的樞紐,其對(duì)內(nèi)負(fù)責(zé)各存算資源的全接入、驅(qū)動(dòng)等,對(duì)外負(fù)責(zé)資源彼此之間的信息交互;通過(guò)分布式內(nèi)核,實(shí)現(xiàn)存算資源按需拓展和彈性使用的軟件架構(gòu)。

在網(wǎng)絡(luò)拓?fù)浼軜?gòu)方面,通常有3種主流設(shè)計(jì)模式,F(xiàn)at-Tree架構(gòu)實(shí)現(xiàn)無(wú)阻塞轉(zhuǎn)發(fā),Dragonfly架構(gòu)網(wǎng)絡(luò)直徑小,Torus 具有高擴(kuò)展性和性價(jià)比。

Fat-Tree架構(gòu)采用1:1無(wú)收斂設(shè)計(jì)。Fat-Tree架構(gòu)中交換機(jī)上聯(lián)端口與下聯(lián)端口帶寬、數(shù)量保持一致,同時(shí)交換機(jī)要采用無(wú)阻塞轉(zhuǎn)發(fā)的數(shù)據(jù)中心級(jí)交換機(jī)。Fat-Tree架構(gòu)可以通過(guò)擴(kuò)展網(wǎng)絡(luò)層次提升接入的GPU節(jié)點(diǎn)數(shù)量。兩層Fat-Tree架構(gòu)能夠接入PP/2張GPU卡,P為交換機(jī)的端口數(shù)量。三層Fat-Tree架構(gòu)能夠接入 P(P/2)*(P/2)張GPU卡。以40端口的InfiniBand交換機(jī)為例,能夠接入的GPU數(shù)量最多可達(dá)16000個(gè)。以百度智能云為例,按照服務(wù)節(jié)點(diǎn)的網(wǎng)卡數(shù)量組成AI-Pool,將不同節(jié)點(diǎn)相同編號(hào)的網(wǎng)口連接到同一臺(tái)交換機(jī),通過(guò)NCCL通信庫(kù)的Rail Local技術(shù)以及主機(jī)內(nèi)GPU間的NVSwitch的帶寬,將多機(jī)間的跨卡互通轉(zhuǎn)化為跨機(jī)間的同GPU卡號(hào)的互通,從而實(shí)現(xiàn)同2層Fat-Tree架構(gòu)下,AI-Pool一跳可達(dá),不同AI-Pool 三跳可達(dá)。三層Fat-Tree架構(gòu)下智算節(jié)點(diǎn)間同GPU卡號(hào)轉(zhuǎn)發(fā)3跳可達(dá),不同GPU卡號(hào)轉(zhuǎn)發(fā)5跳可達(dá)。

wKgaomUzKpqAO-qzAAOHRyUvzkA637.png

圖1:Fat-Tree拓?fù)鋱D

Dragonfly架構(gòu)分為三層:Switch層,包含1個(gè)交換機(jī)及與其相連的計(jì)算節(jié)點(diǎn);Group層:包含a個(gè)Switch層,a個(gè)交換機(jī)之間全互聯(lián)(每個(gè)交換機(jī)都有a-1條鏈路連接至其他a-1臺(tái)交換機(jī));System層:包含g個(gè)Group層,g個(gè)Group層全連接。對(duì)于單個(gè)Switch交換機(jī),有P個(gè)端口連接計(jì)算節(jié)點(diǎn),a-1個(gè)端口連接Group內(nèi)的其他交換機(jī),h個(gè)端口連接到其他Group交換機(jī)。每個(gè)交換機(jī)的端口數(shù)為k=p+(a-1)+h。可以接入的計(jì)算節(jié)點(diǎn)總數(shù)為N=ap(ah+1),通常按照a=2p=2h配置。采用直連模式,縮短網(wǎng)絡(luò)路徑,減少中間節(jié)點(diǎn)數(shù)量。64端口交換機(jī)支持組網(wǎng)規(guī)模27萬(wàn)節(jié)點(diǎn),端到端交換機(jī)轉(zhuǎn)發(fā)跳數(shù)減至3跳。

wKgZomUzKpqAdV22AAWfkzEIfPk593.png

圖2:Dragonfly拓?fù)鋱D

Torus架構(gòu),將計(jì)算節(jié)點(diǎn)按照網(wǎng)格的方式排列,連接同行和同列的相鄰節(jié)點(diǎn),同時(shí)同行和同列最遠(yuǎn)端的兩個(gè)節(jié)點(diǎn)之間構(gòu)建直連線路。有兩種構(gòu)建方法,一種是直接網(wǎng)絡(luò),計(jì)算節(jié)點(diǎn)在環(huán)面“晶格”中,計(jì)算節(jié)點(diǎn)適配器負(fù)責(zé)轉(zhuǎn)發(fā)網(wǎng)絡(luò)包。對(duì)于2D Torus架構(gòu),計(jì)算節(jié)點(diǎn)適配器需要具備4個(gè)端口,對(duì)于3D Torus架構(gòu),需要6個(gè)端口,6個(gè)線纜連接到計(jì)算節(jié)點(diǎn),將影響計(jì)算機(jī)節(jié)點(diǎn)的散熱。另一種是將交換機(jī)放在環(huán)面“晶格”中,計(jì)算節(jié)點(diǎn)只需要具備常規(guī)端口數(shù)量的網(wǎng)絡(luò)適配器,網(wǎng)絡(luò)包轉(zhuǎn)發(fā)主要由交換機(jī)完成。Torus架構(gòu)提供的并非是無(wú)阻塞的網(wǎng)絡(luò),同時(shí)節(jié)點(diǎn)之間的距離并非一致,通常通過(guò)提升維度來(lái)降低時(shí)延以及抖動(dòng)的影響。但是構(gòu)造成本較低。

wKgZomUzKpqAJseWAAD1Q1vFYOk549.png

圖3:Torus拓?fù)鋱D

在互聯(lián)協(xié)議選擇方面,具體的實(shí)現(xiàn)方式包括iWARP、RoCEv1、RoCEv2、InfiniBand四種,后兩種是目前的主流方案,應(yīng)用層端到端的時(shí)間能從50us(TCP/IP),降低到5us(RoCE)或2us(InfiniBand)。此外,可通過(guò)可編程網(wǎng)絡(luò)設(shè)備,在網(wǎng)計(jì)算,減少傳輸?shù)臄?shù)據(jù)量,進(jìn)一步提升傳輸效率。

RoCEv2 采用分布式網(wǎng)絡(luò)架構(gòu),包括支持RoCEv2的網(wǎng)卡和交換機(jī),借助傳統(tǒng)以太網(wǎng)的光纖和光模塊實(shí)現(xiàn)端到端的RDMA通信。交換機(jī)轉(zhuǎn)發(fā)芯片以博通Tomahawk系列芯片為主,單端口從100Gbps->200Gbps->400Gbps不斷演進(jìn)。RoCEv2 中的Go Back N重傳機(jī)制采用PFC(優(yōu)先級(jí)流控)實(shí)現(xiàn)逐跳流控策略,保證在以太網(wǎng)中實(shí)現(xiàn)無(wú)丟包。標(biāo)準(zhǔn)RoCEv2協(xié)議中每個(gè)RC(可靠連接)都映射到唯一的五元組,整網(wǎng)負(fù)載均衡性差,容易產(chǎn)生擁塞。RoCEv2通常卸載到網(wǎng)卡中,受限于網(wǎng)卡芯片內(nèi)的表項(xiàng)空間,芯片內(nèi)的連接數(shù)有限,當(dāng)網(wǎng)絡(luò)節(jié)點(diǎn)超過(guò)一定規(guī)模,會(huì)發(fā)生網(wǎng)卡芯片與主機(jī)內(nèi)存的連接表交換,影響網(wǎng)絡(luò)傳輸性能。

InfiniBand網(wǎng)絡(luò)中關(guān)鍵組成包括Subnet Manager、InfiniBand網(wǎng)卡、InfiniBand交換機(jī)和連接線纜。Subnet Manager即為InfiniBand網(wǎng)絡(luò)的控制器,進(jìn)行InfiniBand子網(wǎng)劃分及QoS管理,向每個(gè)交換芯片下發(fā)轉(zhuǎn)發(fā)表,通過(guò)帶內(nèi)方式控制子網(wǎng)內(nèi)所有交換機(jī)和網(wǎng)卡。InfiniBand網(wǎng)卡通過(guò)SMA(Subnet Manager Agent)接受Subnet Manager的統(tǒng)一管理。InfiniBand交換機(jī)不運(yùn)行路由協(xié)議,網(wǎng)絡(luò)轉(zhuǎn)發(fā)表通過(guò)Subnet Manager統(tǒng)一下發(fā)。基于Credit信令機(jī)制避免緩沖區(qū)溢出丟包,網(wǎng)絡(luò)中每條鏈路都有預(yù)置緩沖區(qū),發(fā)送端一次性發(fā)送數(shù)據(jù)不會(huì)超過(guò)接收端可用的緩沖區(qū)大小。

05小 結(jié)

智算中心與普通的數(shù)據(jù)中心相比 存在大量的異構(gòu)計(jì)算核心,東西向之間的通信流量更大,對(duì)時(shí)延、抖動(dòng)、可用性的要求更高,對(duì)算力的需求更大,需要從安全性、可靠性、能源使用效率綜合考慮網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),最大程度發(fā)揮智算中心資源價(jià)值。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9123

    瀏覽量

    85322
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7553

    瀏覽量

    88727
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30728

    瀏覽量

    268879
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47183

    瀏覽量

    238234
  • 智算中心
    +關(guān)注

    關(guān)注

    0

    文章

    68

    瀏覽量

    1691

原文標(biāo)題:一文讀懂智算中心網(wǎng)絡(luò)

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中心網(wǎng)絡(luò)架構(gòu)選型原則

    ? 通常,在在AI智系統(tǒng)中,個(gè)模型從生產(chǎn)到應(yīng)用,般包括離線訓(xùn)練和推理部署兩大階段;本文選自“ 智中心
    的頭像 發(fā)表于 08-07 09:13 ?2817次閱讀

    讀懂接口模塊的組合應(yīng)用有哪些?

    讀懂接口模塊的組合應(yīng)用有哪些?
    發(fā)表于 05-17 07:15

    讀懂如何去優(yōu)化AC耦合電容?

    讀懂如何去優(yōu)化AC耦合電容?
    發(fā)表于 06-08 07:04

    讀懂什么是NEC協(xié)議

    讀懂什么是NEC協(xié)議?
    發(fā)表于 10-15 09:22

    讀懂中斷方式和輪詢操作有什么區(qū)別嗎

    讀懂中斷方式和輪詢操作有什么區(qū)別嗎?
    發(fā)表于 12-10 06:00

    讀懂NB-IoT 的現(xiàn)狀、挑戰(zhàn)和前景

    讀懂 NB-IoT 的現(xiàn)狀、挑戰(zhàn)和前景
    的頭像 發(fā)表于 02-28 15:42 ?6367次閱讀

    讀懂MCU的特點(diǎn)、功能及如何編寫

    讀懂MCU的特點(diǎn)、功能及如何編寫
    發(fā)表于 12-05 09:51 ?24次下載
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MCU的特點(diǎn)、功能及如何編寫

    讀懂,什么是BLE?

    讀懂,什么是BLE?
    的頭像 發(fā)表于 11-27 17:11 ?2278次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>,什么是BLE?

    讀懂車規(guī)級(jí)AEC-Q認(rèn)證

    讀懂車規(guī)級(jí)AEC-Q認(rèn)證
    的頭像 發(fā)表于 12-04 16:45 ?936次閱讀

    讀懂微力扭轉(zhuǎn)試驗(yàn)機(jī)的優(yōu)勢(shì)

    讀懂微力扭轉(zhuǎn)試驗(yàn)機(jī)的優(yōu)勢(shì)
    的頭像 發(fā)表于 11-30 09:08 ?564次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>微力扭轉(zhuǎn)試驗(yàn)機(jī)的優(yōu)勢(shì)

    讀懂:什么是“力”?

    力的定義力即計(jì)算能力(ComputingPower)。《中國(guó)力白皮書(2022年)》將其定義為:力是數(shù)據(jù)中心的服務(wù)器通過(guò)對(duì)數(shù)據(jù)進(jìn)行處
    的頭像 發(fā)表于 12-22 08:27 ?7068次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>:什么是“<b class='flag-5'>算</b>力”?

    讀懂新能源汽車的功能安全

    電子發(fā)燒友網(wǎng)站提供《讀懂新能源汽車的功能安全.pdf》資料免費(fèi)下載
    發(fā)表于 09-04 09:22 ?3次下載

    讀懂MSA(測(cè)量系統(tǒng)分析)

    讀懂MSA(測(cè)量系統(tǒng)分析)
    的頭像 發(fā)表于 11-01 11:08 ?866次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MSA(測(cè)量系統(tǒng)分析)

    讀懂中心四大類型,深度解讀應(yīng)用與趨勢(shì)

    強(qiáng)大計(jì)算能力的核心設(shè)施,在推動(dòng)科技創(chuàng)新、產(chǎn)業(yè)升級(jí)和社會(huì)發(fā)展中扮演著不可或缺的角色。本文將詳細(xì)解析中心的四大類型,并探討它們的最新發(fā)展與應(yīng)用。、通用力通用
    的頭像 發(fā)表于 10-17 08:05 ?800次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b><b class='flag-5'>算</b>力<b class='flag-5'>中心</b>四大類型,深度解讀應(yīng)用與趨勢(shì)

    讀懂單燈控制器工作原理

    讀懂單燈控制器工作原理
    的頭像 發(fā)表于 11-11 13:13 ?205次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>單燈控制器工作原理
    RM新时代网站-首页