rm新时代是正规平台,RM新时代新项目

作者簡(jiǎn)介：陳起，江蘇有線技術(shù)研究院高級(jí)工程師，碩士，主要從事IPv6、新型城域網(wǎng)方面的研究，曾參與過(guò)TVOS、HINOC等重大項(xiàng)目。

01人工智能主流應(yīng)用場(chǎng)景及算力需求

人工智能領(lǐng)域包括8大重要應(yīng)用場(chǎng)景，包括：識(shí)別檢測(cè)、語(yǔ)音交互、AI 芯片、自動(dòng)駕駛、機(jī)器人、視頻解析、人機(jī)協(xié)同、機(jī)器翻譯、精準(zhǔn)推薦等。每類場(chǎng)景對(duì)算力的要求不同。以人工智能最常應(yīng)用的三大類場(chǎng)景為例，在應(yīng)用于安防、醫(yī)療診斷和自動(dòng)駕駛等領(lǐng)域的圖像檢測(cè)和視頻檢索場(chǎng)景中，以卷積網(wǎng)絡(luò)為主要算力需求；在博弈決策類應(yīng)用場(chǎng)景中，以強(qiáng)化學(xué)習(xí)為主要算力需求；在新基建大型計(jì)算機(jī)場(chǎng)景中，以自然語(yǔ)音處理為主要算力需求。人工智能領(lǐng)域涉及較多的矩陣、向量的乘法和加法，專用性高，對(duì)算力消耗大，不適合用通用CPU進(jìn)行計(jì)算。智算中心需要支持不同種類的計(jì)算核心，如CPU、GPU、ARM、FPGA等，通過(guò)專用處理器高效完成特定計(jì)算。此外，以大數(shù)據(jù)分析為代表的數(shù)據(jù)密集型應(yīng)用需要高效且大量的數(shù)據(jù)存儲(chǔ)空間來(lái)存儲(chǔ)數(shù)據(jù)集。

人工智能正朝著更大型的模型發(fā)展，模型規(guī)模與其對(duì)應(yīng)的參數(shù)不斷增加。2019年GPT-2參數(shù)規(guī)模達(dá)15億，2020年GPT-3參數(shù)規(guī)模達(dá)1700億參數(shù)，目前已經(jīng)達(dá)到了1萬(wàn)億的參數(shù)規(guī)模。

02智能算力概況

智能計(jì)算中心指基于GPU、FPGA等芯片構(gòu)建智能計(jì)算服務(wù)器集群，提供智能算力的基礎(chǔ)設(shè)施。主要應(yīng)用于多模態(tài)數(shù)據(jù)挖掘，智能化業(yè)務(wù)高性能計(jì)算、海量數(shù)據(jù)分布式存儲(chǔ)調(diào)度、人工智能模型開發(fā)、模型訓(xùn)練和推理服務(wù)等場(chǎng)景。

自2020年4月，人工智能正式被納入新基建的范疇，我國(guó)已經(jīng)在20多個(gè)城市陸續(xù)啟動(dòng)了人工智能計(jì)算中心建設(shè)。2022年2月，“東數(shù)西算”工程正式全面啟動(dòng)，8個(gè)國(guó)家算力樞紐節(jié)點(diǎn)全面開工。根據(jù)中國(guó)信息通信研究院2023年發(fā)布的《中國(guó)綜合算力評(píng)價(jià)白皮書》，截至2022年底，我國(guó)算力總規(guī)模達(dá)到180EFLOPS，智能算力規(guī)模占比約22.8%，相比2021年增加41.4%，智能算力增長(zhǎng)迅速。根據(jù)ICPA智算聯(lián)盟統(tǒng)計(jì)，截至2022年3月，我國(guó)人工智能計(jì)算中心已投運(yùn)的近20個(gè)，在建設(shè)的超過(guò)20個(gè)。預(yù)計(jì)到2025年，我國(guó)的AI算力總量將超過(guò)1800EFLOPS，占總算力的比重將超過(guò)85%。

表：長(zhǎng)三角人工智能計(jì)算中心情況

數(shù)據(jù)來(lái)源：2023人工智能發(fā)展白皮書

03AI數(shù)據(jù)中心網(wǎng)絡(luò)流量特征及技術(shù)要求

根據(jù)權(quán)威定義，智能計(jì)算中心是基于最新人工智能理論，采用領(lǐng)先的人工智能計(jì)算架構(gòu)，提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施，通過(guò)算力的生產(chǎn)、聚合、調(diào)度和釋放，高效支撐數(shù)據(jù)開放共享、智能生態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集，有力促進(jìn)AI產(chǎn)業(yè)化、產(chǎn)業(yè)AI化及政府治理智能化。

AI模型從生產(chǎn)到應(yīng)用，一般要經(jīng)歷離線訓(xùn)練和推理部署兩個(gè)階段。離線訓(xùn)練是產(chǎn)生模型的過(guò)程，通過(guò)訓(xùn)練模型的數(shù)據(jù)集及算法，經(jīng)過(guò)多輪迭代，最終生成訓(xùn)練后的模型。這一過(guò)程核心是數(shù)據(jù)計(jì)算。通常為了提升計(jì)算效率，通過(guò)GPU等異構(gòu)芯片實(shí)現(xiàn)加速。人工智能模型訓(xùn)練和推理過(guò)程需要強(qiáng)大的算力。人工智能的深度學(xué)習(xí)計(jì)算包含大量的矩陣乘加運(yùn)算。AI加速芯片如GPU、FPGA、ASIC等能夠提供相較于CPU10~100倍的加速。AI服務(wù)器通常以CPU+AI加速芯片為主體，構(gòu)成智算中心的基本單元。其中：

# CPU

通用處理器，用于人機(jī)交互和復(fù)雜條件分支處理，以及任務(wù)之間的同步協(xié)調(diào)。

# GPU

應(yīng)用于深度學(xué)習(xí)等對(duì)并行計(jì)算、浮點(diǎn)計(jì)算要求高的領(lǐng)域。開發(fā)周期短，技術(shù)體系成熟。

# FPGA

在推演階段算法性能高、功耗和延遲低。適用于壓縮/解壓縮、圖片加速、網(wǎng)絡(luò)加速、金融加速等場(chǎng)景。

ASIC，專用芯片，滿足特定修的定制化芯片，體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低，包括TPU、NPU、VPU、BPU等各類芯片。

# ASIC

專用芯片，滿足特定修的定制化芯片，體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低，包括TPU、NPU、VPU、BPU等各類芯片。

由于AI模型計(jì)算對(duì)算力的消耗大，單個(gè)AI計(jì)算單元難以滿足算力需求。同時(shí)，為了縮短訓(xùn)練時(shí)間，通常采用分布式技術(shù)對(duì)模型和數(shù)據(jù)進(jìn)行切分，將訓(xùn)練任務(wù)分解為多個(gè)子任務(wù)，在多個(gè)計(jì)算節(jié)點(diǎn)上同時(shí)進(jìn)行。每個(gè)計(jì)算節(jié)點(diǎn)完成計(jì)算任務(wù)后，需要進(jìn)行結(jié)果的聚合，完成每一輪次的學(xué)習(xí)。在這一過(guò)程中，多個(gè)AI芯片之間需要高速互聯(lián)，AI服務(wù)器之間需要高速通信。因而，需要智算中心網(wǎng)絡(luò)提供低時(shí)延、大帶寬、穩(wěn)定運(yùn)行的保障，并能夠支持大規(guī)模計(jì)算節(jié)點(diǎn)，能夠提供方便運(yùn)維的手段。

低時(shí)延

人工智能模型參數(shù)規(guī)模巨大。預(yù)計(jì)2025年將達(dá)到百萬(wàn)億級(jí)。借助NVMe等接口協(xié)議，存儲(chǔ)介質(zhì)訪問速率大幅提升，網(wǎng)絡(luò)時(shí)延占比上升到65%，需要采用先進(jìn)網(wǎng)絡(luò)設(shè)計(jì)，降低網(wǎng)絡(luò)時(shí)延。數(shù)據(jù)中心網(wǎng)絡(luò)的時(shí)延主要包括：靜態(tài)時(shí)延、網(wǎng)絡(luò)跳數(shù)、動(dòng)態(tài)時(shí)延以及入網(wǎng)次數(shù)。其中，靜態(tài)時(shí)延由查表與轉(zhuǎn)發(fā)時(shí)延組成，約600ns-1us。網(wǎng)絡(luò)跳數(shù)指網(wǎng)絡(luò)包經(jīng)過(guò)的設(shè)備節(jié)點(diǎn)數(shù)，不同節(jié)點(diǎn)處理時(shí)延。該時(shí)延與網(wǎng)絡(luò)架構(gòu)有關(guān)系。動(dòng)態(tài)時(shí)延由消息隊(duì)列產(chǎn)生，該時(shí)延與網(wǎng)絡(luò)擁塞情況相關(guān)。當(dāng)網(wǎng)絡(luò)擁塞時(shí)，數(shù)據(jù)包在網(wǎng)絡(luò)設(shè)備中排隊(duì)，或者被丟棄，從而產(chǎn)生時(shí)延。入網(wǎng)次數(shù)指數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)的次數(shù)。分布式訓(xùn)練系統(tǒng)的時(shí)延包括單卡的計(jì)算時(shí)間和卡間通信時(shí)間。智算中心網(wǎng)絡(luò)需要降低卡間通信時(shí)間，以提升加速比。降低卡間通信時(shí)間通常采用RDMA技術(shù)，通過(guò)繞過(guò)操作系統(tǒng)內(nèi)核的方式，提升數(shù)據(jù)訪問效率。

大帶寬

單節(jié)點(diǎn)計(jì)算任務(wù)的分配以及計(jì)算結(jié)果的搜集需要大帶寬支撐，以快速進(jìn)行模型參數(shù)的迭代計(jì)算。以智算中心典型的服務(wù)節(jié)點(diǎn)為例，單個(gè)服務(wù)節(jié)點(diǎn)可以配置8張GPU卡，8張PCIe網(wǎng)卡。兩個(gè)GPU跨機(jī)互通的突發(fā)帶寬可能達(dá)到50Gbps。一般每個(gè)GPU關(guān)聯(lián)一個(gè)100Gbps網(wǎng)絡(luò)端口，單機(jī)對(duì)外帶寬達(dá)到800Gbps。

穩(wěn)定運(yùn)行

大模型的計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng)，訓(xùn)練期間涉及節(jié)點(diǎn)間的頻繁交互，對(duì)網(wǎng)絡(luò)穩(wěn)定性要求高。如果訓(xùn)練期間網(wǎng)絡(luò)出現(xiàn)不穩(wěn)定，輕則將回退到上一個(gè)分布式訓(xùn)練的斷點(diǎn)，重則可能要從0開始，會(huì)影響整個(gè)訓(xùn)練任務(wù)進(jìn)度。智算中心支撐自動(dòng)駕駛、智能工廠、遠(yuǎn)程醫(yī)療等行業(yè)應(yīng)用，這些行業(yè)應(yīng)用對(duì)網(wǎng)絡(luò)可靠性要求極高，業(yè)務(wù)中斷會(huì)給客戶帶來(lái)重大損失。

智算中心網(wǎng)絡(luò)要求彈性和可擴(kuò)展性，支持大規(guī)模計(jì)算集群，在提供高速連接能力的同時(shí)，提供軟件定義的加速能力，實(shí)現(xiàn)網(wǎng)絡(luò)的控制和轉(zhuǎn)發(fā)分離，減少多維分布式任務(wù)帶來(lái)的性能損耗，提高網(wǎng)絡(luò)的利用率，支持彈性裸金屬服務(wù)器、自定義業(yè)務(wù)功能等特性。

大規(guī)模

分布式訓(xùn)練中涉及萬(wàn)級(jí)別以GPU為代表的計(jì)算節(jié)點(diǎn)，智算中心網(wǎng)絡(luò)需要具備支持大規(guī)模節(jié)點(diǎn)的能力，且能夠方便擴(kuò)展，為持續(xù)增長(zhǎng)的算力要求提供接入能力。在智算中心中，多種處理架構(gòu)并存，NPU（Neural-Network Processing Unit）嵌入式神經(jīng)網(wǎng)絡(luò)處理器、VPU（Vector Processing Unit）矢量處理器、GPU等智算中心節(jié)點(diǎn)數(shù)量將達(dá)到百萬(wàn)級(jí)。智算中心需要支持算力調(diào)度，通過(guò)對(duì)應(yīng)用分析和監(jiān)管，優(yōu)化算力設(shè)備布局規(guī)劃，提升業(yè)務(wù)部署效能，提高算力設(shè)備的利用率，降低設(shè)備閑置率，提升智算中心的生產(chǎn)效率。算力調(diào)度涉及配額策略、共享超分、負(fù)載均衡等策略。

可運(yùn)維、可運(yùn)營(yíng)

智算中心節(jié)點(diǎn)眾多，需要具備可運(yùn)維性、可管理性，能夠?qū)崟r(shí)查看智算中心網(wǎng)絡(luò)運(yùn)行狀態(tài)，快速發(fā)現(xiàn)和定位網(wǎng)絡(luò)問題。智算中心中，傳統(tǒng)的人機(jī)接口變?yōu)闄C(jī)器與機(jī)器之間的接口，網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算邊界模糊，故障定位困難，需要引入智能引擎，對(duì)應(yīng)用流量與網(wǎng)絡(luò)狀態(tài)進(jìn)行關(guān)聯(lián)分析，為業(yè)務(wù)網(wǎng)絡(luò)提供自愈能力，打造自動(dòng)駕駛網(wǎng)絡(luò)。智算中心以云服務(wù)模式提供算力服務(wù)，不同租戶算力需求不同。智算中心需要實(shí)現(xiàn)租戶間的數(shù)據(jù)和算力的隔離。

高效智算中心間互聯(lián)

隨著東數(shù)西算戰(zhàn)略推進(jìn)及分布式算力協(xié)同場(chǎng)景，AI算力突破了單一的智算中心，新型應(yīng)用依賴多個(gè)智算中心之間的協(xié)同。智算中心之間的連接要求更高，需要具備更高的帶寬（百G甚至上T），更低的丟包率。算力之間的聯(lián)網(wǎng)和統(tǒng)一調(diào)度成為趨勢(shì)。

此外，在AI訓(xùn)練以及使用過(guò)程中，還需要處理好存儲(chǔ)問題：解決好處理器內(nèi)部、處理器和內(nèi)存、內(nèi)存和外存以及服務(wù)器之間等不同層級(jí)數(shù)據(jù)存取的效率問題。

04AI數(shù)據(jù)中心網(wǎng)絡(luò)實(shí)現(xiàn)方式

《智能計(jì)算中心規(guī)劃建設(shè)指南》中介紹了智能計(jì)算中心提供4類算力：

# 生產(chǎn)算力

由AI服務(wù)器組成，形成高性能、高吞吐的計(jì)算系統(tǒng)，為AI順聯(lián)和推理提供基礎(chǔ)計(jì)算力。

# 聚合算力

由智能網(wǎng)絡(luò)和智能存儲(chǔ)組成，構(gòu)建高帶寬、低延遲的通信系統(tǒng)和數(shù)據(jù)平臺(tái)。智能網(wǎng)絡(luò)、智能存儲(chǔ)采用軟件定義方式，實(shí)現(xiàn)文件、對(duì)象、塊、大數(shù)據(jù)存儲(chǔ)服務(wù)一體化設(shè)計(jì)。

# 調(diào)度算力

將聚合的CPU、GPU、FPGA、ASIC等算力資源進(jìn)行標(biāo)準(zhǔn)化和粒度切分，滿足智能應(yīng)用的算力需求。

# 釋放算力

是指高質(zhì)量AI模型或AI服務(wù)的輸出，促進(jìn)算力高效釋放轉(zhuǎn)化為生產(chǎn)力。

這四類算力是智算中心建設(shè)的出發(fā)點(diǎn)和落腳點(diǎn)。在智算中心網(wǎng)絡(luò)在具體實(shí)現(xiàn)上，從資源管理角度，主要包括三個(gè)路線：

# 以CPU為中心

所有存算資源的管理都運(yùn)行在CPU上，通過(guò)遠(yuǎn)端資源的方式使用其他資源。

# 以內(nèi)存為中心

內(nèi)存管理分離出來(lái)，實(shí)現(xiàn)內(nèi)存的獨(dú)立拓展和共享訪問，從而實(shí)現(xiàn)高效的數(shù)據(jù)處理和計(jì)算。減少了內(nèi)存管理開銷，但其他資源依然由CPU管理和調(diào)度。

# 以網(wǎng)絡(luò)IO為中心

《未來(lái)網(wǎng)絡(luò)白皮書（2023）以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心》提出了以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心架構(gòu)，資源去中心化。計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等資源都被視為獨(dú)立的服務(wù)，不同資源的拓展和使用相互獨(dú)立。資源之間通過(guò)消息傳遞的方式進(jìn)行通信和協(xié)作。網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室圍繞該理念設(shè)計(jì)了以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心。通過(guò)I/O process Unit解耦存算單元使用和協(xié)作的樞紐，其對(duì)內(nèi)負(fù)責(zé)各存算資源的全接入、驅(qū)動(dòng)等，對(duì)外負(fù)責(zé)資源彼此之間的信息交互；通過(guò)分布式內(nèi)核，實(shí)現(xiàn)存算資源按需拓展和彈性使用的軟件架構(gòu)。

在網(wǎng)絡(luò)拓?fù)浼軜?gòu)方面，通常有3種主流設(shè)計(jì)模式，F(xiàn)at-Tree架構(gòu)實(shí)現(xiàn)無(wú)阻塞轉(zhuǎn)發(fā)，Dragonfly架構(gòu)網(wǎng)絡(luò)直徑小，Torus 具有高擴(kuò)展性和性價(jià)比。

Fat-Tree架構(gòu)采用1:1無(wú)收斂設(shè)計(jì)。Fat-Tree架構(gòu)中交換機(jī)上聯(lián)端口與下聯(lián)端口帶寬、數(shù)量保持一致，同時(shí)交換機(jī)要采用無(wú)阻塞轉(zhuǎn)發(fā)的數(shù)據(jù)中心級(jí)交換機(jī)。Fat-Tree架構(gòu)可以通過(guò)擴(kuò)展網(wǎng)絡(luò)層次提升接入的GPU節(jié)點(diǎn)數(shù)量。兩層Fat-Tree架構(gòu)能夠接入PP/2張GPU卡，P為交換機(jī)的端口數(shù)量。三層Fat-Tree架構(gòu)能夠接入 P（P/2）*(P/2)張GPU卡。以40端口的InfiniBand交換機(jī)為例，能夠接入的GPU數(shù)量最多可達(dá)16000個(gè)。以百度智能云為例，按照服務(wù)節(jié)點(diǎn)的網(wǎng)卡數(shù)量組成AI-Pool，將不同節(jié)點(diǎn)相同編號(hào)的網(wǎng)口連接到同一臺(tái)交換機(jī)，通過(guò)NCCL通信庫(kù)的Rail Local技術(shù)以及主機(jī)內(nèi)GPU間的NVSwitch的帶寬，將多機(jī)間的跨卡互通轉(zhuǎn)化為跨機(jī)間的同GPU卡號(hào)的互通，從而實(shí)現(xiàn)同2層Fat-Tree架構(gòu)下，AI-Pool一跳可達(dá)，不同AI-Pool 三跳可達(dá)。三層Fat-Tree架構(gòu)下智算節(jié)點(diǎn)間同GPU卡號(hào)轉(zhuǎn)發(fā)3跳可達(dá)，不同GPU卡號(hào)轉(zhuǎn)發(fā)5跳可達(dá)。

圖1：Fat-Tree拓?fù)鋱D

Dragonfly架構(gòu)分為三層：Switch層，包含1個(gè)交換機(jī)及與其相連的計(jì)算節(jié)點(diǎn)；Group層：包含a個(gè)Switch層，a個(gè)交換機(jī)之間全互聯(lián)（每個(gè)交換機(jī)都有a-1條鏈路連接至其他a-1臺(tái)交換機(jī)）；System層：包含g個(gè)Group層，g個(gè)Group層全連接。對(duì)于單個(gè)Switch交換機(jī)，有P個(gè)端口連接計(jì)算節(jié)點(diǎn)，a-1個(gè)端口連接Group內(nèi)的其他交換機(jī)，h個(gè)端口連接到其他Group交換機(jī)。每個(gè)交換機(jī)的端口數(shù)為k=p+（a-1）+h。可以接入的計(jì)算節(jié)點(diǎn)總數(shù)為N=ap（ah+1），通常按照a=2p=2h配置。采用直連模式，縮短網(wǎng)絡(luò)路徑，減少中間節(jié)點(diǎn)數(shù)量。64端口交換機(jī)支持組網(wǎng)規(guī)模27萬(wàn)節(jié)點(diǎn)，端到端交換機(jī)轉(zhuǎn)發(fā)跳數(shù)減至3跳。

圖2：Dragonfly拓?fù)鋱D

Torus架構(gòu)，將計(jì)算節(jié)點(diǎn)按照網(wǎng)格的方式排列，連接同行和同列的相鄰節(jié)點(diǎn)，同時(shí)同行和同列最遠(yuǎn)端的兩個(gè)節(jié)點(diǎn)之間構(gòu)建直連線路。有兩種構(gòu)建方法，一種是直接網(wǎng)絡(luò)，計(jì)算節(jié)點(diǎn)在環(huán)面“晶格”中，計(jì)算節(jié)點(diǎn)適配器負(fù)責(zé)轉(zhuǎn)發(fā)網(wǎng)絡(luò)包。對(duì)于2D Torus架構(gòu)，計(jì)算節(jié)點(diǎn)適配器需要具備4個(gè)端口，對(duì)于3D Torus架構(gòu)，需要6個(gè)端口，6個(gè)線纜連接到計(jì)算節(jié)點(diǎn)，將影響計(jì)算機(jī)節(jié)點(diǎn)的散熱。另一種是將交換機(jī)放在環(huán)面“晶格”中，計(jì)算節(jié)點(diǎn)只需要具備常規(guī)端口數(shù)量的網(wǎng)絡(luò)適配器，網(wǎng)絡(luò)包轉(zhuǎn)發(fā)主要由交換機(jī)完成。Torus架構(gòu)提供的并非是無(wú)阻塞的網(wǎng)絡(luò)，同時(shí)節(jié)點(diǎn)之間的距離并非一致，通常通過(guò)提升維度來(lái)降低時(shí)延以及抖動(dòng)的影響。但是構(gòu)造成本較低。

圖3：Torus拓?fù)鋱D

在互聯(lián)協(xié)議選擇方面，具體的實(shí)現(xiàn)方式包括iWARP、RoCEv1、RoCEv2、InfiniBand四種，后兩種是目前的主流方案，應(yīng)用層端到端的時(shí)間能從50us（TCP/IP)，降低到5us（RoCE）或2us（InfiniBand）。此外，可通過(guò)可編程網(wǎng)絡(luò)設(shè)備，在網(wǎng)計(jì)算，減少傳輸?shù)臄?shù)據(jù)量，進(jìn)一步提升傳輸效率。

RoCEv2 采用分布式網(wǎng)絡(luò)架構(gòu)，包括支持RoCEv2的網(wǎng)卡和交換機(jī)，借助傳統(tǒng)以太網(wǎng)的光纖和光模塊實(shí)現(xiàn)端到端的RDMA通信。交換機(jī)轉(zhuǎn)發(fā)芯片以博通Tomahawk系列芯片為主，單端口從100Gbps->200Gbps->400Gbps不斷演進(jìn)。RoCEv2 中的Go Back N重傳機(jī)制采用PFC（優(yōu)先級(jí)流控）實(shí)現(xiàn)逐跳流控策略，保證在以太網(wǎng)中實(shí)現(xiàn)無(wú)丟包。標(biāo)準(zhǔn)RoCEv2協(xié)議中每個(gè)RC（可靠連接）都映射到唯一的五元組，整網(wǎng)負(fù)載均衡性差，容易產(chǎn)生擁塞。RoCEv2通常卸載到網(wǎng)卡中，受限于網(wǎng)卡芯片內(nèi)的表項(xiàng)空間，芯片內(nèi)的連接數(shù)有限，當(dāng)網(wǎng)絡(luò)節(jié)點(diǎn)超過(guò)一定規(guī)模，會(huì)發(fā)生網(wǎng)卡芯片與主機(jī)內(nèi)存的連接表交換，影響網(wǎng)絡(luò)傳輸性能。

InfiniBand網(wǎng)絡(luò)中關(guān)鍵組成包括Subnet Manager、InfiniBand網(wǎng)卡、InfiniBand交換機(jī)和連接線纜。Subnet Manager即為InfiniBand網(wǎng)絡(luò)的控制器，進(jìn)行InfiniBand子網(wǎng)劃分及QoS管理，向每個(gè)交換芯片下發(fā)轉(zhuǎn)發(fā)表，通過(guò)帶內(nèi)方式控制子網(wǎng)內(nèi)所有交換機(jī)和網(wǎng)卡。InfiniBand網(wǎng)卡通過(guò)SMA（Subnet Manager Agent）接受Subnet Manager的統(tǒng)一管理。InfiniBand交換機(jī)不運(yùn)行路由協(xié)議，網(wǎng)絡(luò)轉(zhuǎn)發(fā)表通過(guò)Subnet Manager統(tǒng)一下發(fā)。基于Credit信令機(jī)制避免緩沖區(qū)溢出丟包，網(wǎng)絡(luò)中每條鏈路都有預(yù)置緩沖區(qū)，發(fā)送端一次性發(fā)送數(shù)據(jù)不會(huì)超過(guò)接收端可用的緩沖區(qū)大小。

05小結(jié)

智算中心與普通的數(shù)據(jù)中心相比存在大量的異構(gòu)計(jì)算核心，東西向之間的通信流量更大，對(duì)時(shí)延、抖動(dòng)、可用性的要求更高，對(duì)算力的需求更大，需要從安全性、可靠性、能源使用效率綜合考慮網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)，最大程度發(fā)揮智算中心資源價(jià)值。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴