作者簡(jiǎn)介:陳起,江蘇有線技術(shù)研究院高級(jí)工程師,碩士,主要從事IPv6、新型城域網(wǎng)方面的研究,曾參與過(guò)TVOS、HINOC等重大項(xiàng)目。
01人工智能主流應(yīng)用場(chǎng)景及算力需求
人工智能領(lǐng)域包括8大重要應(yīng)用場(chǎng)景,包括:識(shí)別檢測(cè)、語(yǔ)音交互、AI芯片、自動(dòng)駕駛、機(jī)器人、視頻解析、人機(jī)協(xié)同、機(jī)器翻譯、精準(zhǔn)推薦等。每類場(chǎng)景對(duì)算力的要求不同。以人工智能最常應(yīng)用的三大類場(chǎng)景為例,在應(yīng)用于安防、醫(yī)療診斷和自動(dòng)駕駛等領(lǐng)域的圖像檢測(cè)和視頻檢索場(chǎng)景中,以卷積網(wǎng)絡(luò)為主要算力需求;在博弈決策類應(yīng)用場(chǎng)景中,以強(qiáng)化學(xué)習(xí)為主要算力需求;在新基建大型計(jì)算機(jī)場(chǎng)景中,以自然語(yǔ)音處理為主要算力需求。人工智能領(lǐng)域涉及較多的矩陣、向量的乘法和加法,專用性高,對(duì)算力消耗大,不適合用通用CPU進(jìn)行計(jì)算。智算中心需要支持不同種類的計(jì)算核心,如CPU、GPU、ARM、FPGA等,通過(guò)專用處理器高效完成特定計(jì)算。此外,以大數(shù)據(jù)分析為代表的數(shù)據(jù)密集型應(yīng)用需要高效且大量的數(shù)據(jù)存儲(chǔ)空間來(lái)存儲(chǔ)數(shù)據(jù)集。
人工智能正朝著更大型的模型發(fā)展,模型規(guī)模與其對(duì)應(yīng)的參數(shù)不斷增加。2019年GPT-2參數(shù)規(guī)模達(dá)15億,2020年GPT-3參數(shù)規(guī)模達(dá)1700億參數(shù),目前已經(jīng)達(dá)到了1萬(wàn)億的參數(shù)規(guī)模。
02智能算力概況
智能計(jì)算中心指基于GPU、FPGA等芯片構(gòu)建智能計(jì)算服務(wù)器集群,提供智能算力的基礎(chǔ)設(shè)施。主要應(yīng)用于多模態(tài)數(shù)據(jù)挖掘,智能化業(yè)務(wù)高性能計(jì)算、海量數(shù)據(jù)分布式存儲(chǔ)調(diào)度、人工智能模型開發(fā)、模型訓(xùn)練和推理服務(wù)等場(chǎng)景。
自2020年4月,人工智能正式被納入新基建的范疇,我國(guó)已經(jīng)在20多個(gè)城市陸續(xù)啟動(dòng)了人工智能計(jì)算中心建設(shè)。2022年2月,“東數(shù)西算”工程正式全面啟動(dòng),8個(gè)國(guó)家算力樞紐節(jié)點(diǎn)全面開工。根據(jù)中國(guó)信息通信研究院2023年發(fā)布的《中國(guó)綜合算力評(píng)價(jià)白皮書》,截至2022年底,我國(guó)算力總規(guī)模達(dá)到180EFLOPS,智能算力規(guī)模占比約22.8%,相比2021年增加41.4%,智能算力增長(zhǎng)迅速。根據(jù)ICPA智算聯(lián)盟統(tǒng)計(jì),截至2022年3月,我國(guó)人工智能計(jì)算中心已投運(yùn)的近20個(gè),在建設(shè)的超過(guò)20個(gè)。預(yù)計(jì)到2025年,我國(guó)的AI算力總量將超過(guò)1800EFLOPS,占總算力的比重將超過(guò)85%。
表:長(zhǎng)三角人工智能計(jì)算中心情況
數(shù)據(jù)來(lái)源:2023人工智能發(fā)展白皮書
03AI數(shù)據(jù)中心網(wǎng)絡(luò)流量特征及技術(shù)要求
根據(jù)權(quán)威定義,智能計(jì)算中心是基于最新人工智能理論,采用領(lǐng)先的人工智能計(jì)算架構(gòu),提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施,通過(guò)算力的生產(chǎn)、聚合、調(diào)度和釋放,高效支撐數(shù)據(jù)開放共享、智能生態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集,有力促進(jìn)AI產(chǎn)業(yè)化、產(chǎn)業(yè)AI化及政府治理智能化。
AI模型從生產(chǎn)到應(yīng)用,一般要經(jīng)歷離線訓(xùn)練和推理部署兩個(gè)階段。離線訓(xùn)練是產(chǎn)生模型的過(guò)程,通過(guò)訓(xùn)練模型的數(shù)據(jù)集及算法,經(jīng)過(guò)多輪迭代,最終生成訓(xùn)練后的模型。這一過(guò)程核心是數(shù)據(jù)計(jì)算。通常為了提升計(jì)算效率,通過(guò)GPU等異構(gòu)芯片實(shí)現(xiàn)加速。人工智能模型訓(xùn)練和推理過(guò)程需要強(qiáng)大的算力。人工智能的深度學(xué)習(xí)計(jì)算包含大量的矩陣乘加運(yùn)算。AI加速芯片如GPU、FPGA、ASIC等能夠提供相較于CPU10~100倍的加速。AI服務(wù)器通常以CPU+AI加速芯片為主體,構(gòu)成智算中心的基本單元。其中:
# CPU
通用處理器,用于人機(jī)交互和復(fù)雜條件分支處理,以及任務(wù)之間的同步協(xié)調(diào)。
# GPU
應(yīng)用于深度學(xué)習(xí)等對(duì)并行計(jì)算、浮點(diǎn)計(jì)算要求高的領(lǐng)域。開發(fā)周期短,技術(shù)體系成熟。
# FPGA
在推演階段算法性能高、功耗和延遲低。適用于壓縮/解壓縮、圖片加速、網(wǎng)絡(luò)加速、金融加速等場(chǎng)景。
ASIC,專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。
# ASIC
專用芯片,滿足特定修的定制化芯片,體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低,包括TPU、NPU、VPU、BPU等各類芯片。
由于AI模型計(jì)算對(duì)算力的消耗大,單個(gè)AI計(jì)算單元難以滿足算力需求。同時(shí),為了縮短訓(xùn)練時(shí)間,通常采用分布式技術(shù)對(duì)模型和數(shù)據(jù)進(jìn)行切分,將訓(xùn)練任務(wù)分解為多個(gè)子任務(wù),在多個(gè)計(jì)算節(jié)點(diǎn)上同時(shí)進(jìn)行。每個(gè)計(jì)算節(jié)點(diǎn)完成計(jì)算任務(wù)后,需要進(jìn)行結(jié)果的聚合,完成每一輪次的學(xué)習(xí)。在這一過(guò)程中,多個(gè)AI芯片之間需要高速互聯(lián),AI服務(wù)器之間需要高速通信。因而,需要智算中心網(wǎng)絡(luò)提供低時(shí)延、大帶寬、穩(wěn)定運(yùn)行的保障,并能夠支持大規(guī)模計(jì)算節(jié)點(diǎn),能夠提供方便運(yùn)維的手段。
低時(shí)延
人工智能模型參數(shù)規(guī)模巨大。預(yù)計(jì)2025年將達(dá)到百萬(wàn)億級(jí)。借助NVMe等接口協(xié)議,存儲(chǔ)介質(zhì)訪問速率大幅提升,網(wǎng)絡(luò)時(shí)延占比上升到65%,需要采用先進(jìn)網(wǎng)絡(luò)設(shè)計(jì),降低網(wǎng)絡(luò)時(shí)延。數(shù)據(jù)中心網(wǎng)絡(luò)的時(shí)延主要包括:靜態(tài)時(shí)延、網(wǎng)絡(luò)跳數(shù)、動(dòng)態(tài)時(shí)延以及入網(wǎng)次數(shù)。其中,靜態(tài)時(shí)延由查表與轉(zhuǎn)發(fā)時(shí)延組成,約600ns-1us。網(wǎng)絡(luò)跳數(shù)指網(wǎng)絡(luò)包經(jīng)過(guò)的設(shè)備節(jié)點(diǎn)數(shù),不同節(jié)點(diǎn)處理時(shí)延。該時(shí)延與網(wǎng)絡(luò)架構(gòu)有關(guān)系。動(dòng)態(tài)時(shí)延由消息隊(duì)列產(chǎn)生,該時(shí)延與網(wǎng)絡(luò)擁塞情況相關(guān)。當(dāng)網(wǎng)絡(luò)擁塞時(shí),數(shù)據(jù)包在網(wǎng)絡(luò)設(shè)備中排隊(duì),或者被丟棄,從而產(chǎn)生時(shí)延。入網(wǎng)次數(shù)指數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)的次數(shù)。分布式訓(xùn)練系統(tǒng)的時(shí)延包括單卡的計(jì)算時(shí)間和卡間通信時(shí)間。智算中心網(wǎng)絡(luò)需要降低卡間通信時(shí)間,以提升加速比。降低卡間通信時(shí)間通常采用RDMA技術(shù),通過(guò)繞過(guò)操作系統(tǒng)內(nèi)核的方式,提升數(shù)據(jù)訪問效率。
大帶寬
單節(jié)點(diǎn)計(jì)算任務(wù)的分配以及計(jì)算結(jié)果的搜集需要大帶寬支撐,以快速進(jìn)行模型參數(shù)的迭代計(jì)算。以智算中心典型的服務(wù)節(jié)點(diǎn)為例,單個(gè)服務(wù)節(jié)點(diǎn)可以配置8張GPU卡,8張PCIe網(wǎng)卡。兩個(gè)GPU跨機(jī)互通的突發(fā)帶寬可能達(dá)到50Gbps。一般每個(gè)GPU關(guān)聯(lián)一個(gè)100Gbps網(wǎng)絡(luò)端口,單機(jī)對(duì)外帶寬達(dá)到800Gbps。
穩(wěn)定運(yùn)行
大模型的計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng),訓(xùn)練期間涉及節(jié)點(diǎn)間的頻繁交互,對(duì)網(wǎng)絡(luò)穩(wěn)定性要求高。如果訓(xùn)練期間網(wǎng)絡(luò)出現(xiàn)不穩(wěn)定,輕則將回退到上一個(gè)分布式訓(xùn)練的斷點(diǎn),重則可能要從0開始,會(huì)影響整個(gè)訓(xùn)練任務(wù)進(jìn)度。智算中心支撐自動(dòng)駕駛、智能工廠、遠(yuǎn)程醫(yī)療等行業(yè)應(yīng)用,這些行業(yè)應(yīng)用對(duì)網(wǎng)絡(luò)可靠性要求極高,業(yè)務(wù)中斷會(huì)給客戶帶來(lái)重大損失。
智算中心網(wǎng)絡(luò)要求彈性和可擴(kuò)展性,支持大規(guī)模計(jì)算集群,在提供高速連接能力的同時(shí),提供軟件定義的加速能力,實(shí)現(xiàn)網(wǎng)絡(luò)的控制和轉(zhuǎn)發(fā)分離,減少多維分布式任務(wù)帶來(lái)的性能損耗,提高網(wǎng)絡(luò)的利用率,支持彈性裸金屬服務(wù)器、自定義業(yè)務(wù)功能等特性。
大規(guī)模
分布式訓(xùn)練中涉及萬(wàn)級(jí)別以GPU為代表的計(jì)算節(jié)點(diǎn),智算中心網(wǎng)絡(luò)需要具備支持大規(guī)模節(jié)點(diǎn)的能力,且能夠方便擴(kuò)展,為持續(xù)增長(zhǎng)的算力要求提供接入能力。在智算中心中,多種處理架構(gòu)并存,NPU(Neural-Network Processing Unit)嵌入式神經(jīng)網(wǎng)絡(luò)處理器、VPU(Vector Processing Unit)矢量處理器、GPU等智算中心節(jié)點(diǎn)數(shù)量將達(dá)到百萬(wàn)級(jí)。智算中心需要支持算力調(diào)度,通過(guò)對(duì)應(yīng)用分析和監(jiān)管,優(yōu)化算力設(shè)備布局規(guī)劃,提升業(yè)務(wù)部署效能,提高算力設(shè)備的利用率,降低設(shè)備閑置率,提升智算中心的生產(chǎn)效率。算力調(diào)度涉及配額策略、共享超分、負(fù)載均衡等策略。
可運(yùn)維、可運(yùn)營(yíng)
智算中心節(jié)點(diǎn)眾多,需要具備可運(yùn)維性、可管理性,能夠?qū)崟r(shí)查看智算中心網(wǎng)絡(luò)運(yùn)行狀態(tài),快速發(fā)現(xiàn)和定位網(wǎng)絡(luò)問題。智算中心中,傳統(tǒng)的人機(jī)接口變?yōu)闄C(jī)器與機(jī)器之間的接口,網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算邊界模糊,故障定位困難,需要引入智能引擎,對(duì)應(yīng)用流量與網(wǎng)絡(luò)狀態(tài)進(jìn)行關(guān)聯(lián)分析,為業(yè)務(wù)網(wǎng)絡(luò)提供自愈能力,打造自動(dòng)駕駛網(wǎng)絡(luò)。智算中心以云服務(wù)模式提供算力服務(wù),不同租戶算力需求不同。智算中心需要實(shí)現(xiàn)租戶間的數(shù)據(jù)和算力的隔離。
高效智算中心間互聯(lián)
隨著東數(shù)西算戰(zhàn)略推進(jìn)及分布式算力協(xié)同場(chǎng)景,AI算力突破了單一的智算中心,新型應(yīng)用依賴多個(gè)智算中心之間的協(xié)同。智算中心之間的連接要求更高,需要具備更高的帶寬(百G甚至上T),更低的丟包率。算力之間的聯(lián)網(wǎng)和統(tǒng)一調(diào)度成為趨勢(shì)。
此外,在AI訓(xùn)練以及使用過(guò)程中,還需要處理好存儲(chǔ)問題:解決好處理器內(nèi)部、處理器和內(nèi)存、內(nèi)存和外存以及服務(wù)器之間等不同層級(jí)數(shù)據(jù)存取的效率問題。
04AI數(shù)據(jù)中心網(wǎng)絡(luò)實(shí)現(xiàn)方式
《智能計(jì)算中心規(guī)劃建設(shè)指南》中介紹了智能計(jì)算中心提供4類算力:
# 生產(chǎn)算力
由AI服務(wù)器組成,形成高性能、高吞吐的計(jì)算系統(tǒng),為AI順聯(lián)和推理提供基礎(chǔ)計(jì)算力。
# 聚合算力
由智能網(wǎng)絡(luò)和智能存儲(chǔ)組成,構(gòu)建高帶寬、低延遲的通信系統(tǒng)和數(shù)據(jù)平臺(tái)。智能網(wǎng)絡(luò)、智能存儲(chǔ)采用軟件定義方式,實(shí)現(xiàn)文件、對(duì)象、塊、大數(shù)據(jù)存儲(chǔ)服務(wù)一體化設(shè)計(jì)。
# 調(diào)度算力
將聚合的CPU、GPU、FPGA、ASIC等算力資源進(jìn)行標(biāo)準(zhǔn)化和粒度切分,滿足智能應(yīng)用的算力需求。
# 釋放算力
是指高質(zhì)量AI模型或AI服務(wù)的輸出,促進(jìn)算力高效釋放轉(zhuǎn)化為生產(chǎn)力。
這四類算力是智算中心建設(shè)的出發(fā)點(diǎn)和落腳點(diǎn)。在智算中心網(wǎng)絡(luò)在具體實(shí)現(xiàn)上,從資源管理角度,主要包括三個(gè)路線:
# 以CPU為中心
所有存算資源的管理都運(yùn)行在CPU上,通過(guò)遠(yuǎn)端資源的方式使用其他資源。
# 以內(nèi)存為中心
內(nèi)存管理分離出來(lái),實(shí)現(xiàn)內(nèi)存的獨(dú)立拓展和共享訪問,從而實(shí)現(xiàn)高效的數(shù)據(jù)處理和計(jì)算。減少了內(nèi)存管理開銷,但其他資源依然由CPU管理和調(diào)度。
# 以網(wǎng)絡(luò)IO為中心
《未來(lái)網(wǎng)絡(luò)白皮書(2023)以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心》提出了以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心架構(gòu),資源去中心化。計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等資源都被視為獨(dú)立的服務(wù),不同資源的拓展和使用相互獨(dú)立。資源之間通過(guò)消息傳遞的方式進(jìn)行通信和協(xié)作。網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室圍繞該理念設(shè)計(jì)了以網(wǎng)絡(luò)IO為中心的無(wú)服務(wù)器數(shù)據(jù)中心。通過(guò)I/O process Unit解耦存算單元使用和協(xié)作的樞紐,其對(duì)內(nèi)負(fù)責(zé)各存算資源的全接入、驅(qū)動(dòng)等,對(duì)外負(fù)責(zé)資源彼此之間的信息交互;通過(guò)分布式內(nèi)核,實(shí)現(xiàn)存算資源按需拓展和彈性使用的軟件架構(gòu)。
在網(wǎng)絡(luò)拓?fù)浼軜?gòu)方面,通常有3種主流設(shè)計(jì)模式,F(xiàn)at-Tree架構(gòu)實(shí)現(xiàn)無(wú)阻塞轉(zhuǎn)發(fā),Dragonfly架構(gòu)網(wǎng)絡(luò)直徑小,Torus 具有高擴(kuò)展性和性價(jià)比。
Fat-Tree架構(gòu)采用1:1無(wú)收斂設(shè)計(jì)。Fat-Tree架構(gòu)中交換機(jī)上聯(lián)端口與下聯(lián)端口帶寬、數(shù)量保持一致,同時(shí)交換機(jī)要采用無(wú)阻塞轉(zhuǎn)發(fā)的數(shù)據(jù)中心級(jí)交換機(jī)。Fat-Tree架構(gòu)可以通過(guò)擴(kuò)展網(wǎng)絡(luò)層次提升接入的GPU節(jié)點(diǎn)數(shù)量。兩層Fat-Tree架構(gòu)能夠接入PP/2張GPU卡,P為交換機(jī)的端口數(shù)量。三層Fat-Tree架構(gòu)能夠接入 P(P/2)*(P/2)張GPU卡。以40端口的InfiniBand交換機(jī)為例,能夠接入的GPU數(shù)量最多可達(dá)16000個(gè)。以百度智能云為例,按照服務(wù)節(jié)點(diǎn)的網(wǎng)卡數(shù)量組成AI-Pool,將不同節(jié)點(diǎn)相同編號(hào)的網(wǎng)口連接到同一臺(tái)交換機(jī),通過(guò)NCCL通信庫(kù)的Rail Local技術(shù)以及主機(jī)內(nèi)GPU間的NVSwitch的帶寬,將多機(jī)間的跨卡互通轉(zhuǎn)化為跨機(jī)間的同GPU卡號(hào)的互通,從而實(shí)現(xiàn)同2層Fat-Tree架構(gòu)下,AI-Pool一跳可達(dá),不同AI-Pool 三跳可達(dá)。三層Fat-Tree架構(gòu)下智算節(jié)點(diǎn)間同GPU卡號(hào)轉(zhuǎn)發(fā)3跳可達(dá),不同GPU卡號(hào)轉(zhuǎn)發(fā)5跳可達(dá)。
圖1:Fat-Tree拓?fù)鋱D
Dragonfly架構(gòu)分為三層:Switch層,包含1個(gè)交換機(jī)及與其相連的計(jì)算節(jié)點(diǎn);Group層:包含a個(gè)Switch層,a個(gè)交換機(jī)之間全互聯(lián)(每個(gè)交換機(jī)都有a-1條鏈路連接至其他a-1臺(tái)交換機(jī));System層:包含g個(gè)Group層,g個(gè)Group層全連接。對(duì)于單個(gè)Switch交換機(jī),有P個(gè)端口連接計(jì)算節(jié)點(diǎn),a-1個(gè)端口連接Group內(nèi)的其他交換機(jī),h個(gè)端口連接到其他Group交換機(jī)。每個(gè)交換機(jī)的端口數(shù)為k=p+(a-1)+h。可以接入的計(jì)算節(jié)點(diǎn)總數(shù)為N=ap(ah+1),通常按照a=2p=2h配置。采用直連模式,縮短網(wǎng)絡(luò)路徑,減少中間節(jié)點(diǎn)數(shù)量。64端口交換機(jī)支持組網(wǎng)規(guī)模27萬(wàn)節(jié)點(diǎn),端到端交換機(jī)轉(zhuǎn)發(fā)跳數(shù)減至3跳。
圖2:Dragonfly拓?fù)鋱D
Torus架構(gòu),將計(jì)算節(jié)點(diǎn)按照網(wǎng)格的方式排列,連接同行和同列的相鄰節(jié)點(diǎn),同時(shí)同行和同列最遠(yuǎn)端的兩個(gè)節(jié)點(diǎn)之間構(gòu)建直連線路。有兩種構(gòu)建方法,一種是直接網(wǎng)絡(luò),計(jì)算節(jié)點(diǎn)在環(huán)面“晶格”中,計(jì)算節(jié)點(diǎn)適配器負(fù)責(zé)轉(zhuǎn)發(fā)網(wǎng)絡(luò)包。對(duì)于2D Torus架構(gòu),計(jì)算節(jié)點(diǎn)適配器需要具備4個(gè)端口,對(duì)于3D Torus架構(gòu),需要6個(gè)端口,6個(gè)線纜連接到計(jì)算節(jié)點(diǎn),將影響計(jì)算機(jī)節(jié)點(diǎn)的散熱。另一種是將交換機(jī)放在環(huán)面“晶格”中,計(jì)算節(jié)點(diǎn)只需要具備常規(guī)端口數(shù)量的網(wǎng)絡(luò)適配器,網(wǎng)絡(luò)包轉(zhuǎn)發(fā)主要由交換機(jī)完成。Torus架構(gòu)提供的并非是無(wú)阻塞的網(wǎng)絡(luò),同時(shí)節(jié)點(diǎn)之間的距離并非一致,通常通過(guò)提升維度來(lái)降低時(shí)延以及抖動(dòng)的影響。但是構(gòu)造成本較低。
圖3:Torus拓?fù)鋱D
在互聯(lián)協(xié)議選擇方面,具體的實(shí)現(xiàn)方式包括iWARP、RoCEv1、RoCEv2、InfiniBand四種,后兩種是目前的主流方案,應(yīng)用層端到端的時(shí)間能從50us(TCP/IP),降低到5us(RoCE)或2us(InfiniBand)。此外,可通過(guò)可編程網(wǎng)絡(luò)設(shè)備,在網(wǎng)計(jì)算,減少傳輸?shù)臄?shù)據(jù)量,進(jìn)一步提升傳輸效率。
RoCEv2 采用分布式網(wǎng)絡(luò)架構(gòu),包括支持RoCEv2的網(wǎng)卡和交換機(jī),借助傳統(tǒng)以太網(wǎng)的光纖和光模塊實(shí)現(xiàn)端到端的RDMA通信。交換機(jī)轉(zhuǎn)發(fā)芯片以博通Tomahawk系列芯片為主,單端口從100Gbps->200Gbps->400Gbps不斷演進(jìn)。RoCEv2 中的Go Back N重傳機(jī)制采用PFC(優(yōu)先級(jí)流控)實(shí)現(xiàn)逐跳流控策略,保證在以太網(wǎng)中實(shí)現(xiàn)無(wú)丟包。標(biāo)準(zhǔn)RoCEv2協(xié)議中每個(gè)RC(可靠連接)都映射到唯一的五元組,整網(wǎng)負(fù)載均衡性差,容易產(chǎn)生擁塞。RoCEv2通常卸載到網(wǎng)卡中,受限于網(wǎng)卡芯片內(nèi)的表項(xiàng)空間,芯片內(nèi)的連接數(shù)有限,當(dāng)網(wǎng)絡(luò)節(jié)點(diǎn)超過(guò)一定規(guī)模,會(huì)發(fā)生網(wǎng)卡芯片與主機(jī)內(nèi)存的連接表交換,影響網(wǎng)絡(luò)傳輸性能。
InfiniBand網(wǎng)絡(luò)中關(guān)鍵組成包括Subnet Manager、InfiniBand網(wǎng)卡、InfiniBand交換機(jī)和連接線纜。Subnet Manager即為InfiniBand網(wǎng)絡(luò)的控制器,進(jìn)行InfiniBand子網(wǎng)劃分及QoS管理,向每個(gè)交換芯片下發(fā)轉(zhuǎn)發(fā)表,通過(guò)帶內(nèi)方式控制子網(wǎng)內(nèi)所有交換機(jī)和網(wǎng)卡。InfiniBand網(wǎng)卡通過(guò)SMA(Subnet Manager Agent)接受Subnet Manager的統(tǒng)一管理。InfiniBand交換機(jī)不運(yùn)行路由協(xié)議,網(wǎng)絡(luò)轉(zhuǎn)發(fā)表通過(guò)Subnet Manager統(tǒng)一下發(fā)。基于Credit信令機(jī)制避免緩沖區(qū)溢出丟包,網(wǎng)絡(luò)中每條鏈路都有預(yù)置緩沖區(qū),發(fā)送端一次性發(fā)送數(shù)據(jù)不會(huì)超過(guò)接收端可用的緩沖區(qū)大小。
05小 結(jié)
智算中心與普通的數(shù)據(jù)中心相比 存在大量的異構(gòu)計(jì)算核心,東西向之間的通信流量更大,對(duì)時(shí)延、抖動(dòng)、可用性的要求更高,對(duì)算力的需求更大,需要從安全性、可靠性、能源使用效率綜合考慮網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),最大程度發(fā)揮智算中心資源價(jià)值。
審核編輯:湯梓紅
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85322 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7553瀏覽量
88727 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268879 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238234 -
智算中心
+關(guān)注
關(guān)注
0文章
68瀏覽量
1691
原文標(biāo)題:一文讀懂智算中心網(wǎng)絡(luò)
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論