市場上存在多種計算光模塊與GPU比例的方法,導(dǎo)致結(jié)果不相同。造成這些差異的主要原因是不同網(wǎng)絡(luò)結(jié)構(gòu)中光模塊數(shù)量的波動。所需的光模塊的準(zhǔn)確數(shù)量主要取決于幾個關(guān)鍵因素。
網(wǎng)卡型號
主要包括兩個網(wǎng)卡,ConnectX-6 (200Gb/s,主要用于A100)和ConnectX-7 (400Gb/s,主要用于H100)。
同時,下一代ConnectX-8800Gb/s預(yù)計將于2024年發(fā)布。
交換機(jī)型號
主要包括兩種類型的交換機(jī),QM 9700交換機(jī)(32口OSFP 2x400Gb/s),共64通道400Gb/s傳輸速率,總吞吐率達(dá)到51.2Tb/s。
而QM8700交換機(jī)(40口QSFP56,共40個通道,傳輸速率為200Gb/s,總吞吐率為16Tb/s)。
單元數(shù)量(可擴(kuò)展單元)
單元數(shù)量決定了交換機(jī)網(wǎng)絡(luò)架構(gòu)的配置。小批量采用兩層結(jié)構(gòu),而大批量采用三層結(jié)構(gòu)。 H100 SuperPOD:每臺由32個節(jié)點(DGX H100服務(wù)器)組成,最多支持4臺組成集群,采用雙層交換架構(gòu)。 A100 SuperPOD:每臺由20個節(jié)點(DGX A100服務(wù)器)組成,最多支持7臺組成集群。如果單元數(shù)超過5個,則需要三層交換架構(gòu)。
四大網(wǎng)絡(luò)配置下的光模塊需求
A100+ConnectX6+QM8700三層網(wǎng)絡(luò):比例1:6,全部采用200G光模塊。 A100+ConnectX6+QM9700兩層網(wǎng)絡(luò):1:0.75的800G光模塊+1:1的200G光模塊。 H100+ConnectX7+QM9700兩層網(wǎng)絡(luò):1:1.5的800G光模塊+1:1的400G光模塊。 H100+ConnectX8(尚未發(fā)布)+QM9700三層網(wǎng)絡(luò):比例1:6,全部采用800G光模塊。 光模塊市場逐步增長: 假設(shè)2023年H100出貨量為30萬臺,A100出貨量為90萬臺,總需求量為315萬臺200G、30萬臺400G、787.5萬臺800G光模塊。這會導(dǎo)致人工智能市場的顯著增長,預(yù)計規(guī)模將達(dá)到13.8億美元 以2024年出貨150萬臺H100和150萬臺A100為例,200G總需求量為75萬臺,400G光模塊75萬臺,800G光模塊675萬臺。這將導(dǎo)致人工智能市場的顯著增長,預(yù)計規(guī)模將達(dá)到49.7億美元,大約相當(dāng)于2021年光模塊行業(yè)的總市場規(guī)模。 以下是上述每種情況的細(xì)致計算分解:
第一種情況:A100+ConnectX6+QM8700三層網(wǎng)絡(luò)
A100 GPU設(shè)計有8個計算接口,如圖所示,左側(cè)有4個接口,右側(cè)有4個接口。目前,A100 GPU的大部分出貨量都是與ConnectX-6配合使用,以實現(xiàn)高達(dá)200Gb/s的連接速率。
在首層架構(gòu)中,每個節(jié)點有8個接口(端口),節(jié)點連接8個葉交換機(jī)。每20個節(jié)點組成一個單元(SU)。因此,在第一層中,總共需要8xSU臺葉交換機(jī),以及8xSUx20根線纜和2x8xSUx20個200G光模塊。
在第二層架構(gòu)中,由于采用了無阻塞設(shè)計,上行速率等于下行速率。在第一層中,總單向傳輸速率為200G乘以線纜數(shù)量。由于第二層也采用單纜200G傳輸速率,因此第二層的線纜數(shù)量應(yīng)與第一層相同,需要8xSUx20線纜和2x8xSUx20 200G光模塊。所需脊交換機(jī)的數(shù)量是通過將線纜數(shù)量除以葉交換機(jī)數(shù)量來計算的,得出所需的(8xSUx200)/(8xSU)脊交換機(jī)。但是,當(dāng)沒有足夠的葉交換機(jī)時,為了節(jié)省脊交換機(jī)的數(shù)量,可以在葉和脊交換機(jī)之間建立多個連接(只要不超過40個接口的限制)。因此,當(dāng)單元數(shù)為1/2/4/5時,所需的脊交換機(jī)數(shù)量為4/10/20/20,所需的光模塊數(shù)量為320/640/1280/1600。脊交換機(jī)的數(shù)量不會成比例增加,但光模塊的數(shù)量會按相同比例增加。 當(dāng)系統(tǒng)擴(kuò)展到七個單元時,實施第三層架構(gòu)變得至關(guān)重要。由于其非阻塞配置,第三層中所需的線纜數(shù)量與第二層的線纜數(shù)量保持不變。 英偉達(dá)(NVIDIA)建議的SuperPOD藍(lán)圖需要在七個單元之間集成網(wǎng)絡(luò),采用第三層架構(gòu)及核心交換機(jī)。詳細(xì)的圖表說明了不同層的不同數(shù)量的交換機(jī)以及不同單元數(shù)所需的相關(guān)布線。
配置140臺服務(wù)器,參與的A100 GPU總數(shù)為1120,計算方式為服務(wù)器數(shù)量140乘以8。為了支持此配置,需要部署了140臺QM8790交換機(jī)以及3360根線纜。此外,該配置需要使用6720個200G光模塊?。A100 GPU與200G光模塊的比例為1:6,具體數(shù)量為1120個GPU對應(yīng)6720個光模塊。
第二種情況:A100+ConnectX6+QM9700兩層網(wǎng)絡(luò)
目前,該配置方案并不是建議配置的一種。盡管如此,隨著時間的推移,越來越多的A100 GPU可能會選擇通過QM9700交換機(jī)進(jìn)行連接。這種轉(zhuǎn)變將減少所需光模塊數(shù)量,但會產(chǎn)生對800G光模塊的需求。主要區(qū)別可以在第一層的連接中看到,目前使用8根獨立200G線纜的方法將被使用QSFP轉(zhuǎn)OSFP適配器替代,每個適配器能夠進(jìn)行兩個連接,從而實現(xiàn)1對4的連接。
在第一層中:對于具有7個單元和140個服務(wù)器的集群,總共有140x8=1120個接口。這相當(dāng)于280根1-4線纜,因此需要280個800G和1120個200G光模塊??偣残枰?2臺QM9700交換機(jī)。 在第二層:僅使用800G連接時,需要280x2=5600個800G光模塊以及9臺QM 9700交換機(jī)。 因此,對于140臺服務(wù)器和1120臺A100 GPU配置,總共需要21臺交換機(jī)(12+9),以及840個800G光模塊和1120個200G光模塊。 A100 GPU與800G光模塊的比例為1120:840,簡化為1:0.75。A1000 GPU和200G光模塊的比例為1:1。
第三種情況:H100+ConnectX7+QM9700兩層網(wǎng)絡(luò)
H100架構(gòu)的一個顯著特點是,盡管該卡包含8個GPU,但配備了8個400G網(wǎng)卡,這些網(wǎng)卡組合成4個800G接口。這種融合帶來了對800G光模塊的巨大需求。 在第一層中,根據(jù)英偉達(dá)(NVIDIA)推薦的配置,建議在服務(wù)器接口連接1個800G光模塊。這可以通過使用帶有兩根光纜(MPO)的雙端口連接來實現(xiàn),其中每根光纜都插入單獨的交換機(jī)。
因此,在第一層中,每個單元由32臺服務(wù)器組成,每臺服務(wù)器連接2x4=8臺交換機(jī)。在具有4個單元的SuperkPOD中,第一層總共需要4x8=32臺葉交換機(jī)。 英偉達(dá)(NVIDIA)建議為管理目的(UFM)保留一個節(jié)點。由于對光模塊的使用影響有限,因此我們以4臺設(shè)備、總共128臺服務(wù)器為基準(zhǔn)進(jìn)行近似計算。 第一層共需要4x128=512個800G光模塊和2x4x128=1024個400G光模塊。
在第二層,交換機(jī)使用800G光模塊直接連接。每個葉交換機(jī)都以32x400G的單向速率向下連接。為保證上行和下行速率一致,上行連接需要16x800G的單向速率。這需要16個脊交換機(jī),因此總共需要4x8x162=1024個800G光模塊。 在這種架構(gòu)中,基礎(chǔ)設(shè)施總共需要1536個800G光模塊和1024個400G光模塊??紤]到SuperPOD的完整組成,其中包括128臺(4x32)服務(wù)器,每臺服務(wù)器配備8個H100 GPU,總共有1024個H100 GPU。GPU與800G光模塊的比例為1:1.5,相當(dāng)于1024個GPU需要1536個光模塊。GPU與400G光模塊的比例為1:1,1024個GPU與1024個光模塊的數(shù)量相等。
第四種情況:H100+ConnectX8(暫未發(fā)布)+QM9700三層網(wǎng)絡(luò)
在假設(shè)的情景中,如果H100GPU的網(wǎng)卡升級到800G,那么外部接口就需要從四個擴(kuò)展到八個OSFP接口。因此,層間連接也將使用800G光模塊?;揪W(wǎng)絡(luò)設(shè)計與初始方案保持一致,唯一的變化是將200G光模塊替換為800G光模塊。在此網(wǎng)絡(luò)架構(gòu)內(nèi),GPU數(shù)量與所需光模塊保持1:65的比例,與初始場景相同。 基于上述情況整理,假如2023年H100 GPU的出貨量為300000個,A100 GPU的出貨量為900000個,將產(chǎn)生315萬個200G光模塊、300000個400G光模塊和787500個800G光模塊的總需求。展望2024年,預(yù)計交付150萬臺H100 GPU和150萬臺A100 GPU,產(chǎn)生需求將包括75萬臺200G光模塊、75萬臺400G光模塊和675萬臺800G光模塊。 對于A100 GPU,其連接均勻分配在200G交換機(jī)和400G交換機(jī)之間。 對于H100 GPU,其連接均勻分配在200G交換機(jī)和400G交換機(jī)之間。
綜上所述
隨著技術(shù)的不斷進(jìn)步和發(fā)展,網(wǎng)絡(luò)領(lǐng)域見證了400G多模光模塊、AOC和DAC的出現(xiàn)。預(yù)計這些將引領(lǐng)高速解決方案進(jìn)一步的發(fā)展,為數(shù)字時代的網(wǎng)絡(luò)需求提供強(qiáng)大的支持。
審核編輯:黃飛
?
評論
查看更多