RM新时代平台靠谱平台入口,RM新时代正常可以出正常提

通常，在在AI智算系統(tǒng)中，一個(gè)模型從生產(chǎn)到應(yīng)用，一般包括離線訓(xùn)練和推理部署兩大階段；本文選自“智算中心網(wǎng)絡(luò)架構(gòu)白皮書（2023）”“智能計(jì)算中心規(guī)劃建設(shè)指南”，常用的對(duì)IB和ROCE V2高性能網(wǎng)絡(luò)進(jìn)行全面的分析對(duì)比。

智算網(wǎng)絡(luò)的選型和建設(shè)階段的典型問題包括：

1. 智算網(wǎng)絡(luò)是復(fù)用當(dāng)前的TCP/IP通用網(wǎng)絡(luò)的基礎(chǔ)設(shè)施，還是新建一張專用的高性能網(wǎng)絡(luò)？

2. 智算網(wǎng)絡(luò)技術(shù)方案采用 InfiniBand 還是 RoCE ？

3. 智算網(wǎng)絡(luò)如何進(jìn)行運(yùn)維和管理？

4. 智算網(wǎng)絡(luò)是否具備多租戶隔離能力以實(shí)現(xiàn)對(duì)內(nèi)和對(duì)外的運(yùn)營(yíng)？

離線訓(xùn)練，就是產(chǎn)生模型的過程。用戶需要根據(jù)自己的任務(wù)場(chǎng)景，準(zhǔn)備好訓(xùn)練模型所需要的數(shù)據(jù)集以及神經(jīng)網(wǎng)絡(luò)算法。模型訓(xùn)練開始后，先讀取數(shù)據(jù)，然后送入模型進(jìn)行前向計(jì)算，并計(jì)算與真實(shí)值的誤差。然后執(zhí)行反向計(jì)算得到參數(shù)梯度，最后更新參數(shù)。訓(xùn)練過程會(huì)進(jìn)行多輪的數(shù)據(jù)迭代。訓(xùn)練完成之后，保存訓(xùn)練好的模型，然后將模型做上線部署，接受用戶的真實(shí)輸入，通過前向計(jì)算，完成推理。因此，無論是訓(xùn)練還是推理，核心都是數(shù)據(jù)計(jì)算。為了加速計(jì)算效率，一般都是通過 GPU 等異構(gòu)加速芯片來進(jìn)行訓(xùn)練和推理。

隨著以 GPT3.0 為代表的大模型展現(xiàn)出令人驚艷的能力后，智算業(yè)務(wù)往海量參數(shù)的大模型方向發(fā)展已經(jīng)成為一個(gè)主流技術(shù)演進(jìn)路徑。以自然語(yǔ)言處理（NLP）為例，模型參數(shù)已經(jīng)達(dá)到了千億級(jí)別。計(jì)算機(jī)視覺（CV）、廣告推薦、智能風(fēng)控等領(lǐng)域的模型參數(shù)規(guī)模也在不斷的擴(kuò)大，正在往百億和千億規(guī)模參數(shù)的方向發(fā)展。

在自動(dòng)駕駛場(chǎng)景中，每車每日會(huì)產(chǎn)生 T 級(jí)別數(shù)據(jù)，每次訓(xùn)練的數(shù)據(jù)達(dá)到 PB 級(jí)別。大規(guī)模數(shù)據(jù)處理和大規(guī)模仿真任務(wù)的特點(diǎn)十分顯著，需要使用智算集群來提升數(shù)據(jù)處理與模型訓(xùn)練的效率。

大模型訓(xùn)練中大規(guī)模的參數(shù)對(duì)算力和顯存都提出了更高的要求。以GPT3為例，千億參數(shù)需要2TB顯存，當(dāng)前的單卡顯存容量不夠。即便出現(xiàn)了大容量的顯存，如果用單卡訓(xùn)練的話也需要32年。為了縮短訓(xùn)練時(shí)間，通常采用分布式訓(xùn)練技術(shù)，對(duì)模型和數(shù)據(jù)進(jìn)行切分，采用多機(jī)多卡的方式將訓(xùn)練時(shí)長(zhǎng)縮短到周或天的級(jí)別。

分布式訓(xùn)練就是通過多臺(tái)節(jié)點(diǎn)構(gòu)建出一個(gè)計(jì)算能力和顯存能力超大的集群，來應(yīng)對(duì)大模型訓(xùn)練中算力墻和存儲(chǔ)墻這兩個(gè)主要挑戰(zhàn)。而聯(lián)接這個(gè)超級(jí)集群的高性能網(wǎng)絡(luò)直接決定了智算節(jié)點(diǎn)間的通信效率，進(jìn)而影響整個(gè)智算集群的吞吐量和性能。要讓整個(gè)智算集群獲得高的吞吐量，高性能網(wǎng)絡(luò)需要具備低時(shí)延、大帶寬、長(zhǎng)期穩(wěn)定性、大規(guī)模擴(kuò)展性和可運(yùn)維幾個(gè)關(guān)鍵能力。

分布式訓(xùn)練系統(tǒng)的整體算力并不是簡(jiǎn)單的隨著智算節(jié)點(diǎn)的增加而線性增長(zhǎng)，而是存在加速比，且加速比小于 1。存在加速比的主要原因是：在分布式場(chǎng)景下，單次的計(jì)算時(shí)間包含了單卡的計(jì)算時(shí)間疊加卡間通信時(shí)間。因此，降低卡間通信時(shí)間，是分布式訓(xùn)練中提升加速比的關(guān)鍵，需要重點(diǎn)考慮和設(shè)計(jì)。

降低多機(jī)多卡間端到端通信時(shí)延的關(guān)鍵技術(shù)是 RDMA 技術(shù)。RDMA 可以繞過操作系統(tǒng)內(nèi)核，讓一臺(tái)主機(jī)可以直接訪問另外一臺(tái)主機(jī)的內(nèi)存。

實(shí) 現(xiàn) RDMA 的方式有 InfiniBand、RoCEv1、RoCEv2、i WARP 四種。其中 RoCEv1 技術(shù) 當(dāng) 前已經(jīng) 被淘汰，iWARP 使用較少。當(dāng)前 RDMA 技術(shù)主要采用的方案為 InfiniBand 和 RoCEv2 兩種。

在 InfiniBand 和 RoCEv2 方案中，因?yàn)槔@過了內(nèi)核協(xié)議棧，相較于傳統(tǒng) TCP/IP 網(wǎng)絡(luò)，時(shí)延性能會(huì)有數(shù)十倍的改善。在同集群內(nèi)部一跳可達(dá)的場(chǎng)景下，InfiniBand 和 RoCEv2 與傳統(tǒng) IP 網(wǎng)絡(luò)的端到端時(shí)延在實(shí)驗(yàn)室的測(cè)試數(shù)據(jù)顯示，繞過內(nèi)核協(xié)議棧后，應(yīng)用層的端到端時(shí)延可以從 50us（TCP/IP），降低到 5us（RoCE）或 2us（InfiniBand）。

在完成計(jì)算任務(wù)后，智算集群內(nèi)部的計(jì)算節(jié)點(diǎn)需要將計(jì)算結(jié)果快速地同步給其他節(jié)點(diǎn)，以便進(jìn)行下一輪計(jì)算。在結(jié)果同步完成前，計(jì)算任務(wù)處于等待狀態(tài)，不會(huì)進(jìn)入下一輪計(jì)算。如果帶寬不夠大，梯度傳輸就會(huì)變慢，造成卡間通信時(shí)長(zhǎng)變長(zhǎng)，進(jìn)而影響加速比。

要滿足智算網(wǎng)絡(luò)的低時(shí)延、大帶寬、穩(wěn)定運(yùn)行、大規(guī)模以及可運(yùn)維的需求，目前業(yè)界比較常用的網(wǎng)絡(luò)方案是 InfiniBand方案和 RoCEv2 方案。

一、InfiniBand網(wǎng)絡(luò)介紹

InfiniBand網(wǎng)絡(luò)的關(guān)鍵組成包括Subnet Manager（SM）、InfiniBand 網(wǎng)卡、InfiniBand交換機(jī)和InfiniBand連接線纜。

支持 InfiniBand 網(wǎng)卡的廠家以 NVIDIA 為主。下圖是當(dāng)前常見的 InfiniBand 網(wǎng)卡。InfiniBand 網(wǎng)卡在速率方面保持著快速的發(fā)展。200Gbps 的 HDR 已經(jīng)實(shí)現(xiàn)了規(guī)?；纳逃貌渴?，400Gbps 的 NDR的網(wǎng)卡也已經(jīng)開始商用部署。

在InfiniBand交換機(jī)中，SB7800 為 100Gbps 端口交換機(jī)（36*100G），屬于 NVIDIA 比較早的一代產(chǎn)品。Quantum-1 系列為 200Gbps 端口交換機(jī)（40*200G），是當(dāng)前市場(chǎng)采用較多的產(chǎn)品。

在 2021 年，NVIDIA 推出了 400Gbps 的 Quantum-2 系列交換機(jī)（64*400G）。交換機(jī)上有 32 個(gè) 800G OSFP（Octal Small Form Factor Pluggable）口，需要通過線纜轉(zhuǎn)接出 64 個(gè) 400G QSFP。

InfiniBand 交換機(jī)上不運(yùn)行任何路由協(xié)議。整個(gè)網(wǎng)絡(luò)的轉(zhuǎn)發(fā)表是由集中式的子網(wǎng)管理器（Subnet Manager，簡(jiǎn)稱 SM）進(jìn)行計(jì)算并統(tǒng)一下發(fā)的。除了轉(zhuǎn)發(fā)表以外，SM 還負(fù)責(zé)管理 InfiniBand 子網(wǎng)的 Partition、QoS 等配置。InfiniBand 網(wǎng)絡(luò)需要專用的線纜和光模塊做交換機(jī)間的互聯(lián)以及交換機(jī)和網(wǎng)卡的互聯(lián)。

InfiniBand 網(wǎng)絡(luò)方案特點(diǎn)

（1）原生無損網(wǎng)絡(luò)

InfiniBand 網(wǎng)絡(luò)采用基于 credit 信令機(jī)制來從根本上避免緩沖區(qū)溢出丟包。只有在確認(rèn)對(duì)方有額度能接收對(duì)應(yīng)數(shù)量的報(bào)文后，發(fā)送端才會(huì)啟動(dòng)報(bào)文發(fā)送。InfiniBand 網(wǎng)絡(luò)中的每一條鏈路都有一個(gè)預(yù)置緩沖區(qū)。發(fā)送端一次性發(fā)送數(shù)據(jù)不會(huì)超過接收端可用的預(yù)置緩沖區(qū)大小，而接收端完成轉(zhuǎn)發(fā)后會(huì)騰空緩沖區(qū)，并且持續(xù)向發(fā)送端返回當(dāng)前可用的預(yù)置緩沖區(qū)大小。依靠這一鏈路級(jí)的流控機(jī)制，可以確保發(fā)送端絕不會(huì)發(fā)送過量，網(wǎng)絡(luò)中不會(huì)產(chǎn)生緩沖區(qū)溢出丟包。

（2）萬卡擴(kuò)展能力

InfiniBand 的 Adaptive Routing 基于逐包的動(dòng)態(tài)路由，在超大規(guī)模組網(wǎng)的情況下保證網(wǎng)絡(luò)最優(yōu)利用。InfiniBand 網(wǎng)絡(luò)在業(yè)界有較多的萬卡規(guī)模超大 GPU 集群的案例，包括百度智能云，微軟云等。

目前市場(chǎng)上主要的 InfiniBand 網(wǎng)絡(luò)方案及配套設(shè)備供應(yīng)商有以下幾家。其中，市場(chǎng)占有率最高的是 NVIDIA，其市場(chǎng)份額大于 7 成。

NVIDIA：NVIDIA是InfiniBand技術(shù)的主要供應(yīng)商之一，提供各種InfiniBand適配器、交換機(jī)和其他相關(guān)產(chǎn)品。

Intel Corporation：Intel是另一個(gè)重要的InfiniBand供應(yīng)商，提供各種InfiniBand網(wǎng)絡(luò)產(chǎn)品和解決方案。

Cisco Systems：Cisco是一家知名的網(wǎng)絡(luò)設(shè)備制造商，也提供InfiniBand交換機(jī)和其他相關(guān)產(chǎn)品。

Hewlett Packard Enterprise：HPE是一家大型IT公司，提供各種InfiniBand網(wǎng)絡(luò)解決方案和產(chǎn)品，包括適配器、交換機(jī)和服務(wù)器等。

2、RoCEv2 網(wǎng)絡(luò)介紹

InfiniBand 網(wǎng)絡(luò)在一定程度上是一個(gè)由 SM（Subnet Manager，子網(wǎng)管理器）進(jìn)行集中管理的網(wǎng)絡(luò)。而 RoCEv2 網(wǎng)絡(luò)則是一個(gè)純分布式的網(wǎng)絡(luò)，由支持 RoCEv2 的網(wǎng)卡和交換機(jī)組成，一般情況下是兩層架構(gòu)。

支持 RoCE 網(wǎng)卡的廠家比較多，主流廠商為 NVIDIA、Intel、Broadcom。數(shù)據(jù)中心服務(wù)器網(wǎng)卡主要以 PCIe 卡為主。RDMA 網(wǎng)卡的端口 PHY 速率一般是 50Gbps 起，當(dāng)前商用的網(wǎng)卡單端口速率已達(dá) 400Gbps。

當(dāng)前大部分?jǐn)?shù)據(jù)中心交換機(jī)都支持 RDMA 流控技術(shù)，和 RoCE 網(wǎng)卡配合，實(shí)現(xiàn)端到端的 RDMA 通信。國(guó)內(nèi)的主流數(shù)據(jù)中心交換機(jī)廠商包括華為、新華三等。

高性能交換機(jī)的核心是轉(zhuǎn)發(fā) 芯片。當(dāng)前市場(chǎng)上的商用轉(zhuǎn)發(fā) 芯片用的比較多的是博通的 Tomahawk 系列芯片。其中Tomahawk3 系列的芯片在當(dāng)前交換機(jī)上使用的比較多，市場(chǎng)上支持 Tomahawk4 系列的芯片的交換機(jī)也逐漸增多。

RoCEv2 承載在以太網(wǎng)上，所以傳統(tǒng)以太網(wǎng)的光纖和光模塊都可以用。

RoCEv2 網(wǎng)絡(luò)方案特點(diǎn)

RoCE 方案相對(duì)于 InfiniBand 方案的特點(diǎn)是通用性較強(qiáng)和價(jià)格相對(duì)較低。除用于構(gòu)建高性能 RDMA 網(wǎng)絡(luò)外，還可以在傳統(tǒng)的以太網(wǎng)絡(luò)中使用。但在交換機(jī)上的 Headroom、PFC、ECN 相關(guān)參數(shù)的配置是比較復(fù)雜的。在萬卡這種超大規(guī)模場(chǎng)景下，整個(gè)網(wǎng)絡(luò)的吞吐性能較 InfiniBand 網(wǎng)絡(luò)要弱一些。

支持 RoCE 的交換機(jī)廠商較多，市場(chǎng)占有率排名靠前的包括新華三、華為等。支持 RoCE 的網(wǎng)卡當(dāng)前市場(chǎng)占有率比較高的是 NVIDIA 的 ConnectX 系列的網(wǎng)卡。

3、InfiniBand 和 RoCEv2網(wǎng)絡(luò)方案對(duì)比

從技術(shù)角度看，InfiniBand 使用了較多的技術(shù)來提升網(wǎng)絡(luò)轉(zhuǎn)發(fā)性能，降低故障恢復(fù)時(shí)間，提升擴(kuò)展能力，降低運(yùn)維復(fù)雜度。

具體到實(shí)際業(yè)務(wù)場(chǎng)景上看，RoCEv2 是足夠好的方案，而 InfiniBand 是特別好的方案。

業(yè)務(wù)性能方面：由于 InfiniBand 的端到端時(shí)延小于 RoCEv2，所以基于 InfiniBand 構(gòu)建的網(wǎng)絡(luò)在應(yīng)用層業(yè)務(wù)性能方面占優(yōu)。但 RoCEv2 的性能也能滿足絕大部分智算場(chǎng)景的業(yè)務(wù)性能要求。

業(yè)務(wù)規(guī)模方面： InfiniBand 能支持單集群萬卡 GPU 規(guī)模，且保證整體性能不下降，并且在業(yè)界有比較多的商用實(shí)踐案例。RoCEv2 網(wǎng)絡(luò)能在單集群支持千卡規(guī)模且整體網(wǎng)絡(luò)性能也無太大的降低。

業(yè)務(wù)運(yùn)維方面： InfiniBand 較 RoCEv2 更成熟，包括多租戶隔離能力，運(yùn)維診斷能力等。

業(yè)務(wù)成本方面： InfiniBand 的成本要高于 RoCEv2，主要是 InfiniBand 交換機(jī)的成本要比以太交換機(jī)高一些。

業(yè)務(wù)供應(yīng)商方面： InfiniBand 的供應(yīng)商主要以 NVIDIA 為主，RoCEv2 的供應(yīng)商較多。

責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4729

瀏覽量
128890
顯存

顯存

+關(guān)注

關(guān)注
0

文章
108

瀏覽量
13654
模型

模型

+關(guān)注

關(guān)注
1

文章
3226

瀏覽量
48806
網(wǎng)絡(luò)架構(gòu)

網(wǎng)絡(luò)架構(gòu)

+關(guān)注

關(guān)注
1

文章
93

瀏覽量
12581
智算中心

智算中心

+關(guān)注

關(guān)注
0

文章
68

瀏覽量
1691

原文標(biāo)題：智算中心網(wǎng)絡(luò)架構(gòu)選型及對(duì)比

文章出處：【微信號(hào)：AI_Architect，微信公眾號(hào)：智能計(jì)算芯世界】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

TVS管的選型原則

發(fā)表于 01-03 16:04

ESD選型原則

優(yōu)恩半導(dǎo)體ESD選型原則

發(fā)表于 08-19 15:33

元器件選型基本原則

一、元器件選型基本原則：　　a）普遍性原則：所選的元器件要是被廣泛使用驗(yàn)證過的，盡量少使用冷門、偏門芯片，減少開發(fā)風(fēng)險(xiǎn)?！　）高性價(jià)比原則：在功能、性能、使用率都相近的情況下，盡量選

發(fā)表于 04-26 15:42

元器件的選型原則分享

原則：盡量選擇以前老產(chǎn)品用過的元器件?！、資源節(jié)約原則：盡量用上元器件的全部功能和管腳。芯片的選型過程是對(duì)各個(gè)維度考量的折衷。

發(fā)表于 10-29 08:46

元器件如何選型，選型原則分享

一、元器件選型基本原則a、普遍性原則：所選的元器件要是被廣泛使用驗(yàn)證過的，盡量少使用冷門、偏門芯片，減少開發(fā)風(fēng)險(xiǎn)。　b、高性價(jià)比原則：在功能、性能、使用率都相近的情況下，盡量選擇價(jià)格比

發(fā)表于 10-30 09:34

MOS設(shè)計(jì)選型的基本原則

6個(gè)MOS設(shè)計(jì)選型的基本原則

發(fā)表于 03-18 07:04

伺服電機(jī)選型有哪些原則？

發(fā)表于 09-27 07:58

伺服電機(jī)的選型原則

發(fā)表于 03-04 17:56 ?7次下載

步進(jìn)電機(jī)選型原則你都知道嗎_步進(jìn)電機(jī)選型誤區(qū)盤點(diǎn)

本文主要介紹步進(jìn)電機(jī)選型原則及選型的誤區(qū)盤點(diǎn)，首先介紹的是選型的原則，其次介紹了步進(jìn)電機(jī)選擇的要素及選型

發(fā)表于 04-25 15:22 ?4332次閱讀

算力網(wǎng)絡(luò)的架構(gòu)

算力網(wǎng)絡(luò)的核心特征，是它通過算力，實(shí)現(xiàn)了對(duì)算力資源、網(wǎng)絡(luò)資源的全面接管，可以讓網(wǎng)絡(luò)實(shí)時(shí)感知用戶的

發(fā)表于 08-17 09:32 ?5333次閱讀

電子元器件選型參數(shù)與原則

電子元器件選型教程之電子元器件選型參數(shù)與原則（超實(shí)用） “萬丈高樓平地起”，打好基礎(chǔ)是做好一件事的關(guān)鍵。對(duì)于一塊主板來說，從設(shè)計(jì)到每一個(gè)元器件的選取都是決定產(chǎn)品的重要步驟。整理了一些電子元器件的

發(fā)表于 08-21 11:18 ?5529次閱讀

百度智算峰會(huì)精彩回顧：應(yīng)用驅(qū)動(dòng)的數(shù)據(jù)中心計(jì)算架構(gòu)演進(jìn)

在今日舉行的“2022 百度云智峰會(huì)·智算峰會(huì)”上， NVIDIA 解決方案工程中心高級(jí)技術(shù)經(jīng)理路川分享了以“ 應(yīng)用驅(qū)動(dòng)的數(shù)據(jù)中心計(jì)算架構(gòu)演進(jìn) ”為題的演講，探討 GPU 數(shù)據(jù)

發(fā)表于 12-27 21:15 ?761次閱讀

算力網(wǎng)絡(luò)的概念及整體架構(gòu)

算力服務(wù)層基于分布式微服務(wù)架構(gòu)，支持應(yīng)用解構(gòu)成原子化功能組件并組成算法庫(kù)，由 API Gateway統(tǒng)一調(diào)度，實(shí)現(xiàn) 原子化算法按需實(shí)例化。算力平臺(tái)層將算力資源抽象描述形成算力能力

發(fā)表于 05-25 16:47 ?3次下載

智算中心網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)及組網(wǎng)實(shí)踐案例

智算服務(wù)器可以滿配 8 張 GPU 卡，并預(yù)留 8 個(gè) PCIe 網(wǎng)卡插槽。在多機(jī)組建 GPU 集群時(shí)，兩個(gè) GPU 跨機(jī)互通的突發(fā)帶寬有可能會(huì)大于 50Gbps。因此，一般會(huì)給每個(gè) GPU 關(guān)聯(lián)一個(gè)至少 100Gbps 的網(wǎng)絡(luò)端口。

發(fā)表于 10-20 11:13 ?6433次閱讀

貼片電感選型原則

電子發(fā)燒友網(wǎng)站提供《貼片電感選型原則.docx》資料免費(fèi)下載

發(fā)表于 12-28 09:15 ?6次下載