RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智算中心網(wǎng)絡(luò)架構(gòu)選型原則

智能計(jì)算芯世界 ? 來源:智能計(jì)算芯世界 ? 2023-08-07 09:13 ? 次閱讀

通常,在在AI智算系統(tǒng)中,一個(gè)模型從生產(chǎn)到應(yīng)用,一般包括離線訓(xùn)練和推理部署兩大階段;本文選自“智算中心網(wǎng)絡(luò)架構(gòu)白皮書(2023)”“智能計(jì)算中心規(guī)劃建設(shè)指南”,常用的對(duì)IB和ROCE V2高性能網(wǎng)絡(luò)進(jìn)行全面的分析對(duì)比。

智算網(wǎng)絡(luò)的選型和建設(shè)階段的典型問題包括:

1. 智算網(wǎng)絡(luò)是復(fù)用當(dāng)前的TCP/IP通用網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,還是新建一張專用的高性能網(wǎng)絡(luò)?

2. 智算網(wǎng)絡(luò)技術(shù)方案采用 InfiniBand 還是 RoCE ?

3. 智算網(wǎng)絡(luò)如何進(jìn)行運(yùn)維和管理?

4. 智算網(wǎng)絡(luò)是否具備多租戶隔離能力以實(shí)現(xiàn)對(duì)內(nèi)和對(duì)外的運(yùn)營(yíng)?

離線訓(xùn)練,就是產(chǎn)生模型的過程。用戶需要根據(jù)自己的任務(wù)場(chǎng)景,準(zhǔn)備好訓(xùn)練模型所需要的數(shù)據(jù)集以及神經(jīng)網(wǎng)絡(luò)算法。模型訓(xùn)練開始后,先讀取數(shù)據(jù),然后送入模型進(jìn)行前向計(jì)算,并計(jì)算與真實(shí)值的誤差。然后執(zhí)行反向計(jì)算得到參數(shù)梯度,最后更新參數(shù)。訓(xùn)練過程會(huì)進(jìn)行多輪的數(shù)據(jù)迭代。訓(xùn)練完成之后,保存訓(xùn)練好的模型,然后將模型做上線部署,接受用戶的真實(shí)輸入,通過前向計(jì)算,完成推理。因此,無論是訓(xùn)練還是推理,核心都是數(shù)據(jù)計(jì)算。為了加速計(jì)算效率,一般都是通過 GPU 等異構(gòu)加速芯片來進(jìn)行訓(xùn)練和推理。

隨著以 GPT3.0 為代表的大模型展現(xiàn)出令人驚艷的能力后,智算業(yè)務(wù)往海量參數(shù)的大模型方向發(fā)展已經(jīng)成為一個(gè)主流技術(shù)演進(jìn)路徑。以自然語(yǔ)言處理(NLP)為例,模型參數(shù)已經(jīng)達(dá)到了千億級(jí)別。計(jì)算機(jī)視覺(CV) 、廣告推薦、智能風(fēng)控等領(lǐng)域的模型參數(shù)規(guī)模也在不斷的擴(kuò)大,正在往百億和千億規(guī)模參數(shù)的方向發(fā)展。

自動(dòng)駕駛場(chǎng)景中,每車每日會(huì)產(chǎn)生 T 級(jí)別數(shù)據(jù),每次訓(xùn)練的數(shù)據(jù)達(dá)到 PB 級(jí)別。大規(guī)模數(shù)據(jù)處理和大規(guī)模仿真任務(wù)的特點(diǎn)十分顯著,需要使用智算集群來提升數(shù)據(jù)處理與模型訓(xùn)練的效率。

大模型訓(xùn)練中大規(guī)模的參數(shù)對(duì)算力和顯存都提出了更高的要求。以GPT3為例,千億參數(shù)需要2TB顯存,當(dāng)前的單卡顯存容量不夠。即便出現(xiàn)了大容量的顯存,如果用單卡訓(xùn)練的話也需要32年。為了縮短訓(xùn)練時(shí)間,通常采用分布式訓(xùn)練技術(shù),對(duì)模型和數(shù)據(jù)進(jìn)行切分,采用多機(jī)多卡的方式將訓(xùn)練時(shí)長(zhǎng)縮短到周或天的級(jí)別。

分布式訓(xùn)練就是通過多臺(tái)節(jié)點(diǎn)構(gòu)建出一個(gè)計(jì)算能力和顯存能力超大的集群,來應(yīng)對(duì)大模型訓(xùn)練中算力墻和存儲(chǔ)墻這兩個(gè)主要挑戰(zhàn)。而聯(lián)接這個(gè)超級(jí)集群的高性能網(wǎng)絡(luò)直接決定了智算節(jié)點(diǎn)間的通信效率,進(jìn)而影響整個(gè)智算集群的吞吐量和性能。要讓整個(gè)智算集群獲得高的吞吐量,高性能網(wǎng)絡(luò)需要具備低時(shí)延、大帶寬、長(zhǎng)期穩(wěn)定性、大規(guī)模擴(kuò)展性和可運(yùn)維幾個(gè)關(guān)鍵能力。

分布式訓(xùn)練系統(tǒng)的整體算力并不是簡(jiǎn)單的隨著智算節(jié)點(diǎn)的增加而線性增長(zhǎng),而是存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式場(chǎng)景下,單次的計(jì)算時(shí)間包含了單卡的計(jì)算時(shí)間疊加卡間通信時(shí)間。因此,降低卡間通信時(shí)間,是分布式訓(xùn)練中提升加速比的關(guān)鍵,需要重點(diǎn)考慮和設(shè)計(jì)。

降低多機(jī)多卡間端到端通信時(shí)延的關(guān)鍵技術(shù)是 RDMA 技術(shù)。RDMA 可以繞過操作系統(tǒng)內(nèi)核,讓一臺(tái)主機(jī)可以直接訪問另外一臺(tái)主機(jī)的內(nèi)存。

實(shí) 現(xiàn) RDMA 的 方 式 有 InfiniBand、RoCEv1、RoCEv2、i WARP 四 種。其 中 RoCEv1 技 術(shù) 當(dāng) 前 已 經(jīng) 被 淘 汰,iWARP 使用較少。當(dāng)前 RDMA 技術(shù)主要采用的方案為 InfiniBand 和 RoCEv2 兩種。

在 InfiniBand 和 RoCEv2 方案中,因?yàn)槔@過了內(nèi)核協(xié)議棧,相較于傳統(tǒng) TCP/IP 網(wǎng)絡(luò),時(shí)延性能會(huì)有數(shù)十倍的改善。在同集群內(nèi)部一跳可達(dá)的場(chǎng)景下,InfiniBand 和 RoCEv2 與傳統(tǒng) IP 網(wǎng)絡(luò)的端到端時(shí)延在實(shí)驗(yàn)室的測(cè)試數(shù)據(jù)顯示,繞過內(nèi)核協(xié)議棧后,應(yīng)用層的端到端時(shí)延可以從 50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。

在完成計(jì)算任務(wù)后,智算集群內(nèi)部的計(jì)算節(jié)點(diǎn)需要將計(jì)算結(jié)果快速地同步給其他節(jié)點(diǎn),以便進(jìn)行下一輪計(jì)算。在結(jié)果同步完成前,計(jì)算任務(wù)處于等待狀態(tài),不會(huì)進(jìn)入下一輪計(jì)算。如果帶寬不夠大,梯度傳輸就會(huì)變慢,造成卡間通信時(shí)長(zhǎng)變長(zhǎng),進(jìn)而影響加速比。

要滿足智算網(wǎng)絡(luò)的低時(shí)延、大帶寬、穩(wěn)定運(yùn)行、大規(guī)模以及可運(yùn)維的需求,目前業(yè)界比較常用的網(wǎng)絡(luò)方案是 InfiniBand方案和 RoCEv2 方案

一、InfiniBand網(wǎng)絡(luò)介紹

InfiniBand網(wǎng)絡(luò)的關(guān)鍵組成包括Subnet Manager(SM)、InfiniBand 網(wǎng)卡、InfiniBand交換機(jī)和InfiniBand連接線纜。

支持 InfiniBand 網(wǎng)卡的廠家以 NVIDIA 為主。下圖是當(dāng)前常見的 InfiniBand 網(wǎng)卡。InfiniBand 網(wǎng)卡在速率方面保持著快速的發(fā)展。200Gbps 的 HDR 已經(jīng)實(shí)現(xiàn)了規(guī)?;纳逃貌渴?,400Gbps 的 NDR的網(wǎng)卡也已經(jīng)開始商用部署。

在InfiniBand交換機(jī)中,SB7800 為 100Gbps 端口交換機(jī)(36*100G),屬于 NVIDIA 比較早的一代產(chǎn)品。Quantum-1 系列為 200Gbps 端口交換機(jī)(40*200G),是當(dāng)前市場(chǎng)采用較多的產(chǎn)品。

在 2021 年,NVIDIA 推出了 400Gbps 的 Quantum-2 系列交換機(jī)(64*400G)。交換機(jī)上有 32 個(gè) 800G OSFP(Octal Small Form Factor Pluggable)口,需要通過線纜轉(zhuǎn)接出 64 個(gè) 400G QSFP。

InfiniBand 交換機(jī)上不運(yùn)行任何路由協(xié)議。整個(gè)網(wǎng)絡(luò)的轉(zhuǎn)發(fā)表是由集中式的子網(wǎng)管理器(Subnet Manager,簡(jiǎn)稱 SM)進(jìn)行計(jì)算并統(tǒng)一下發(fā)的。除了轉(zhuǎn)發(fā)表以外,SM 還負(fù)責(zé)管理 InfiniBand 子網(wǎng)的 Partition、QoS 等配置。InfiniBand 網(wǎng)絡(luò)需要專用的線纜和光模塊做交換機(jī)間的互聯(lián)以及交換機(jī)和網(wǎng)卡的互聯(lián)。

InfiniBand 網(wǎng)絡(luò)方案特點(diǎn)

(1)原生無損網(wǎng)絡(luò)

InfiniBand 網(wǎng)絡(luò)采用基于 credit 信令機(jī)制來從根本上避免緩沖區(qū)溢出丟包。只有在確認(rèn)對(duì)方有額度能接收對(duì)應(yīng)數(shù)量的報(bào)文后,發(fā)送端才會(huì)啟動(dòng)報(bào)文發(fā)送。InfiniBand 網(wǎng)絡(luò)中的每一條鏈路都有一個(gè)預(yù)置緩沖區(qū)。發(fā)送端一次性發(fā)送數(shù)據(jù)不會(huì)超過接收端可用的預(yù)置緩沖區(qū)大小,而接收端完成轉(zhuǎn)發(fā)后會(huì)騰空緩沖區(qū),并且持續(xù)向發(fā)送端返回當(dāng)前可用的預(yù)置緩沖區(qū)大小。依靠這一鏈路級(jí)的流控機(jī)制,可以確保發(fā)送端絕不會(huì)發(fā)送過量,網(wǎng)絡(luò)中不會(huì)產(chǎn)生緩沖區(qū)溢出丟包。

(2)萬卡擴(kuò)展能力

InfiniBand 的 Adaptive Routing 基于逐包的動(dòng)態(tài)路由,在超大規(guī)模組網(wǎng)的情況下保證網(wǎng)絡(luò)最優(yōu)利用。InfiniBand 網(wǎng)絡(luò)在業(yè)界有較多的萬卡規(guī)模超大 GPU 集群的案例,包括百度智能云,微軟云等。

目前市場(chǎng)上主要的 InfiniBand 網(wǎng)絡(luò)方案及配套設(shè)備供應(yīng)商有以下幾家。其中,市場(chǎng)占有率最高的是 NVIDIA,其市場(chǎng)份額大于 7 成。

NVIDIA:NVIDIA是InfiniBand技術(shù)的主要供應(yīng)商之一,提供各種InfiniBand適配器、交換機(jī)和其他相關(guān)產(chǎn)品。

Intel Corporation:Intel是另一個(gè)重要的InfiniBand供應(yīng)商,提供各種InfiniBand網(wǎng)絡(luò)產(chǎn)品和解決方案。

Cisco Systems:Cisco是一家知名的網(wǎng)絡(luò)設(shè)備制造商,也提供InfiniBand交換機(jī)和其他相關(guān)產(chǎn)品。

Hewlett Packard Enterprise:HPE是一家大型IT公司,提供各種InfiniBand網(wǎng)絡(luò)解決方案和產(chǎn)品,包括適配器、交換機(jī)和服務(wù)器等。

2、RoCEv2 網(wǎng)絡(luò)介紹

InfiniBand 網(wǎng)絡(luò)在一定程度上是一個(gè)由 SM(Subnet Manager,子網(wǎng)管理器)進(jìn)行集中管理的網(wǎng)絡(luò)。而 RoCEv2 網(wǎng)絡(luò)則是一個(gè)純分布式的網(wǎng)絡(luò),由支持 RoCEv2 的網(wǎng)卡和交換機(jī)組成,一般情況下是兩層架構(gòu)。

支持 RoCE 網(wǎng)卡的廠家比較多,主流廠商為 NVIDIA、Intel、Broadcom。數(shù)據(jù)中心服務(wù)器網(wǎng)卡主要以 PCIe 卡為主。RDMA 網(wǎng)卡的端口 PHY 速率一般是 50Gbps 起,當(dāng)前商用的網(wǎng)卡單端口速率已達(dá) 400Gbps。

當(dāng)前大部分?jǐn)?shù)據(jù)中心交換機(jī)都支持 RDMA 流控技術(shù),和 RoCE 網(wǎng)卡配合,實(shí)現(xiàn)端到端的 RDMA 通信。國(guó)內(nèi)的主流數(shù)據(jù)中心交換機(jī)廠商包括華為、新華三等。

高性 能 交 換 機(jī)的核心 是 轉(zhuǎn)發(fā) 芯片。當(dāng)前 市場(chǎng)上的商用轉(zhuǎn)發(fā) 芯片用的比 較 多的是博通的 Tomahawk 系列芯片。其中Tomahawk3 系列的芯片在當(dāng)前交換機(jī)上使用的比較多,市場(chǎng)上支持 Tomahawk4 系列的芯片的交換機(jī)也逐漸增多。

RoCEv2 承載在以太網(wǎng)上,所以傳統(tǒng)以太網(wǎng)的光纖和光模塊都可以用。

RoCEv2 網(wǎng)絡(luò)方案特點(diǎn)

RoCE 方案相對(duì)于 InfiniBand 方案的特點(diǎn)是通用性較強(qiáng)和價(jià)格相對(duì)較低。除用于構(gòu)建高性能 RDMA 網(wǎng)絡(luò)外,還可以在傳統(tǒng)的以太網(wǎng)絡(luò)中使用。但在交換機(jī)上的 Headroom、PFC、ECN 相關(guān)參數(shù)的配置是比較復(fù)雜的。在萬卡這種超大規(guī)模場(chǎng)景下,整個(gè)網(wǎng)絡(luò)的吞吐性能較 InfiniBand 網(wǎng)絡(luò)要弱一些。

支持 RoCE 的交換機(jī)廠商較多,市場(chǎng)占有率排名靠前的包括新華三、華為等。支持 RoCE 的網(wǎng)卡當(dāng)前市場(chǎng)占有率比較高的是 NVIDIA 的 ConnectX 系列的網(wǎng)卡。

3、InfiniBand 和 RoCEv2網(wǎng)絡(luò)方案對(duì)比

從技術(shù)角度看,InfiniBand 使用了較多的技術(shù)來提升網(wǎng)絡(luò)轉(zhuǎn)發(fā)性能,降低故障恢復(fù)時(shí)間,提升擴(kuò)展能力,降低運(yùn)維復(fù)雜度。

具體到實(shí)際業(yè)務(wù)場(chǎng)景上看,RoCEv2 是足夠好的方案,而 InfiniBand 是特別好的方案。

業(yè)務(wù)性能方面:由于 InfiniBand 的端到端時(shí)延小于 RoCEv2,所以基于 InfiniBand 構(gòu)建的網(wǎng)絡(luò)在應(yīng)用層業(yè)務(wù)性能方面占優(yōu)。但 RoCEv2 的性能也能滿足絕大部分智算場(chǎng)景的業(yè)務(wù)性能要求。

業(yè)務(wù)規(guī)模方面: InfiniBand 能支持單集群萬卡 GPU 規(guī)模,且保證整體性能不下降,并且在業(yè)界有比較多的商用實(shí)踐案例。RoCEv2 網(wǎng)絡(luò)能在單集群支持千卡規(guī)模且整體網(wǎng)絡(luò)性能也無太大的降低。

業(yè)務(wù)運(yùn)維方面: InfiniBand 較 RoCEv2 更成熟,包括多租戶隔離能力,運(yùn)維診斷能力等。

業(yè)務(wù)成本方面: InfiniBand 的成本要高于 RoCEv2,主要是 InfiniBand 交換機(jī)的成本要比以太交換機(jī)高一些。

業(yè)務(wù)供應(yīng)商方面: InfiniBand 的供應(yīng)商主要以 NVIDIA 為主,RoCEv2 的供應(yīng)商較多。

責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4729

    瀏覽量

    128890
  • 顯存
    +關(guān)注

    關(guān)注

    0

    文章

    108

    瀏覽量

    13654
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3226

    瀏覽量

    48806
  • 網(wǎng)絡(luò)架構(gòu)

    關(guān)注

    1

    文章

    93

    瀏覽量

    12581
  • 智算中心
    +關(guān)注

    關(guān)注

    0

    文章

    68

    瀏覽量

    1691

原文標(biāo)題:智算中心網(wǎng)絡(luò)架構(gòu)選型及對(duì)比

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TVS管的選型原則

    TVS管的選型原則
    發(fā)表于 01-03 16:04

    ESD選型原則

    優(yōu)恩半導(dǎo)體ESD選型原則
    發(fā)表于 08-19 15:33

    元器件選型基本原則

    一、元器件選型基本原則:  a)普遍性原則:所選的元器件要是被廣泛使用驗(yàn)證過的,盡量少使用冷門、偏門芯片,減少開發(fā)風(fēng)險(xiǎn)?! )高性價(jià)比原則:在功能、性能、使用率都相近的情況下,盡量選
    發(fā)表于 04-26 15:42

    元器件的選型原則分享

    原則:盡量選擇以前老產(chǎn)品用過的元器件?!、資源節(jié)約原則:盡量用上元器件的全部功能和管腳。芯片的選型過程是對(duì)各個(gè)維度考量的折衷。
    發(fā)表于 10-29 08:46

    元器件如何選型選型原則分享

    一、元器件選型基本原則a、普遍性原則:所選的元器件要是被廣泛使用驗(yàn)證過的,盡量少使用冷門、偏門芯片,減少開發(fā)風(fēng)險(xiǎn)。 b、高性價(jià)比原則:在功能、性能、使用率都相近的情況下,盡量選擇價(jià)格比
    發(fā)表于 10-30 09:34

    MOS設(shè)計(jì)選型的基本原則

    6個(gè)MOS設(shè)計(jì)選型的基本原則
    發(fā)表于 03-18 07:04

    伺服電機(jī)選型有哪些原則?

    伺服電機(jī)選型有哪些原則
    發(fā)表于 09-27 07:58

    伺服電機(jī)的選型原則

    伺服電機(jī)的選型原則
    發(fā)表于 03-04 17:56 ?7次下載

    步進(jìn)電機(jī)選型原則你都知道嗎_步進(jìn)電機(jī)選型誤區(qū)盤點(diǎn)

    本文主要介紹步進(jìn)電機(jī)選型原則選型的誤區(qū)盤點(diǎn),首先介紹的是選型原則,其次介紹了步進(jìn)電機(jī)選擇的要素及選型
    發(fā)表于 04-25 15:22 ?4332次閱讀

    網(wǎng)絡(luò)架構(gòu)

    網(wǎng)絡(luò)的核心特征,是它通過力,實(shí)現(xiàn)了對(duì)力資源、網(wǎng)絡(luò)資源的全面接管,可以讓網(wǎng)絡(luò)實(shí)時(shí)感知用戶的
    的頭像 發(fā)表于 08-17 09:32 ?5333次閱讀

    電子元器件選型參數(shù)與原則

    電子元器件選型教程之電子元器件選型參數(shù)與原則(超實(shí)用) “萬丈高樓平地起”,打好基礎(chǔ)是做好一件事的關(guān)鍵。對(duì)于一塊主板來說,從設(shè)計(jì)到每一個(gè)元器件的選取都是決定產(chǎn)品的重要步驟。整理了一些電子元器件的
    的頭像 發(fā)表于 08-21 11:18 ?5529次閱讀
    電子元器件<b class='flag-5'>選型</b>參數(shù)與<b class='flag-5'>原則</b>

    百度智峰會(huì)精彩回顧:應(yīng)用驅(qū)動(dòng)的數(shù)據(jù)中心計(jì)算架構(gòu)演進(jìn)

    在今日舉行的“2022 百度云智峰會(huì)·智峰會(huì)”上, NVIDIA 解決方案工程中心高級(jí)技術(shù)經(jīng)理路川 分享了以“ 應(yīng)用驅(qū)動(dòng)的數(shù)據(jù)中心計(jì)算架構(gòu)演進(jìn) ”為題的演講,探討 GPU 數(shù)據(jù)
    的頭像 發(fā)表于 12-27 21:15 ?761次閱讀

    網(wǎng)絡(luò)的概念及整體架構(gòu)

    力服務(wù)層基于分布式微服務(wù)架構(gòu),支持應(yīng)用解構(gòu)成原子化功能 組件并組成算法庫(kù),由 API Gateway統(tǒng)一調(diào)度,實(shí)現(xiàn) 原子化算法按需實(shí)例 化。 力平臺(tái)層將力資源抽象描述形成算力能力
    發(fā)表于 05-25 16:47 ?3次下載
    <b class='flag-5'>算</b>力<b class='flag-5'>網(wǎng)絡(luò)</b>的概念及整體<b class='flag-5'>架構(gòu)</b>

    中心網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)及組網(wǎng)實(shí)踐案例

    服務(wù)器可以滿配 8 張 GPU 卡,并預(yù)留 8 個(gè) PCIe 網(wǎng)卡插槽。在多機(jī)組建 GPU 集群時(shí),兩個(gè) GPU 跨機(jī)互通的突發(fā)帶寬有可能會(huì)大于 50Gbps。因此,一般會(huì)給每個(gè) GPU 關(guān)聯(lián)一個(gè)至少 100Gbps 的網(wǎng)絡(luò)端口。
    發(fā)表于 10-20 11:13 ?6433次閱讀
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b><b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>架構(gòu)</b>設(shè)計(jì)及組網(wǎng)實(shí)踐案例

    貼片電感選型原則

    電子發(fā)燒友網(wǎng)站提供《貼片電感選型原則.docx》資料免費(fèi)下載
    發(fā)表于 12-28 09:15 ?6次下載
    RM新时代网站-首页