RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文詳解超算中的InfiniBand網(wǎng)絡(luò)、HDR與IB

智能計算芯世界 ? 來源:智能計算芯世界 ? 2024-04-16 10:18 ? 次閱讀

InfiniBand(IB)是由InfiniBand貿(mào)易協(xié)會(IBTA)建立的先進計算機網(wǎng)絡(luò)通信標(biāo)準(zhǔn)。它在高性能計算(HPC)中的廣泛采用歸功于它能夠為網(wǎng)絡(luò)傳輸提供卓越的吞吐量、帶寬和低延遲。

InfiniBand是計算系統(tǒng)內(nèi)部和外部的關(guān)鍵數(shù)據(jù)連接。無論是通過直接鏈路還是通過網(wǎng)絡(luò)交換機進行互連,InfiniBand都有助于實現(xiàn)服務(wù)器到存儲和存儲到存儲數(shù)據(jù)傳輸?shù)母咝阅芫W(wǎng)絡(luò)。InfiniBand網(wǎng)絡(luò)可擴展性允許通過交換網(wǎng)絡(luò)進行水平擴展,以滿足多樣化的網(wǎng)絡(luò)需求。隨著科學(xué)計算、人工智能AI)和云數(shù)據(jù)中心的快速發(fā)展,InfiniBand在端到端高性能網(wǎng)絡(luò)的HPC超級計算應(yīng)用中越來越受到青睞。

InfiniBand在超級計算機和HPC數(shù)據(jù)中心中的普及

2015年6月,InfiniBand在全球最強大的超級計算機500強名單中占據(jù)了驚人的51.8%,同比增長了15.8%。

c2027762-fb8e-11ee-a297-92fbcf53809c.png

在2022年6月的Top500榜單中,InfiniBand網(wǎng)絡(luò)再次占據(jù)了超級計算機互連設(shè)備的領(lǐng)先地位。與之前的榜單相比,InfiniBand網(wǎng)絡(luò)展現(xiàn)了在數(shù)量和性能方面的優(yōu)勢。主要趨勢包括:

基于InfiniBand的超級計算機以189個系統(tǒng)數(shù)量遙遙領(lǐng)先。

基于InfiniBand的超級計算機以59臺設(shè)備數(shù)量在前100個系統(tǒng)中占據(jù)主導(dǎo)地位。

英偉達(NVIDIA)GPU和網(wǎng)絡(luò)產(chǎn)品,尤其是邁絡(luò)思(Mellanox)HDR Quantum QM87xx交換機和BlueField DPU,在超過三分之二的超級計算機中占據(jù)了主導(dǎo)互連的地位。

除了傳統(tǒng)的HPC應(yīng)用之外,InfiniBand網(wǎng)絡(luò)還廣泛用于企業(yè)級數(shù)據(jù)中心和公有云。例如,領(lǐng)先的企業(yè)超級計算機英偉達(NVIDIA)Selene和Microsoft的Azure公有云利用InfiniBand網(wǎng)絡(luò)提供卓越的業(yè)務(wù)性能。

在2023年11月的最新Top500榜單中,InfiniBand保持著領(lǐng)先位置,突顯了其持續(xù)增長的趨勢。InfiniBand在Top500排行榜中備受關(guān)注,主要是因為它具有卓越的性能優(yōu)勢。

InfiniBand網(wǎng)絡(luò)的優(yōu)勢

InfiniBand技術(shù)被認為是面向未來的高性能計算(HPC)標(biāo)準(zhǔn),在超級計算機、存儲甚至LAN網(wǎng)絡(luò)的HPC連接方面享有很高的聲譽。InfiniBand技術(shù)擁有眾多優(yōu)勢,包括簡化管理、高帶寬、完全CPU卸載、超低延遲、集群可擴展性和靈活性、服務(wù)質(zhì)量(QoS)、SHARP支持等。

輕松的網(wǎng)絡(luò)管理

InfiniBand代表了專為軟件定義網(wǎng)絡(luò)(SDN)打造的開創(chuàng)性網(wǎng)絡(luò)架構(gòu),并由子網(wǎng)管理器進行監(jiān)督。子網(wǎng)管理器負責(zé)配置本地子網(wǎng),確保網(wǎng)絡(luò)無縫運行。為了管理流量,所有通道適配器和交換機都必須實現(xiàn)與子網(wǎng)管理器協(xié)作的子網(wǎng)管理代理(SMA)。在建立或切斷鏈接時,每個子網(wǎng)至少需要一個子網(wǎng)管理器進行初始設(shè)置和重新配置。仲裁機制用于指定主子網(wǎng)管理器,其他子網(wǎng)管理器在備用模式下運行。在備用模式下,每個子網(wǎng)管理器都會保留備份拓撲信息并驗證子網(wǎng)的運行狀態(tài)。如果主子網(wǎng)管理器發(fā)生故障,備用子網(wǎng)管理器將接管控制權(quán),從而保證子網(wǎng)管理不間斷。

c1da6eb6-fb8e-11ee-a297-92fbcf53809c.png

更高的帶寬

自從InfiniBand問世以來,其網(wǎng)絡(luò)數(shù)據(jù)速率一直超過以太網(wǎng),主要是因為它在高性能計算中的服務(wù)器互連中得到了廣泛應(yīng)用,滿足了對更高帶寬的需求。在2014年早期,流行的InfiniBand速率是40Gb/s QDR和56Gb/s FDR。目前,更高的InfiniBand速率,例如100Gb/s EDR和200Gb/s HDR,已被全球眾多超級計算機廣泛采用。最新的OpenAI工具ChatGPT的推出促使企業(yè)考慮在其高性能計算(HPC)系統(tǒng)中部署具有400Gb/s NDR數(shù)據(jù)速率的先進InfiniBand網(wǎng)絡(luò)產(chǎn)品,包括InfiniBand NDR交換機和光纜。

每種InfiniBand速率類型的縮寫如下:

SDR-單數(shù)據(jù)速率,8Gbps。

DDR-雙倍數(shù)據(jù)速率,10Gbps/16Gbps。

QDR-四倍數(shù)據(jù)速率,40Gbps/32Gbps。

FDR-十四倍數(shù)據(jù)率,56Gbps。

EDR-增強型數(shù)據(jù)速率,100Gbps。

HDR-高動態(tài)范圍,200Gbps。

NDR-下一代數(shù)據(jù)速率,400Gbps。

XDR-極致數(shù)據(jù)速率,800Gbps。

高效的CPU卸載

CPU卸載是增強計算性能的一項關(guān)鍵技術(shù),而InfiniBand網(wǎng)絡(luò)架構(gòu)通過以下方式以最少的CPU資源促進數(shù)據(jù)傳輸:

整個傳輸層協(xié)議棧的硬件卸載。

內(nèi)核繞行,零拷貝。

RDMA(遠程直接內(nèi)存訪問),一種將數(shù)據(jù)從一臺服務(wù)器的內(nèi)存直接寫入另一臺服務(wù)器的內(nèi)存的過程,無需CPU參與。

利用GPUDirect技術(shù)是另一種選擇,它允許直接訪問GPU內(nèi)存中的數(shù)據(jù),并加速數(shù)據(jù)從GPU內(nèi)存?zhèn)鬏數(shù)狡渌?jié)點。此功能可提高人工智能(AI)、深度學(xué)習(xí)訓(xùn)練、機器學(xué)習(xí)等計算應(yīng)用程序的性能。

低延遲

InfiniBand和以太網(wǎng)之間的延遲對比可以分為兩個主要組成部分。首先,在交換機層面上,以太網(wǎng)交換機在網(wǎng)絡(luò)傳輸模型中作為第2層設(shè)備運行,通常采用MAC表查找尋址和存儲轉(zhuǎn)發(fā)機制(某些產(chǎn)品可能采用InfiniBand的直通技術(shù))。以太網(wǎng)交換機中,IP、MPLS、QinQ和其他處理等復(fù)雜服務(wù)會導(dǎo)致處理持續(xù)時間延長,延遲測量結(jié)果通常以微秒為單位(直通支持可能超過200ns)。相比之下,InfiniBand交換機簡化了第2層處理,僅依靠16位LID轉(zhuǎn)發(fā)路徑信息。此外,采用直通技術(shù)可將轉(zhuǎn)發(fā)延遲顯著降低到100ns以下,已經(jīng)超過以太網(wǎng)交換機的速率。

如前所述,在網(wǎng)卡(NIC)層面,RDMA技術(shù)消除了網(wǎng)卡遍歷CPU進行消息轉(zhuǎn)發(fā)的需要。這種加速盡可能地減少了封裝和解封裝期間消息處理的延遲。通常,InfiniBand網(wǎng)卡的發(fā)送和接收延遲(寫入、發(fā)送)為600ns,而使用以太網(wǎng)的基于以太網(wǎng)TCP UDP應(yīng)用程序的發(fā)送和接收延遲通常徘徊在10us左右。這導(dǎo)致InfiniBand和以太網(wǎng)之間的延遲差距超過10倍。

c23c9622-fb8e-11ee-a297-92fbcf53809c.png

可擴展性和靈活性

InfiniBand網(wǎng)絡(luò)的一個重要優(yōu)勢在于其能夠在單個子網(wǎng)中部署多達48,000個節(jié)點,形成一個龐大的第二層網(wǎng)絡(luò)。此外,InfiniBand網(wǎng)絡(luò)避開了ARP等廣播機制,從而避免了廣播風(fēng)暴和相關(guān)的額外帶寬浪費。多個InfiniBand子網(wǎng)的連接可通過路由器和交換機實現(xiàn),展示了該技術(shù)在支持各種網(wǎng)絡(luò)拓撲方面的多功能性。

c26584d8-fb8e-11ee-a297-92fbcf53809c.png

對于較小規(guī)模的情況,建議使用2層胖樹拓撲結(jié)構(gòu),而對于較大規(guī)模的情況,可以選擇3層胖樹網(wǎng)絡(luò)拓撲結(jié)構(gòu)。在特定規(guī)模之上,可以采用經(jīng)濟高效的Dragonfly拓撲結(jié)構(gòu)來進一步提升可擴展性。

服務(wù)質(zhì)量(QoS)支持

在管理InfiniBand網(wǎng)絡(luò)時,如果各種應(yīng)用程序共存于同一子網(wǎng)上,且具有不同的優(yōu)先級要求,那么提供服務(wù)質(zhì)量(QoS)就成為一個關(guān)鍵因素。QoS表示為不同的應(yīng)用程序、用戶或數(shù)據(jù)流提供不同優(yōu)先級服務(wù)的能力。在InfiniBand環(huán)境中,可以將高優(yōu)先級應(yīng)用程序分配給特定的端口隊列,從而確保這些隊列中的消息得到優(yōu)先處理。

InfiniBand通過實施虛擬通道(VL)實現(xiàn)QoS。虛擬通道是共享公共物理鏈路的離散邏輯通信鏈路。每個VL能夠支持多達15個標(biāo)準(zhǔn)虛擬通道以及一個指定為VL15的管理通道。這種方法可以根據(jù)優(yōu)先級對流量進行有效隔離,從而允許在InfiniBand網(wǎng)絡(luò)內(nèi)優(yōu)先傳輸高優(yōu)先級應(yīng)用程序。

穩(wěn)定性和彈性

在理想情況下,網(wǎng)絡(luò)運行穩(wěn)定且沒有故障。然而,現(xiàn)實情況中長期運行的網(wǎng)絡(luò)偶爾會出現(xiàn)故障。為了解決這些挑戰(zhàn)并確保快速恢復(fù),InfiniBand采用了一種稱為自我修復(fù)網(wǎng)絡(luò)的機制,這是一種集成到InfiniBand交換機中的硬件功能。

NVIDIA Mellanox InfiniBand解決方案包括InfiniBand交換機、網(wǎng)卡和邁絡(luò)思(Mellanox)線纜等硬件組件,利用自我修復(fù)網(wǎng)絡(luò)實現(xiàn)從鏈路故障中快速恢復(fù)。這種基于硬件的功能能夠在驚人的1ms內(nèi)恢復(fù)鏈路故障,比正?;謴?fù)時間快了5000倍。

c29e96d8-fb8e-11ee-a297-92fbcf53809c.png

優(yōu)化的負載均衡

提高網(wǎng)絡(luò)利用率是高性能數(shù)據(jù)中心的一項關(guān)鍵要求。在InfiniBand網(wǎng)絡(luò)中,一種有效的實現(xiàn)方法是負載均衡。

負載均衡是一種路由策略,可以在多個可用端口之間分配流量。其中自適應(yīng)路由是一個關(guān)鍵特性,可以確保流量在交換機端口之間均勻分布。這個特性在交換機上得到硬件支持,并由自適應(yīng)路由管理器進行管理。

當(dāng)自適應(yīng)路由處于活動狀態(tài)時,交換機上的隊列管理器將監(jiān)控所有組出口端口上的流量,均衡每個隊列上的負載,并將流量引導(dǎo)至未充分利用的端口。自適應(yīng)路由可動態(tài)平衡負載,防止網(wǎng)絡(luò)擁塞并優(yōu)化網(wǎng)絡(luò)帶寬利用率。

網(wǎng)絡(luò)計算技術(shù)-SHARP

InfiniBand交換機還具有SHARP網(wǎng)絡(luò)計算技術(shù),該技術(shù)代表可擴展的分層聚合和縮減協(xié)議。SHARP是集成到交換機硬件中的軟件,是一個集中管理的軟件包。

通過將聚合通信任務(wù)從CPU和GPU卸載到交換機,SHARP可以優(yōu)化這些通信。它可以防止節(jié)點之間的冗余數(shù)據(jù)傳輸,從而減少必須遍歷網(wǎng)絡(luò)的數(shù)據(jù)量。因此,SHARP顯著提高了加速計算的性能,尤其是在AI和機器學(xué)習(xí)等MPI應(yīng)用中。

c2ee67ee-fb8e-11ee-a297-92fbcf53809c.png

多樣化的網(wǎng)絡(luò)拓撲

InfiniBand支持各種網(wǎng)絡(luò)拓撲,如胖樹、Torus、Dragonfly+、Hypercube和HyperX,滿足網(wǎng)絡(luò)擴展、降低總擁有成本(TCO)、最小化延遲和延長傳輸距離等不同需求。

c31a5ffc-fb8e-11ee-a297-92fbcf53809c.png

InfiniBand利用其無與倫比的技術(shù)優(yōu)勢,顯著簡化了高性能網(wǎng)絡(luò)架構(gòu),減輕了多級架構(gòu)層次結(jié)構(gòu)帶來的延遲。此功能為無縫升級關(guān)鍵計算節(jié)點的訪問帶寬提供了強大的支持。InfiniBand網(wǎng)絡(luò)因其高帶寬、低延遲以及與以太網(wǎng)的兼容性,越來越多地在各種場景中得到應(yīng)用。

InfiniBand HDR產(chǎn)品解決方案簡介

隨著客戶端需求的不斷增長,100Gb/s EDR正逐漸退出市場。目前NDR的數(shù)據(jù)速率被認為過高,而HDR憑借其提供HDR100(100G)和HDR200(200G)的靈活性獲得廣泛采用。

InfiniBand HDR交換機

英偉達(NVIDIA)提供兩種類型的InfiniBand HDR交換機。第一種是HDR CS8500模塊化機箱交換機,這是一款29U交換機,提供多達800個HDR 200Gb/s端口。每個200G端口支持拆分為2X100G,最多支持1600個HDR100(100Gb/s)端口。第二種是QM87xx系列固定交換機,1U面板集成了40個200G QSFP56端口。這些端口可以拆分為多達80個HDR 100G端口,以連接到100G HDR網(wǎng)卡。同時,每個端口還向后支持EDR速率以連接100G EDR網(wǎng)卡卡。需要注意的是,單個200G HDR端口只能降速到100G連接EDR網(wǎng)卡,不能拆分成2X100G連接兩個EDR網(wǎng)卡。

200G HDR QM87xx交換機有兩種型號:MQM8700-HS2F和MQM8790-HS2F。這兩種型號之間的唯一區(qū)別在于管理方法。QM8700交換機具有支持帶外管理的管理端口,而QM8790交換機需要英偉達(NVIDIA)UFMR平臺進行管理。

對于QM8700和QM8790,每種交換機都提供兩種氣流選項。其中,MQM8790-HS2F交換機具有P2C(電源到線纜)氣流,可通過風(fēng)扇模塊上的藍色標(biāo)記來識別。如果忘記了顏色標(biāo)記,也可以通過將手放在開關(guān)的進氣口和出風(fēng)口前面來確定氣流方向。MQM8790-HS2R交換機采用C2P(線纜到電源)氣流,風(fēng)扇模塊上有紅色標(biāo)記。QM87xx系列交換機型號詳情如下:

c33de350-fb8e-11ee-a297-92fbcf53809c.png

CQM8700和QM8790交換機通常用于兩種連接應(yīng)用。一種與200G HDR網(wǎng)卡連接,從而實現(xiàn)使用200G到200GAOC/DAC線纜的直接連接。另一種常見的應(yīng)用是連接100G HDR網(wǎng)卡,需要使用200G轉(zhuǎn)2X100G線纜將交換機的物理200G(4X50G)QSFP56端口拆分為兩個虛擬100G(2X50G)端口。拆分后,端口符號從x/y轉(zhuǎn)換為x/Y/z,其中“x/Y”表示拆分前端口的原始符號,“z”表示單通道端口的編號(1,2),每個子物理端口被視為一個單獨的端口。

c34d28ce-fb8e-11ee-a297-92fbcf53809c.png

InfiniBand HDR網(wǎng)卡(NIC)

與HDR交換機相比,HDR網(wǎng)卡(NIC)種類繁多。關(guān)于速率,有兩種選擇:HDR100和HDR。

HDR100網(wǎng)卡支持100Gb/s的傳輸速率,兩個HDR100端口可以使用200G HDR轉(zhuǎn)2X100G HDR100線纜連接到HDR交換機。與100G EDR網(wǎng)卡相比,HDR100網(wǎng)卡的100G端口可以同時支持4X25G NRZ傳輸和2X50G PAM4傳輸。

200G HDR網(wǎng)卡支持200G的傳輸速率,可以使用200G直連線纜直接連接到交換機。

除了兩種接口數(shù)據(jù)速率外,每種速率的網(wǎng)卡都可以根據(jù)業(yè)務(wù)需求選擇單端口、雙端口和PCIe類型。常用的IB HDR網(wǎng)卡型號如下:

c361e5c0-fb8e-11ee-a297-92fbcf53809c.png

HDR InfiniBand網(wǎng)絡(luò)架構(gòu)簡單明了,同時提供了多種硬件選項。對于100Gb/s速率,有100G EDR和100G HDR100解決方案。200Gb/s速率包括HDR和200G NDR200選項。各種應(yīng)用中使用的交換機、網(wǎng)卡和附件存在顯著差異。InfiniBand高性能HDR和EDR交換機、智能網(wǎng)卡、納多德(NADDOD)/邁絡(luò)思(Mellanox)/思科(Cisco)/惠普(HPE)光纜&高速線纜&光模塊產(chǎn)品組合解決方案,為數(shù)據(jù)中心、高性能計算、邊緣計算、人工智能等應(yīng)用場景提供更具優(yōu)勢和價值的光網(wǎng)絡(luò)產(chǎn)品和綜合解決方案。這大大增強了客戶的業(yè)務(wù)加速能力,成本低且性能優(yōu)異。

InfiniBand與以太網(wǎng)、光纖通道和Omni-Path有什么區(qū)別

InfiniBand與以太網(wǎng)

與眾不同的技術(shù):InfiniBand和以太網(wǎng)是數(shù)據(jù)傳輸?shù)年P(guān)鍵通信技術(shù),每種技術(shù)都適用于不同的應(yīng)用。

歷史速率:InfiniBand的歷史數(shù)據(jù)傳輸速率從InfiniBand SDR 10Gb/s開始,超過了千兆以太網(wǎng)的初始速率。

當(dāng)前主導(dǎo)地位:InfiniBand已經(jīng)發(fā)展成為主導(dǎo)地位,網(wǎng)絡(luò)速率達到了100G EDR或200G HDR,并且正在朝著更快的速率發(fā)展,比如400G NDR和800G XDR。

嚴格的延遲要求:InfiniBand遵守嚴格的延遲要求,接近零延遲。

理想應(yīng)用:InfiniBand在需要快速和精確數(shù)據(jù)處理的應(yīng)用中表現(xiàn)出色,在超級計算中得到廣泛應(yīng)用,適用于大容量數(shù)據(jù)分析、機器學(xué)習(xí)、深度學(xué)習(xí)訓(xùn)練、推理、對話式AI、預(yù)測和預(yù)測等任務(wù)。

以太網(wǎng)的作用:盡管速率相對較慢,以太網(wǎng)以其高可靠性而聞名,非常適合需要穩(wěn)定可靠數(shù)據(jù)傳輸?shù)木钟蚓W(wǎng)應(yīng)用。

速率和可靠性的差異:這些技術(shù)之間的主要差異在于它們的速率和可靠性。在高性能計算網(wǎng)絡(luò)中,InfiniBand優(yōu)先用于需要快速數(shù)據(jù)傳輸?shù)膽?yīng)用程序,而以太網(wǎng)的可靠性使其更適合在LAN網(wǎng)絡(luò)中進行一致的數(shù)據(jù)傳輸。

InfiniBand與光纖通道

存儲區(qū)域網(wǎng)絡(luò)(SAN)中的光纖通道:光纖通道主要用于存儲區(qū)域網(wǎng)絡(luò)(SAN),專門用于數(shù)據(jù)中心環(huán)境中的服務(wù)器、存儲設(shè)備或客戶端節(jié)點之間的高速數(shù)據(jù)傳輸。

安全通道技術(shù):光纖通道采用專用的安全通道技術(shù),確保快速可靠的數(shù)據(jù)傳輸。

存儲解決方案的多功能性:光纖通道是一種可靠且可擴展的技術(shù),廣泛用于企業(yè)存儲解決方案。

區(qū)分數(shù)據(jù)傳輸類型:InfiniBand和光纖通道之間的主要區(qū)別在于它們通常支持的數(shù)據(jù)傳輸類型。

更好選擇:在局域網(wǎng)環(huán)境中,以太網(wǎng)被用于客戶端和服務(wù)器之間的連接,而光纖通道在存儲區(qū)域網(wǎng)絡(luò)(SAN)中的存儲應(yīng)用方面表現(xiàn)出色。與此同時,InfiniBand作為一種創(chuàng)新技術(shù),用于連接CPU和內(nèi)存組件,支持集群和與I/O控制器的連接。

InfiniBand與Omni-Path

數(shù)據(jù)中心網(wǎng)絡(luò)的演變:盡管英偉達(NVIDIA)推出了InfiniBand 400G NDR解決方案,但一些用戶仍在繼續(xù)使用100G EDR解決方案。Omni-Path和InfiniBand都是以100Gb/s速率運行的高性能數(shù)據(jù)中心網(wǎng)絡(luò)的常見選擇。

網(wǎng)絡(luò)結(jié)構(gòu)區(qū)別:雖然這兩種技術(shù)提供相似的性能,但Omni-Path和InfiniBand的網(wǎng)絡(luò)結(jié)構(gòu)有很大不同。舉例來說,使用InfiniBand的400節(jié)點集群只需要15臺英偉達(NVIDIA)Quantum 8000系列交換機和特定線纜,而Omni-Path需要24臺交換機和大量有源光纜。

InfiniBand EDR解決方案的優(yōu)勢:與Omni-Path相比,InfiniBand EDR解決方案在設(shè)備成本、運營和維護成本以及總體功耗方面具有顯著優(yōu)勢。這使得InfiniBand成為更環(huán)保的選擇。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    40

    文章

    5419

    瀏覽量

    171594
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10854

    瀏覽量

    211573
  • 交換機
    +關(guān)注

    關(guān)注

    21

    文章

    2637

    瀏覽量

    99528
  • 超級計算機
    +關(guān)注

    關(guān)注

    2

    文章

    461

    瀏覽量

    41942
  • InfiniBand
    +關(guān)注

    關(guān)注

    1

    文章

    29

    瀏覽量

    9192

原文標(biāo)題:探索InfiniBand網(wǎng)絡(luò)、HDR和IB在超算中應(yīng)用的意義

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中心網(wǎng)絡(luò)架構(gòu)選型原則

    ? 通常,在在AI智系統(tǒng),個模型從生產(chǎn)到應(yīng)用,般包括離線訓(xùn)練和推理部署兩大階段;本文選自“ 智中心
    的頭像 發(fā)表于 08-07 09:13 ?2818次閱讀

    InfiniBand 連接現(xiàn)在和未來

    互連、服務(wù)器與存儲互連、存儲網(wǎng)絡(luò)在內(nèi)的神經(jīng)網(wǎng)絡(luò)。InfiniBand技術(shù)是種開放標(biāo)準(zhǔn)的高帶寬、高速網(wǎng)絡(luò)互聯(lián)技術(shù)。目前,它的發(fā)展速度非???,
    發(fā)表于 11-13 21:57

    InfiniBand,InfiniBand是什么意思

    InfiniBand,InfiniBand是什么意思 InfiniBand架構(gòu)是種支持多并發(fā)鏈接的“轉(zhuǎn)換線纜”技術(shù),在這種技術(shù),每種鏈
    發(fā)表于 04-10 11:34 ?1124次閱讀

    InfiniBand的SMI/O模塊的電源管理解決方案

    摘要 InfiniBand,個可擴展的,模塊化的,基于通道、交換架構(gòu),定義為服務(wù)器與服務(wù)器的連接以及存儲和網(wǎng)絡(luò)設(shè)備的連接。因為適當(dāng)?shù)碾娫垂芾硎菍崿F(xiàn)質(zhì)量的必要條件,本報告介紹高功率和低功耗應(yīng)用的直接
    發(fā)表于 06-26 15:40 ?9次下載
    <b class='flag-5'>InfiniBand</b>的SMI/O模塊的電源管理解決方案

    InfiniBand網(wǎng)絡(luò)增量學(xué)習(xí)的故障診斷方法

    針對大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)如何有效監(jiān)控網(wǎng)絡(luò)異常事件、發(fā)現(xiàn)網(wǎng)絡(luò)性能瓶頸和潛在故障點等問題,在深入分析InfiniBand
    發(fā)表于 12-28 17:27 ?0次下載

    NVIDIA LinkX 助力IB網(wǎng)絡(luò)高速穩(wěn)定與可靠傳輸

    InfiniBand(直譯為“無限帶寬”技術(shù),縮寫為IB)是個用于高性能計算的計算機網(wǎng)絡(luò)通信標(biāo)準(zhǔn),是世界領(lǐng)先的超級計算機的互連首選?;贜VIDIA
    的頭像 發(fā)表于 07-27 17:41 ?4647次閱讀
    NVIDIA LinkX 助力<b class='flag-5'>IB</b><b class='flag-5'>網(wǎng)絡(luò)</b>高速穩(wěn)定與可靠傳輸

    基于NVIDIA QM8700/8790交換機與HDR網(wǎng)卡的InfiniBand高性能網(wǎng)絡(luò)解決方案

    InfiniBand (IB) 是個計算機網(wǎng)絡(luò)通信標(biāo)準(zhǔn),在高性能計算(HPC)領(lǐng)域有廣泛的應(yīng)用,可以提供高吞吐帶寬和超低的網(wǎng)絡(luò)傳輸時延。
    的頭像 發(fā)表于 11-03 17:57 ?3703次閱讀
    基于NVIDIA QM8700/8790交換機與<b class='flag-5'>HDR</b>網(wǎng)卡的<b class='flag-5'>InfiniBand</b>高性能<b class='flag-5'>網(wǎng)絡(luò)</b>解決方案

    關(guān)于InfiniBand網(wǎng)絡(luò)相關(guān)內(nèi)容簡介!

    InfiniBand(直譯為 “無限帶寬” 技術(shù),縮寫為IB)是個為大規(guī)模、易擴展機群而設(shè)計的網(wǎng)絡(luò)通信技術(shù)??捎糜谟嬎銠C內(nèi)部或外部的數(shù)據(jù)互連,服務(wù)器與存儲系統(tǒng)之間的直接或交換互連,以
    的頭像 發(fā)表于 03-21 10:07 ?1309次閱讀
    關(guān)于<b class='flag-5'>InfiniBand</b><b class='flag-5'>網(wǎng)絡(luò)</b>相關(guān)內(nèi)容簡介!

    InfiniBand AOC有源光纜簡介

    InfiniBand(直譯為“無限帶寬”技術(shù),縮寫為IB)是個用于高性能計算的計算機網(wǎng)絡(luò)通信標(biāo)準(zhǔn),它具有極高的吞吐量和極低的延遲,用于計算機與計算機之間的數(shù)據(jù)互連。
    的頭像 發(fā)表于 10-26 10:54 ?615次閱讀
    <b class='flag-5'>InfiniBand</b> AOC有源光纜簡介

    態(tài)路小課堂丨InfiniBand與以太網(wǎng):AI時代的網(wǎng)絡(luò)差異

    今年以來,InfiniBand因其在AI領(lǐng)域中的應(yīng)用而備受矚目。 InfiniBand介紹 InfiniBand (也稱為“無限帶寬”,縮寫為IB)是
    的頭像 發(fā)表于 11-29 18:16 ?929次閱讀
    態(tài)路小課堂丨<b class='flag-5'>InfiniBand</b>與以太網(wǎng):AI時代的<b class='flag-5'>網(wǎng)絡(luò)</b>差異

    英偉達三大AI法寶:CUDA、Nvlink、InfiniBand

    以太網(wǎng)是種廣泛使用的網(wǎng)絡(luò)協(xié)議,但其傳輸速率和延遲無法滿足大型模型訓(xùn)練的需求。相比之下,端到端IBInfiniBand網(wǎng)絡(luò)
    發(fā)表于 12-05 11:02 ?5237次閱讀
    英偉達三大AI法寶:CUDA、Nvlink、<b class='flag-5'>InfiniBand</b>

    200G InfiniBand HDR線纜和光模塊:為高速網(wǎng)絡(luò)應(yīng)用帶來新的突破

    InfiniBand作為目前發(fā)展最快的高速互連網(wǎng)絡(luò)技術(shù)之,具有高帶寬、低延遲和易擴展的特點。根據(jù)數(shù)據(jù)傳輸速率的不同可分為SDR(10G)、DDR(25G)、QDR(40G)、FDR(56G
    的頭像 發(fā)表于 12-14 16:27 ?855次閱讀
    200G <b class='flag-5'>InfiniBand</b> <b class='flag-5'>HDR</b>線纜和光模塊:為高速<b class='flag-5'>網(wǎng)絡(luò)</b>應(yīng)用帶來新的突破

    介紹種高性能計算和數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu):InfiniBandIB

    InfiniBandIB)是種高性能計算和數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),其設(shè)計目標(biāo)是通過提供低延遲、高帶寬以及可擴展性來滿足大規(guī)模計算和數(shù)據(jù)傳輸?shù)男枨?。讓我們深入了?/div>
    的頭像 發(fā)表于 03-13 17:14 ?1535次閱讀

    深入探索InfiniBand網(wǎng)絡(luò)、HDRIB技術(shù)

    InfiniBand和以太網(wǎng)之間的延遲對比可以分為兩個主要組成部分。首先,在交換機層面上,以太網(wǎng)交換機在網(wǎng)絡(luò)傳輸模型作為第2層設(shè)備運行,通常采用MAC表查找尋址和存儲轉(zhuǎn)發(fā)機制(某些產(chǎn)品可能采用
    發(fā)表于 04-19 11:01 ?1600次閱讀
    深入探索<b class='flag-5'>InfiniBand</b><b class='flag-5'>網(wǎng)絡(luò)</b>、<b class='flag-5'>HDR</b>與<b class='flag-5'>IB</b>技術(shù)

    端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    的,這需要大量的計算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。端到端InfiniBandIB網(wǎng)絡(luò)作為高性能計算和AI模型訓(xùn)練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)
    的頭像 發(fā)表于 10-23 11:26 ?379次閱讀
    端到端<b class='flag-5'>InfiniBand</b><b class='flag-5'>網(wǎng)絡(luò)</b>解決LLM訓(xùn)練瓶頸
    RM新时代网站-首页