數(shù)據(jù)中心網(wǎng)絡(luò)連接數(shù)據(jù)中心內(nèi)部通用計(jì)算、存儲(chǔ)和高性能計(jì)算資源,服務(wù)器間的所有數(shù)據(jù)交互都要經(jīng)由網(wǎng)絡(luò)轉(zhuǎn)發(fā)。當(dāng)前,IT架構(gòu)、計(jì)算和存儲(chǔ)技術(shù)都在發(fā)生重大變革,驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)從原來的多張網(wǎng)絡(luò)獨(dú)立部署向全以太化演進(jìn)。而傳統(tǒng)的以太網(wǎng)無法滿足存儲(chǔ)和高性能計(jì)算的業(yè)務(wù)需求。超融合數(shù)據(jù)中心網(wǎng)絡(luò)以全無損以太網(wǎng)來構(gòu)建新型的數(shù)據(jù)中心網(wǎng)絡(luò),使通用計(jì)算、存儲(chǔ)、高性能計(jì)算三大種類業(yè)務(wù)均能融合部署在一張以太網(wǎng)上,同時(shí)實(shí)現(xiàn)全生命周期自動(dòng)化和全網(wǎng)智能運(yùn)維。
為什么會(huì)產(chǎn)生超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)?
現(xiàn)狀:數(shù)據(jù)中心內(nèi)有三張網(wǎng)絡(luò)
數(shù)據(jù)中心內(nèi)部有三類典型的業(yè)務(wù):通用計(jì)算(一般業(yè)務(wù))、高性能計(jì)算(HPC)業(yè)務(wù)和存儲(chǔ)業(yè)務(wù)。每類業(yè)務(wù)對(duì)于網(wǎng)絡(luò)有不同的訴求,比如:HPC業(yè)務(wù)的多節(jié)點(diǎn)進(jìn)程間通信,對(duì)于時(shí)延要求非常高;而存儲(chǔ)業(yè)務(wù)對(duì)可靠性訴求非常高,要求網(wǎng)絡(luò)0丟包;通用計(jì)算業(yè)務(wù)規(guī)模大,擴(kuò)展性強(qiáng),要求網(wǎng)絡(luò)低成本、易擴(kuò)展。
由于上述業(yè)務(wù)對(duì)網(wǎng)絡(luò)的要求不同,當(dāng)前數(shù)據(jù)中心內(nèi)部一般會(huì)部署三張不同的網(wǎng)絡(luò):
由IB(InfiniBand)網(wǎng)絡(luò)來承載HPC業(yè)務(wù)
由FC(Fiber Channel)網(wǎng)絡(luò)來承載存儲(chǔ)網(wǎng)絡(luò)
由以太網(wǎng)來承載通用計(jì)算業(yè)務(wù)
數(shù)據(jù)中心內(nèi)的三張網(wǎng)絡(luò)
AI時(shí)代的變化1:存儲(chǔ)和計(jì)算能力大幅提升,網(wǎng)絡(luò)成為瓶頸
企業(yè)數(shù)字化過程中將產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)正在成為企業(yè)核心資產(chǎn)。通過AI技術(shù)從海量數(shù)據(jù)中挖掘價(jià)值成為AI時(shí)代不變的主題。通過AI機(jī)器學(xué)習(xí)利用各種數(shù)據(jù)輔助實(shí)時(shí)決策,已經(jīng)成為企業(yè)經(jīng)營的核心任務(wù)之一。與云計(jì)算時(shí)代相比,AI時(shí)代企業(yè)數(shù)據(jù)中心的使命正在從聚焦業(yè)務(wù)快速發(fā)放向聚焦數(shù)據(jù)高效處理轉(zhuǎn)變。
數(shù)據(jù)中心正在從云計(jì)算時(shí)代走向AI時(shí)代 為了提升海量AI數(shù)據(jù)處理的效率,存儲(chǔ)和計(jì)算領(lǐng)域正在發(fā)生革命性的變化:
存儲(chǔ)介質(zhì)從機(jī)械硬盤(HDD)演進(jìn)到閃存盤(SSD),來滿足數(shù)據(jù)的實(shí)時(shí)存取要求,存儲(chǔ)介質(zhì)時(shí)延降低了不止100倍。
為了滿足數(shù)據(jù)高效計(jì)算的訴求,業(yè)界已經(jīng)在采用GPU甚至專用的AI芯片,處理數(shù)據(jù)的能力提升了100倍以上。
隨著存儲(chǔ)介質(zhì)和計(jì)算能力的大幅提升,在高性能的數(shù)據(jù)中心集群系統(tǒng)中,當(dāng)前網(wǎng)絡(luò)通信的時(shí)延成為應(yīng)用整體性能進(jìn)一步提升的瓶頸,通信時(shí)延在整個(gè)端到端時(shí)延中占比從10%上升到60%以上,也就是說,寶貴的存儲(chǔ)或計(jì)算資源有一半以上的時(shí)間是在等待網(wǎng)絡(luò)通信。
總的來說,隨著存儲(chǔ)介質(zhì)和計(jì)算處理器的演進(jìn),網(wǎng)絡(luò)的低效阻礙了計(jì)算和存儲(chǔ)性能的發(fā)揮;只有將通信時(shí)長降低到與計(jì)算和存儲(chǔ)接近,才能消除木桶原理中的“短板”,提升應(yīng)用整體的性能。
AI時(shí)代的變化2:RDMA替代TCP/IP成為大勢(shì)所趨,但RDMA的網(wǎng)絡(luò)承載方案存在不足
如下圖所示,在服務(wù)器內(nèi)部,由于TCP協(xié)議棧在接收/發(fā)送報(bào)文,以及對(duì)報(bào)文進(jìn)行內(nèi)部處理時(shí),會(huì)產(chǎn)生數(shù)十微秒的固定時(shí)延,這使得在AI數(shù)據(jù)運(yùn)算和SSD分布式存儲(chǔ)這些微秒級(jí)系統(tǒng)中,TCP協(xié)議棧時(shí)延成為最明顯的瓶頸。另外,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大和帶寬的提高,寶貴的CPU資源越來越地多被用于傳輸數(shù)據(jù)。
RDMA(Remote Direct Memory Access)允許應(yīng)用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫,將服務(wù)器內(nèi)的數(shù)據(jù)傳輸時(shí)延降低到接近1us。同時(shí),RDMA允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大減少了CPU的負(fù)擔(dān)。
RDMA與TCP的對(duì)比
根據(jù)業(yè)務(wù)的測試數(shù)據(jù), 采用RDMA可以將計(jì)算的效率同比提升6~8倍;而服務(wù)器內(nèi)1us的傳輸時(shí)延也使得SSD分布式存儲(chǔ)的時(shí)延從ms級(jí)降低到us級(jí)成為可能,所以在最新的NVMe(Non-Volatile Memory express)接口協(xié)議中,RDMA成為主流的默認(rèn)網(wǎng)絡(luò)通信協(xié)議棧。因此,RDMA替換TCP/IP成為大勢(shì)所趨。
在服務(wù)器之間的互聯(lián)網(wǎng)絡(luò)中,當(dāng)前有兩種方案來承載RDMA:專用InfiniBand網(wǎng)絡(luò)和傳統(tǒng)IP以太網(wǎng)絡(luò),然而,它們都存在不足:
InfiniBand網(wǎng)絡(luò):架構(gòu)封閉,采用私有協(xié)議,難以與現(xiàn)網(wǎng)大規(guī)模的IP網(wǎng)絡(luò)實(shí)現(xiàn)很好的兼容互通;運(yùn)維復(fù)雜,專人運(yùn)維,OPEX居高不下。
傳統(tǒng)IP以太網(wǎng):對(duì)于RDMA來說,大于10-3的丟包率,將導(dǎo)致網(wǎng)絡(luò)有效吞吐急劇下降,2%的丟包則使得RDMA的吞吐率下降為0。要使得RDMA吞吐不受影響,丟包率必須保證在十萬分之一以下,最好為無丟包。而擁塞丟包是傳統(tǒng)IP以太網(wǎng)絡(luò)的基本機(jī)制,傳統(tǒng)IP以太網(wǎng)中會(huì)使用PFC和ECN機(jī)制來避免丟包,但其基本原理是通過反壓降低發(fā)送端速度來保證不丟包,實(shí)際上并沒有達(dá)到提升吞吐率的效果。
因此,RDMA的高效運(yùn)行,離不開一個(gè)0丟包、高吞吐的開放以太網(wǎng)作為承載。
AI時(shí)代的變化3:分布式架構(gòu)成為趨勢(shì),加劇網(wǎng)絡(luò)擁塞,驅(qū)動(dòng)網(wǎng)絡(luò)變革
在企業(yè)的數(shù)字化轉(zhuǎn)型中,以金融和互聯(lián)網(wǎng)企業(yè)為代表,大量的應(yīng)用系統(tǒng)遷移到分布式系統(tǒng)上:通過海量的PC平臺(tái)替代傳統(tǒng)小型機(jī),帶來了成本低廉、易擴(kuò)展、自主可控等優(yōu)勢(shì),同時(shí)也給網(wǎng)絡(luò)互聯(lián)帶來了挑戰(zhàn):
分布式架構(gòu)帶來了服務(wù)器間大量的互通需求。
Incast型流量(多點(diǎn)對(duì)一點(diǎn)的流量)會(huì)在接收端造成流量突發(fā),瞬間超過接收端接口能力,造成擁塞丟包。
分布式架構(gòu)流量模型示意
隨著分布式系統(tǒng)應(yīng)用復(fù)雜度的增加,服務(wù)器之間交互的消息長度越來越大,即流量具備“大包”特征,進(jìn)一步加劇了網(wǎng)絡(luò)擁塞。
什么是超融合網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)的核心指標(biāo)?
從上一節(jié)來看,為了滿足AI時(shí)代的數(shù)據(jù)高效處理訴求、應(yīng)對(duì)分布式架構(gòu)挑戰(zhàn),0丟包、低時(shí)延、高吞吐成為下一代數(shù)據(jù)中心網(wǎng)絡(luò)的三個(gè)核心指標(biāo)。這三個(gè)核心指標(biāo)是互相影響,有蹺蹺板效應(yīng),同時(shí)達(dá)到最優(yōu)有很大的挑戰(zhàn)。
三個(gè)核心指標(biāo)相互影響
同時(shí)滿足0丟包、低時(shí)延、高吞吐,背后的核心技術(shù)是擁塞控制算法。通用的無損網(wǎng)絡(luò)的擁塞控制算法DCQCN(Data Center Quantized Congestion Notification),需要網(wǎng)卡和網(wǎng)絡(luò)進(jìn)行協(xié)作,每個(gè)節(jié)點(diǎn)需要配置數(shù)十個(gè)參數(shù),全網(wǎng)的參數(shù)組合達(dá)到幾十萬;為了簡化配置,只能采用通用的配置,導(dǎo)致針對(duì)不同的流量模型,常常無法同時(shí)滿足這三個(gè)核心指標(biāo)。
超融合數(shù)據(jù)中心網(wǎng)絡(luò)與HCI有什么異同?
HCI(Hyper-Converged Infrastructure,超融合基礎(chǔ)架構(gòu))是指在同一套單元設(shè)備中不但具備了計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和服務(wù)器虛擬化等資源和技術(shù),而且多套單元設(shè)備可以通過網(wǎng)絡(luò)聚合起來,實(shí)現(xiàn)模塊化的無縫橫向擴(kuò)展(Scale—Out),形成統(tǒng)一的資源池。
HCI將虛擬化計(jì)算和存儲(chǔ)整合到同一個(gè)系統(tǒng)平臺(tái)。簡單地說就是物理服務(wù)器上運(yùn)行虛擬化軟件(Hypervisor),通過在虛擬化軟件上運(yùn)行分布式存儲(chǔ)服務(wù)供虛擬機(jī)使用。分布式存儲(chǔ)可以運(yùn)行在虛擬化軟件上的虛擬機(jī)里也可以是與虛擬化軟件整合的模塊。廣義上說,HCI既可以整合計(jì)算和存儲(chǔ)資源,還可以整合網(wǎng)絡(luò)以及其它更多的平臺(tái)和服務(wù)。目前業(yè)界普遍認(rèn)為,軟件定義的分布式存儲(chǔ)層和虛擬化計(jì)算是HCI架構(gòu)的最小集。
與HCI不同,超融合數(shù)據(jù)中心網(wǎng)絡(luò)只專注于網(wǎng)絡(luò)層面,提供全新的計(jì)算、存儲(chǔ)互聯(lián)的網(wǎng)絡(luò)層方案。使用超融合數(shù)據(jù)中心網(wǎng)絡(luò),不需像HCI那樣對(duì)計(jì)算資源、存儲(chǔ)資源進(jìn)行改造和融合,并且基于以太網(wǎng)很容易實(shí)現(xiàn)成低成本的快速擴(kuò)容。
的超融合數(shù)據(jù)中心網(wǎng)絡(luò),基于開放以太網(wǎng),通過獨(dú)特的AI算法,可以使以太網(wǎng)絡(luò)同時(shí)滿足低成本,0丟包和低時(shí)延的訴求。超融合數(shù)據(jù)中心網(wǎng)絡(luò)成為AI時(shí)代的數(shù)據(jù)中心構(gòu)建統(tǒng)一融合的網(wǎng)絡(luò)架構(gòu)的最佳選擇。
從獨(dú)立組網(wǎng)到統(tǒng)一融合的組網(wǎng)
超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)絡(luò)有什么價(jià)值?
傳統(tǒng)的FC專網(wǎng)和IB專網(wǎng),價(jià)格昂貴,生態(tài)封閉,且需要專人運(yùn)維,也不支持SDN,無法滿足云網(wǎng)協(xié)同等自動(dòng)化部署的訴求。
使用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)具有以下價(jià)值:
提升端到端業(yè)務(wù)性能使用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),據(jù)權(quán)威第三方測試EANTC測試結(jié)論,可以在HPC場景下最高降低44.3%的計(jì)算時(shí)延,在分布式存儲(chǔ)場景下提升25%的IOPS能力,且所有場景保證網(wǎng)絡(luò)0丟包。
使用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),可提供25G/100G/400G組網(wǎng),滿足AI時(shí)代海量數(shù)據(jù)對(duì)網(wǎng)絡(luò)大帶寬的需求。
降低成本,提升收益
數(shù)據(jù)中心投資中網(wǎng)絡(luò)占比僅10%左右,相對(duì)服務(wù)器/存儲(chǔ)的投資(占比85%),有10倍的杠桿效應(yīng),撬動(dòng)服務(wù)器和存儲(chǔ)投資的大幅降低;華為超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)絡(luò)可以帶來25%的存儲(chǔ)性能提升,40%的計(jì)算效率提升,將帶來數(shù)十倍的ROI(Return On Investment)能力。
支持SDN自動(dòng)化和智能運(yùn)維
華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)支持SDN云網(wǎng)協(xié)同的全生命周期業(yè)務(wù)自動(dòng)化,OPEX降低至少60%以上。另外,由于華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)本質(zhì)上是以太網(wǎng),因此傳統(tǒng)以太網(wǎng)運(yùn)維人員就可以管理,且可以依托華為智能分析平臺(tái)iMaster NCE-FabricInsight,多維度地、可視化地對(duì)網(wǎng)絡(luò)進(jìn)行運(yùn)維。
超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)絡(luò)如何工作?
上文提到,使用以太網(wǎng)來承載RDMA流量,目前使用的協(xié)議為RoCE(RDMA over Converged Ethernet)v2。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),使用iLossless智能無損算法構(gòu)建無損以太網(wǎng)絡(luò),是一系列技術(shù)的合集,通過以下三個(gè)方面技術(shù)的相互配合,真正解決傳統(tǒng)以太網(wǎng)絡(luò)擁塞丟包的問題,為RoCEv2流量提供“無丟包、低時(shí)延、高吞吐”的網(wǎng)絡(luò)環(huán)境,滿足RoCEv2應(yīng)用的高性能需求。
流量控制技術(shù)
流量控制是端到端的,需要做的是抑制發(fā)送端的發(fā)送速率,以便接收端來得及接收,防止設(shè)備端口在擁塞的情況下出現(xiàn)丟包。華為提供了PFC死鎖檢測和死鎖預(yù)防,提前預(yù)防PFC死鎖的發(fā)生。
擁塞控制技術(shù)
擁塞控制是一個(gè)全局性的過程,目的是讓網(wǎng)絡(luò)能承受現(xiàn)有的網(wǎng)絡(luò)負(fù)荷,往往需要轉(zhuǎn)發(fā)設(shè)備、流量發(fā)送端、流量接收端協(xié)同作用,并結(jié)合網(wǎng)絡(luò)中的擁塞反饋機(jī)制來調(diào)節(jié)整網(wǎng)流量才能起到緩解擁塞、解除擁塞的效果。在擁塞控制過程中,華為提供了AI ECN、iQCN、ECN Overlay和NPCC功能,解決了傳統(tǒng)DCQCN存在的問題。
智能無損存儲(chǔ)網(wǎng)絡(luò)技術(shù)為了更好地服務(wù)存儲(chǔ)系統(tǒng),華為提供了iNOF(智能無損存儲(chǔ)網(wǎng)絡(luò))功能,實(shí)現(xiàn)對(duì)主機(jī)的快速管控。
審核編輯 :李倩
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4761瀏覽量
72033 -
機(jī)械硬盤
+關(guān)注
關(guān)注
1文章
222瀏覽量
25392 -
存儲(chǔ)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
31瀏覽量
8100
原文標(biāo)題:超融合數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展及趨勢(shì)
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論