自上一次云計(jì)算大潮以來,產(chǎn)業(yè)界也許從來沒有如此亢奮過,從底層器件到上層軟件都到了十字路口。 ? 以太網(wǎng)平穩(wěn)發(fā)展50年,越過山丘突然發(fā)現(xiàn)還有人等候,InfiniBand 老樹發(fā)新芽枯木又逢春,不得已帶頭大哥又吹響集結(jié)號(hào)成立UEC。
? 01 UEC的研究方向 ? 超以太網(wǎng)聯(lián)盟致力于從物理層、鏈路層、傳輸層、軟件層改進(jìn)以太網(wǎng)技術(shù),在兼容當(dāng)前以太網(wǎng)生態(tài)的前提下,提升以太網(wǎng)的轉(zhuǎn)發(fā)性能,致力于改進(jìn)以太網(wǎng)通信的協(xié)議、應(yīng)用程序接口,改進(jìn)存儲(chǔ)、管理、安全結(jié)構(gòu),改進(jìn)遙測能力,使超以太網(wǎng)技術(shù)滿足人工智能和高性能計(jì)算對(duì)網(wǎng)絡(luò)的需求。 ? 超以太網(wǎng)聯(lián)盟UEC確定了需要重點(diǎn)關(guān)注的網(wǎng)絡(luò)類型為Type2 Network(BackEnd Network),也不反對(duì)在Type1(FrontEnd Network)中使用,但不會(huì)因?yàn)橐m配Type1而降低Type2的網(wǎng)絡(luò)性能。
UEC確定了每種網(wǎng)絡(luò)類型的性能指標(biāo)。
? 02 UEC的工作組 ? UEC最初成立了四個(gè)工作組,分別是物理層、鏈路層、傳輸層、軟件層工作組,已經(jīng)取得了出色的成績。近期又成立了存儲(chǔ)、管理、兼容性&測試、性能&調(diào)試工作組,剛剛展開工作。下圖是UEC的工作組劃分:
# 物理層工作組
致力于提高物理性能,減少延遲,改善以太網(wǎng)物理基礎(chǔ)設(shè)施的管理。包括以太網(wǎng)物理層規(guī)范、電氣和光信號(hào)特性、應(yīng)用程序接口和數(shù)據(jù)結(jié)構(gòu)的開發(fā)。目標(biāo)是使基礎(chǔ)更加強(qiáng)大,確保以太網(wǎng)能夠滿足AI和HPC的嚴(yán)格要求。當(dāng)前物理層工作組致力于100G/Lane和200G/Lane的PHY規(guī)范制定,已經(jīng)確定了100G /Lane 介質(zhì)類型、PHY支持的速率和類型。200G/Lane的規(guī)范等IEEE P802.3dj批準(zhǔn)后再定。
物理層工作組針對(duì)鏈路質(zhì)量預(yù)測引入了幾個(gè)新的概念UCR(uncorrectable codeword ratio),MTBPE(the mean time between PHY errors),MTTFPA(the mean time to false packet acceptance),致力于更精確的預(yù)測和度量物理層鏈路質(zhì)量。
# 鏈路層工作組
鏈路層工作組致力于提升鏈路層傳輸?shù)目煽啃院蛡魉托?,提升鏈路層telemetry能力。
鏈路層主要研究方向有:
>Link Layer Reliability:
在鏈路層增加LLR子層,位于LLC和MAC CONTROL子層之間,用于鏈路層端到端錯(cuò)包重傳。
>Credit-based flow control:
在鏈路層支持端到端基于信用的流控機(jī)制,管理鏈路間幀的無損傳輸。CBFC(Credit-Based Flow Control)機(jī)制用來替換PFC流控。接收者周期性發(fā)送buffer空間給對(duì)端,發(fā)送者基于報(bào)文優(yōu)先級(jí)和buffer大小發(fā)送報(bào)文。Buffer空間也可以用于自適應(yīng)路由選路。
>Packet rate improvement:
致力于以太網(wǎng)報(bào)文頭的壓縮,以增加幀的傳送效率。以太網(wǎng)在長期演進(jìn)過程中,報(bào)文頭不斷擴(kuò)展,導(dǎo)致傳送效率比較低,在智算網(wǎng)絡(luò)中有很多字段是用不到的,因此壓縮報(bào)文頭,提升幀的傳送效率勢在必行。
壓縮報(bào)文和非壓縮報(bào)文要能在網(wǎng)絡(luò)中共存,報(bào)文頭中需有個(gè)標(biāo)志可以指示報(bào)文是壓縮的還是非壓縮的發(fā)送者可以選擇是否壓縮報(bào)文,不影響原有的功能。
目前報(bào)文頭壓縮有多個(gè)方案,正在討論中。
>Negotiation:
建立鏈路層參數(shù)和特性的協(xié)商方法。鏈路層新增的幾個(gè)能力如LLR、CBFC、PRI,需要協(xié)商才能支持,主要思路是擴(kuò)展LLDP,增加一個(gè)UEC OUI,用于設(shè)備間新增鏈路層能力的協(xié)商。
# 傳輸層工作組
UET(UEC transport layer)工作組致力于解決最具挑戰(zhàn)性的應(yīng)用程序擴(kuò)展、報(bào)文可靠傳輸、數(shù)據(jù)安全傳送以及避免網(wǎng)絡(luò)中的擁塞。它的目標(biāo)是解決RoCE傳輸?shù)娜秉c(diǎn),提供高效、可靠、安全的大規(guī)模傳輸。目標(biāo)傳輸端點(diǎn)達(dá)到256,000,支持的進(jìn)程數(shù)達(dá)到100,000,000。
UET的主要模塊如下圖所示:
UET包含Packet Delivery、Security、Semantics三個(gè)模塊,各個(gè)模塊功能如下:
>Packet Delivery sulayer(PDS):
報(bào)文傳送子層包含可靠性和擁塞管理兩個(gè)模塊。
可靠性模塊需要覆蓋三個(gè)關(guān)鍵需求:
1) 極端擴(kuò)展能力
2) 報(bào)文有序傳輸
3) 報(bào)文亂序傳輸
可靠性模塊設(shè)計(jì)四種報(bào)文傳輸模式,每一種模式用于特定目的。以滿足HPC,AI,ML等應(yīng)用場景。這四種報(bào)文傳輸模式分別是:
1)Reliable, ordered delivery (ROD)可靠,有序傳輸: 這種模式按照順序傳輸報(bào)文,用于需要消息有序傳輸?shù)膽?yīng)用。
2)Reliable, unordered delivery for operations (RUD)可靠,無序傳輸: 這種模式只能向語義層傳輸一次報(bào)文,但是可以忍受網(wǎng)絡(luò)中的亂序傳輸。
可靠性傳輸層需要檢測重復(fù)報(bào)文,以確保每一個(gè)報(bào)文只能向語義層傳送一次。
3)Reliable, unordered delivery for idempotent[] operations (RUDI)可靠,用于冪等運(yùn)算的無序傳輸:這種模式是針對(duì)對(duì)RDMA讀寫操作做的優(yōu)化。
4)Unreliable, unordered delivery (UUD)不可靠,無序傳輸: 不可靠報(bào)文可以承載許多UET的新語義,用戶不需要可靠傳輸,用戶采用其他可靠性手段。
擁塞管理模塊還在研究中,包含擁塞管理和負(fù)載均衡,能基于每個(gè)FEP進(jìn)行擁塞管理。核心是基于接收方信用的流量控制。擁塞控制定義窗口大小、注入速率,目標(biāo)是可以減少速率并限制報(bào)文,避免中間節(jié)點(diǎn)和端點(diǎn)的擁塞。路徑負(fù)載均衡定義特定報(bào)文選擇那一條路徑,可以用ECMP選路。
>Transport Security:
安全傳輸是UET設(shè)計(jì)的重中之重,可以選擇對(duì)所有數(shù)據(jù)負(fù)荷和大部分的傳輸頭的加密和認(rèn)證。
>Semantics:
UET語義層提供高性能,高擴(kuò)展性的操作,使能特殊化的AI和全特性的HPC部署。
語義層是用戶軟件和PDS(報(bào)文遞交層)的橋梁,語義層定義一系列操作,比如發(fā)送,接收,寫,讀等。語義層提供可選的排序,各種可選的發(fā)起者或者目標(biāo)完成通知能力。
語義層提供無連接的調(diào)用API,必須原生支持*CCL、 MPI、OpenSHMEM等API。
# 軟件層工作組
軟件層通過與當(dāng)前各種廣泛采用的通信庫(如*CCL、MPI和SHMEM)兼容的方式,使用libfabric API作為數(shù)據(jù)平面框架,促進(jìn)對(duì)UEC的快速采用。定義各種加速器和FEP之間的交互方式,包括相關(guān)的加速器API。定義交換機(jī)、FEP以及聚合管理器(AM)的控制平面和數(shù)據(jù)平面機(jī)制,允許不同UEC供應(yīng)商之間的互操作性。解決UEC支持多種工作負(fù)載配置文件的需求。
軟件層對(duì)于INC需要做的工作包括:
1) 定義一種使用INC的集合通信(libfabric)的API(使用C語言)。
2) 定義一種發(fā)現(xiàn)機(jī)制來確認(rèn)可用的INC卸載能力。
3) 定義這些庫用來與聚合管理器(AM)通信的RPC接口。規(guī)定用于AM與提供INC資源的UEC交換機(jī)之間通信的RPC接口。
4) OpenConfig擴(kuò)展,用于配置網(wǎng)絡(luò)設(shè)備的FEP(由AM配置)以進(jìn)行集合通信卸載,并對(duì)性能和錯(cuò)誤進(jìn)行監(jiān)控。
5) 符合INC的網(wǎng)絡(luò)設(shè)備的行為,具有多個(gè)特性配置文件。并引導(dǎo)UEC傳輸協(xié)議的開發(fā),以便INC技術(shù)可以輕松地應(yīng)用到硬件實(shí)現(xiàn)中。
最后的倔強(qiáng) ? The Network as? an island of stability amidst the storm
? ? ? ?審核編輯:黃飛
?
評(píng)論
查看更多