近日,在OCP 全球峰會(huì)上,谷歌宣布開(kāi)放其Falcon硬件傳輸協(xié)議。有業(yè)內(nèi)人士指出,F(xiàn)alcon似乎與超以太網(wǎng)聯(lián)盟(UEC)和亞馬遜的可擴(kuò)展可靠數(shù)據(jù)報(bào)(SRD)有很多相似之處,在某種程度上,所有這些都是為了解決 RoCEv2 的缺陷。(《ROCEv2 RDMA:TCP的變革者還是取代者?》一文介紹了ROCEv2的部署缺陷以及大廠的解決策略)
超以太網(wǎng)聯(lián)盟主席J Metz 博士表示,F(xiàn)alcon與超以太網(wǎng)聯(lián)盟有著共同的愿景,即推動(dòng)以太網(wǎng)成為人工智能和高性能計(jì)算的最佳數(shù)據(jù)中心結(jié)構(gòu)。本文將深入探討谷歌Falcon,UEC傳輸協(xié)議以及亞馬遜SRD協(xié)議,以便更全面地理解它們之間的聯(lián)系和差異。
谷歌Falcon:一種可靠的低延遲硬件傳輸協(xié)議
Falcon(硬件傳輸,硬件加速傳輸層)被譽(yù)為下一代以太網(wǎng),專為以太網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)中的可靠性、高性能、低延遲連接而設(shè)計(jì)。谷歌認(rèn)為Falcon能夠提高標(biāo)準(zhǔn)網(wǎng)絡(luò)上數(shù)據(jù)傳輸?shù)男阅芎托省?/p>
Falcon涉及以下技術(shù),包括Carousel、Snap、Swift、PLB和CSIG等。
Carousel:一種流量限制機(jī)制(流量整形),允許在各個(gè)主機(jī)的上下文中調(diào)節(jié)數(shù)據(jù)包流的性能和強(qiáng)度。
Snaps:基于微內(nèi)核的網(wǎng)絡(luò)子系統(tǒng),可以通過(guò)模塊進(jìn)行擴(kuò)展,通過(guò)模塊可以添加高級(jí)功能,例如網(wǎng)絡(luò)虛擬化、流量限制和消息傳遞功能。
Swift:數(shù)據(jù)中心級(jí)網(wǎng)絡(luò)的擁塞控制機(jī)制,短 RPC 消息可實(shí)現(xiàn)低于 50 微秒的延遲,同時(shí)在接近 100% 負(fù)載的情況下保持每臺(tái)服務(wù)器 100 Gbps 的吞吐量。
RACK-TLP:一種確定 TCP 數(shù)據(jù)包丟失的算法。
PLB:一種使用擁塞信號(hào)的負(fù)載平衡機(jī)制。
CSIG:一種遙測(cè)交換協(xié)議,用于發(fā)送擁塞和流量控制信號(hào)。
PSP:流量加密協(xié)議。
Falcon 的各層包括它們的相關(guān)功能如下圖所示。Falcon 可以支持 RDMA 和 NVM Express 以及其他上層協(xié)議 (ULP)。
Falcon使用三個(gè)關(guān)鍵技術(shù)來(lái)在高帶寬但有損的以太網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)中實(shí)現(xiàn)低延遲。
發(fā)送請(qǐng)求和接收響應(yīng)之間的延遲(RTT,往返時(shí)間)的詳細(xì)測(cè)量
硬件實(shí)現(xiàn)針對(duì)各個(gè)流進(jìn)行流量整形
快速準(zhǔn)確的數(shù)據(jù)包重傳
并通過(guò)多路徑同時(shí)訪問(wèn)和支持連接加密的方式補(bǔ)充了這些屬性。
在此基礎(chǔ)之上,F(xiàn)alcon 被重新設(shè)計(jì)為一種多協(xié)議傳輸,能夠支持具有廣泛不同性能要求和應(yīng)用語(yǔ)義的 ULP。ULP 映射層不僅提供與 Infiniband Verbs RDMA 和 NVMe ULP 的即插即用兼容性,還包括對(duì)超大規(guī)模應(yīng)用至關(guān)重要的其他創(chuàng)新,例如靈活的排序語(yǔ)義和錯(cuò)誤處理。
最重要的是,硬件和軟件經(jīng)過(guò)共同設(shè)計(jì),可以協(xié)同工作,幫助實(shí)現(xiàn)高消息速率、低延遲和高帶寬等屬性,同時(shí)保持可編程性和持續(xù)創(chuàng)新的靈活性。
Falcon支持將首次在Intel IPU E2000系列網(wǎng)絡(luò)加速器中提供,該加速器將以太網(wǎng)適配器與可編程處理器相結(jié)合,可處理通常在網(wǎng)絡(luò)堆棧或系統(tǒng)側(cè)執(zhí)行的操作,如流量和擁塞管理控制以及高級(jí)協(xié)議分析。
UEC傳輸協(xié)議:比RDMA 更好的以太網(wǎng)傳輸協(xié)議
7 月 19 日,超以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium,UEC) 正式成立,它是一個(gè)由 Linux 基金會(huì)及其聯(lián)合開(kāi)發(fā)基金會(huì)倡議主辦的新組織。UEC 的目標(biāo)是超越現(xiàn)有的以太網(wǎng)功能,例如遠(yuǎn)程直接內(nèi)存訪問(wèn) ( RDMA ) 和融合以太網(wǎng) RDMA (RoCE),提供針對(duì)高性能計(jì)算和人工智能進(jìn)行優(yōu)化的高性能、分布式和無(wú)損傳輸層,直接將矛頭對(duì)準(zhǔn)競(jìng)爭(zhēng)對(duì)手的傳輸協(xié)議 InfiniBand。
UEC 聯(lián)盟提出的UEC 傳輸協(xié)議正在開(kāi)發(fā)中,旨在提供AI和HPC應(yīng)用程序所需性能的同時(shí)保留以太網(wǎng)/IP的優(yōu)勢(shì)。UEC 傳輸是一種靠近傳輸層的新形式,將提供更靈活的傳輸,不需要無(wú)損網(wǎng)絡(luò),允許many-to-many人工智能工作負(fù)載所需的多路徑和無(wú)序數(shù)據(jù)包傳輸?shù)裙δ堋?/p>
UEC傳輸協(xié)議:
從一開(kāi)始就設(shè)計(jì)為在IP和以太網(wǎng)上運(yùn)行的開(kāi)放協(xié)議規(guī)范
多路徑、包噴灑傳輸,充分利用AI網(wǎng)絡(luò),不會(huì)造成擁塞或隊(duì)頭阻塞,無(wú)需集中式負(fù)載均衡算法和路由控制器
Incast管理機(jī)制,以最小的丟包控制到目標(biāo)主機(jī)的最終鏈接上的扇入
高效的速率控制算法,允許傳輸快速提升至線速,同時(shí)不會(huì)導(dǎo)致競(jìng)爭(zhēng)流的性能損失
用于無(wú)序數(shù)據(jù)包傳送的 API,可選擇按順序完成消息,最大限度地提高網(wǎng)絡(luò)和應(yīng)用程序的并發(fā)性,并最大限度地減少消息延遲
可擴(kuò)展未來(lái)網(wǎng)絡(luò),支持1,000,000個(gè)端點(diǎn)
性能和最佳網(wǎng)絡(luò)利用率,無(wú)需針對(duì)網(wǎng)絡(luò)和工作負(fù)載進(jìn)行特定的擁塞算法參數(shù)調(diào)優(yōu)
旨在在商用硬件上實(shí)現(xiàn) 800G、1.6T 和未來(lái)更快以太網(wǎng)的線速性能
日前,OCP 宣布與UEC聯(lián)盟合作,利用兩家組織的專業(yè)技能來(lái)提高人工智能工作負(fù)載的以太網(wǎng)性能。目前初步確定潛在合作的領(lǐng)域包括 OCP交換機(jī)抽象接口(SAI)、OCP Caliptra Workstream、OCP網(wǎng)絡(luò)項(xiàng)目、OCP網(wǎng)卡Workstream、OCP Time Appliance項(xiàng)目和OCP未來(lái)技術(shù)倡議。(更多內(nèi)容可點(diǎn)擊《劍指InfiniBand,超以太網(wǎng)聯(lián)盟(UEC)正式成立》)
亞馬遜SRD:高吞吐、低延遲的網(wǎng)絡(luò)傳輸協(xié)議
SRD(Scalable Reliable Datagram,可擴(kuò)展的可靠數(shù)據(jù)報(bào)文),是AWS年推出的協(xié)議,旨在解決亞馬遜的云性能挑戰(zhàn)。它是專為AWS數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)的、基于Nitro芯片、為提高HPC性能實(shí)現(xiàn)的一種高吞吐、低延遲的網(wǎng)絡(luò)傳輸協(xié)議。
SRD 不保留數(shù)據(jù)包順序,而是通過(guò)盡可能多的網(wǎng)絡(luò)路徑發(fā)送數(shù)據(jù)包,同時(shí)避免路徑過(guò)載。為了最大限度地減少抖動(dòng)并確保對(duì)網(wǎng)絡(luò)擁塞波動(dòng)的最快響應(yīng),在 AWS 自研的 Nitro chip 中實(shí)施 SRD。
SRD 的創(chuàng)新在于有意通過(guò)多個(gè)路徑分別發(fā)包,雖然包到達(dá)后通常是亂序的,但AWS實(shí)現(xiàn)了在接收處以極快的速度進(jìn)行重新排序,最終在充分利用網(wǎng)絡(luò)吞吐能力的基礎(chǔ)上,極大地降低了傳輸延遲。(更多內(nèi)容可點(diǎn)擊《當(dāng)網(wǎng)絡(luò)傳輸協(xié)議SRD遇上DPU》)
SRD的主要功能包括:
亂序交付:取消按順序傳遞消息的約束,消除了隊(duì)頭阻塞,AWS在EFA用戶空間軟件堆棧中實(shí)現(xiàn)了數(shù)據(jù)包重排序處理引擎
等價(jià)多路徑路由(ECMP):兩個(gè)EFA實(shí)例之間可能有數(shù)百條路徑,通過(guò)使用大型多路徑網(wǎng)絡(luò)的一致性流哈希的屬性和SRD對(duì)網(wǎng)絡(luò)狀況的快速反應(yīng)能力,可以找到消息的最有效路徑。數(shù)據(jù)包噴涂(Packet Spraying)可防止出現(xiàn)擁塞熱點(diǎn),并可以從網(wǎng)絡(luò)故障中快速無(wú)感地恢復(fù)
快速的丟包響應(yīng):SRD對(duì)丟包的響應(yīng)比任何高層級(jí)的協(xié)議都快得多。偶爾的丟包,特別是對(duì)于長(zhǎng)時(shí)間運(yùn)行的HPC應(yīng)用程序,是正常網(wǎng)絡(luò)操作的一部分,不是異常情況
可擴(kuò)展的傳輸卸載:使用SRD,與其他可靠協(xié)議(如InfiniBand可靠連接IBRC)不同,一個(gè)進(jìn)程可以創(chuàng)建并使用一個(gè)隊(duì)列對(duì)與任何數(shù)量的對(duì)等方進(jìn)行通信
隨著人工智能、高性能計(jì)算和大規(guī)模數(shù)據(jù)處理需求的不斷增加,對(duì)于高效、可靠的數(shù)據(jù)傳輸方式的需求也愈發(fā)迫切。在未來(lái),我們可以期待看到這些協(xié)議不斷演進(jìn)和完善,為數(shù)據(jù)中心和網(wǎng)絡(luò)通信領(lǐng)域帶來(lái)更多的創(chuàng)新和進(jìn)步。
審核編輯:湯梓紅
-
谷歌
+關(guān)注
關(guān)注
27文章
6161瀏覽量
105299 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4761瀏覽量
72033 -
傳輸協(xié)議
+關(guān)注
關(guān)注
0文章
78瀏覽量
11447 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2650瀏覽量
83314
原文標(biāo)題:谷歌Falcon、UEC協(xié)議、亞馬遜SRD:數(shù)據(jù)中心傳輸協(xié)議的較量
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論