自20世紀(jì)80年代以來,以太網(wǎng)一直是一項基礎(chǔ)技術(shù)。早期,工作站和個人電腦使用同軸電纜以10Mbps速率的共享局域網(wǎng)連接到現(xiàn)場服務(wù)器。此后,以太網(wǎng)不斷發(fā)展,不僅支持雙絞線和光纖布線,速率也從100Mbps發(fā)展到100Gbps,甚至是最新的1.6Tbps標(biāo)準(zhǔn)。
隨著以太網(wǎng)速度的提高,其應(yīng)用越發(fā)多樣化,從音、視頻流到多房間音頻、工控網(wǎng)絡(luò),甚至車載網(wǎng)絡(luò)。這一進展對數(shù)據(jù)傳輸提出了更高的安全可靠性要求。尤其是對丟失和延遲特別敏感的數(shù)據(jù)流來說,定義服務(wù)質(zhì)量是至關(guān)重要的。
本文將深入探討為什么需要1.6T數(shù)據(jù)傳輸、IEEE802.3dj小組的標(biāo)準(zhǔn)化工作、對1.6T以太網(wǎng)子系統(tǒng)組件的概述以及處理所有這些數(shù)據(jù)所需的以太網(wǎng)控制器的FEC考慮因素等內(nèi)容。
我們?yōu)槭裁葱枰绱烁叩膫鬏斔俣龋?/strong>
以太網(wǎng)的發(fā)展主要有兩個維度:
1.
傳輸和存儲海量數(shù)據(jù)的性能得到了提升;
2.
網(wǎng)絡(luò)的可預(yù)測性和可靠性得到了提高,即使是要求最苛刻的控制系統(tǒng)也能被滿足。
如今,互聯(lián)網(wǎng)的帶寬估計可達到500Tbps,這對數(shù)據(jù)中心內(nèi)的后端流量提出了驚人的要求。雖然數(shù)據(jù)中心內(nèi)的總流量已經(jīng)能夠達到每秒太比特的水平,但是單個服務(wù)器還無法達到這個速度。
單個設(shè)備的處理能力是有限的,即使使用了最先進的處理器或?qū)?a href="http://hljzzgx.com/v/tag/557/" target="_blank">機器學(xué)習(xí)優(yōu)化的加速器,其性能也會受限于芯片的實際制造尺寸。然而,一旦多個芯片聯(lián)合起來,我們便有可能極大地擴展計算能力。因此,太比特級速度和極低延遲的新一代以太網(wǎng)技術(shù)的出現(xiàn),讓這一技術(shù)突破成為可能,處理器間通信成為了1.6T以太網(wǎng)的首個應(yīng)用場景。繼這一代應(yīng)用之后,預(yù)計數(shù)據(jù)中心將推出交換機間的直連技術(shù),實現(xiàn)高性能處理器和內(nèi)存資源的集中利用,大幅提升云計算的擴展性和運行效率。
802.3dj:為1.6T以太網(wǎng)標(biāo)準(zhǔn)化奠定基礎(chǔ)
要實現(xiàn)有效通信,網(wǎng)絡(luò)上的每個節(jié)點都必須遵守同一套標(biāo)準(zhǔn)所定義的規(guī)則。電氣和電子工程師協(xié)會(IEEE)自成立以來一直負責(zé)制定以太網(wǎng)標(biāo)準(zhǔn)。目前,802.3dj小組正在制定以太網(wǎng)標(biāo)準(zhǔn)的最新版本,其中概述了以每秒200G、400G、800G和1.6T速度運行的物理層和管理參數(shù)。
1.6Tbps的以太網(wǎng)MAC數(shù)據(jù)傳輸速率需滿足以下條件:
MAC層的最大誤碼率(BER)為10-13
可選16和8通道附件單元接口(AUI),適用于芯片到模塊(C2M)和芯片到芯片應(yīng)用(C2C),使用112G和224G SerDes。
在物理層方面,1.6Tbps的傳輸規(guī)格包括:
在每個方向上傳輸8對銅雙軸電纜,傳輸范圍至少為1米;
在8對光纖上傳輸,最長可達500米
在8對光纖上傳輸,最長可達2千米
預(yù)計該標(biāo)準(zhǔn)將于2026年春季確定。不過,我們預(yù)計2024年底即可完成基線功能。
1.6T以太網(wǎng)子系統(tǒng)剖析
我們來深入了解下1.6Tbps以太網(wǎng)子系統(tǒng)的組件,尤其是一些用于在ASIC或ASSP硅芯片中實現(xiàn)以太網(wǎng)接口的元件。
圖2:1.6T以太網(wǎng)子系統(tǒng)組件的示意圖
網(wǎng)絡(luò)應(yīng)用
最頂層是網(wǎng)絡(luò)應(yīng)用程序,既可以安裝在客戶端機器上,也可以安裝在電腦或文件服務(wù)器上。它們既是所有以太網(wǎng)流量的來源,也是其目的地。但以太網(wǎng)橋或第二層交換機比較特殊,按照802.1d的定義規(guī)則,它是轉(zhuǎn)發(fā)數(shù)據(jù)包的中間點。
隊列連接
各個應(yīng)用程序或?qū)嵗ㄟ^一個或多個隊列與以太網(wǎng)控制器相連接。隊列很可能正在緩沖與應(yīng)用程序之間的流量,平衡客戶端與服務(wù)器端的網(wǎng)絡(luò)性能。為實現(xiàn)最高性能,網(wǎng)絡(luò)速度應(yīng)與流量產(chǎn)生或消耗的速度相匹配。這樣,我們就能最大限度地減少數(shù)據(jù)包在應(yīng)用程序之間端到端交換時的延遲。
控制器、物理層和布線
以太網(wǎng)控制器通常由一個MAC和一個PCS組成,但一般我們會稱之為“以太網(wǎng)MAC”。在PCS下方是附件單元接口(AUI)——有些讀者可能還記得工作站背面的D型連接器,AUI電纜就插在上面。在今天的以太網(wǎng)中,這種接口依然存在,并且速度更快了。最后,在堆棧的更下面,我們可以找到負責(zé)控制和管理網(wǎng)絡(luò)物理元素的模塊,這些模塊可能是光纖、銅纜或者背板。
1.6T以太網(wǎng)控制器:深入了解MAC、PCS和高級FEC機制
如圖3所示,在應(yīng)用程序和隊列下面是介質(zhì)訪問控制器(MAC)。MAC負責(zé)管理以太網(wǎng)成幀——查看源地址和目標(biāo)地址、管理幀的長度、在必要時添加填充(在有效載荷很短的情況下)以及添加/檢查幀校驗序列(FCS),以確保幀的完整性。
圖3:MAC幀格式和長度:八進制分解
MAC的變體可分為兩大類:
一、網(wǎng)絡(luò)接口卡(NIC)中的MAC
這種MAC位于客戶端、服務(wù)器或路由器中的網(wǎng)卡上。它們在有效載荷向下和向上傳遞堆棧時,通過添加和刪除以太網(wǎng)的特定任務(wù)來完成終止以太網(wǎng)層的重要任務(wù)。其中一個不可或缺的功能是添加和檢查幀校驗序列(FCS),以確保數(shù)據(jù)完整性。如果在接收時檢測到任何損壞,幀將被丟棄。此外,網(wǎng)卡中的MAC將檢查幀的目標(biāo)地址,確保在網(wǎng)絡(luò)內(nèi)準(zhǔn)確傳輸。有效載荷很可能是一個IP(互聯(lián)網(wǎng)協(xié)議)數(shù)據(jù)包。
NIC以前是一種插入式網(wǎng)卡,因此被稱為"網(wǎng)絡(luò)接口卡"。網(wǎng)卡執(zhí)行MAC、PCS和PHY,而隊列和任何其他智能功能則由主機處理器處理。如今,我們看到的智能網(wǎng)卡可以卸載許多網(wǎng)絡(luò)功能,但仍保持相同的MAC層。
二、交換/橋接MAC
交換或橋接MAC采用了不同的方法。在這里,整個以太網(wǎng)幀在MAC和上層之間傳遞。MAC負責(zé)添加和檢查FCS,并為支持遠程網(wǎng)絡(luò)監(jiān)控(RMON)收集統(tǒng)計數(shù)據(jù)。從概念上講,以太網(wǎng)交換機可被視為為此目的而設(shè)計的專用應(yīng)用程序。盡管以太網(wǎng)交換機主要由硬件實現(xiàn),以保證最佳線速性能,但其每個端口都包含一個專用的MAC。盡管這些端口可能以不同的速度運行,但任何速率適應(yīng)都是在MAC層以上的隊列中進行管理的。
圖4:MAC、PCS和PMA與AUI連接示意圖
從基本編碼到RS-FEC
對于較低的以太網(wǎng)速率,物理編碼子層(PCS)只需對數(shù)據(jù)流進行編碼,即可開始檢測數(shù)據(jù)包,并確保信號平衡,即使在長的0或1數(shù)據(jù)流中也是如此。然而,隨著以太網(wǎng)速度的提高,PCS的復(fù)雜性也在增加。如今,由于每個物理鏈路上都有高速信號,因此有必要使用前向糾錯(FEC)來克服固有的信號衰減,即使在很短的鏈路上也會遇到這種情況。
與其他高速以太網(wǎng)變體的PCS一樣,1.6T以太網(wǎng)采用了里德-所羅門前向糾錯(RS-FEC)技術(shù)。這種方法建立的編碼字由514個10位符號組成,編碼成544個符號塊,因此帶寬開銷為6%。這些FEC編解碼字分布在AUI物理鏈路上,因此每個物理鏈路(1.6T以太網(wǎng)為8個)不會攜帶整個編解碼字。這種方法不僅能提供額外的錯誤突發(fā)保護,還能在遠端解碼器上實現(xiàn)并行化,從而減少延遲。
圖5:1.6T以太網(wǎng)子系統(tǒng)的控制器、物理層和電纜組件示意圖
在1.6T以太網(wǎng)中實現(xiàn)最佳比特誤碼率
雖然以太網(wǎng)PHY層包括PCS,但通常將PCS與以太網(wǎng)控制器內(nèi)的MAC聯(lián)系起來。物理介質(zhì)附件(PMA)具有齒輪箱和SerDes,可將以太網(wǎng)信號傳輸?shù)絺鬏斖ǖ郎?。對?.6T以太網(wǎng),8個通道以212Gbps的速度運行,F(xiàn)EC編碼擴展率為6%。值得注意的是,PMA的上半部分位于控制器內(nèi),然后將比特流交給AUI。PHY的每個物理鏈路都使用4級脈沖幅度調(diào)制(PAM-4)。這種方法為每個傳輸符號編碼兩個數(shù)據(jù)位,與傳統(tǒng)的非歸零(NRZ)傳輸相比,帶寬增加了一倍。發(fā)送器采用數(shù)模轉(zhuǎn)換器(DAC)對數(shù)據(jù)進行調(diào)制,而遠端接收器則使用模數(shù)轉(zhuǎn)換器(ADC)和DSP來提取原始信號。
以太網(wǎng)PCS在以太網(wǎng)鏈路端到端使用的數(shù)據(jù)流中增加了FEC,在長距離以太網(wǎng)鏈路中通常稱為"外部FEC"。IEEE正在為單個物理線路定義額外的糾錯級別,以實現(xiàn)更長的傳輸距離。在需要糾錯的地方,光收發(fā)器模塊將支持這種額外的糾錯(可能是一種漢明碼)。圖6顯示了使用串聯(lián)FEC擴展傳輸距離時增加的開銷。
讓我們看一下圖6中的系統(tǒng)示例,其中MAC和PCS的光發(fā)射器和接收器被一段光纖隔開:
圖6:用一段光纖分隔MAC和PCS光TX/RX的示意圖
在與光模塊相連的鏈路上,PCS的誤碼率為10^-5,加上在光鏈路上引入的額外誤碼。如果我們只在該系統(tǒng)中端對端實施單個RS-FEC,則產(chǎn)生的誤碼率將無法滿足10^-13以太網(wǎng)要求。該鏈路將被歸類為不可靠鏈路。另一種方法是在每一跳上實施單獨的RSFEC,RSFEC將進行三次編碼和解碼。一次在發(fā)送PCS,然后在光模塊,最后在從光模塊到遠程PCS的遠端鏈路。這樣做的成本很高,而且會增加端到端延遲。
將串聯(lián)漢明碼FEC集成到光鏈路中是一種最佳解決方案,既能滿足以太網(wǎng)要求,又能很好地處理光連接中遇到的隨機誤差。內(nèi)部FEC層將線路速率從212Gbps提高到226Gbps,因此SerDes必須能夠支持這一線路速率。
從發(fā)送到接收:了解以太網(wǎng)應(yīng)用中的延遲狀況
簡單地說,以太網(wǎng)延遲是指從一個應(yīng)用程序通過以太網(wǎng)傳輸信息到另一個應(yīng)用程序接收信息之間的延遲。往返延遲測量的是從發(fā)送信息到收到響應(yīng)所需的時間。當(dāng)然,這種延遲取決于遠端應(yīng)用程序的響應(yīng)時間,在考慮以太網(wǎng)延遲時,可以忽略這一點,因為它是以太網(wǎng)的外部延遲。以太網(wǎng)延遲的組成部分包括發(fā)送隊列、信息處理時間、傳輸持續(xù)時間、介質(zhì)穿越時間、信息接收時間、結(jié)束處理時間和接收隊列中的時間。
圖7:描述完整1.6T以太網(wǎng)子系統(tǒng)和延遲路徑的示意圖
在關(guān)注最大限度減少以太網(wǎng)子系統(tǒng)(特別是以太網(wǎng)接口級,而非整個網(wǎng)絡(luò))中的延遲時,考慮具體情況至關(guān)重要,例如,當(dāng)數(shù)據(jù)包源和數(shù)據(jù)包匯以匹配的高數(shù)據(jù)速率運行時。相反,在中繼連接(如交換機之間的連接)中,由于較慢的客戶端鏈路會產(chǎn)生較明顯的延遲,因此延遲就不那么重要了。同樣,在處理較長距離時,距離造成的固有延遲將占主導(dǎo)地位。
此外,值得注意的是,時間敏感網(wǎng)絡(luò)(TSN)解決的是確定性延遲問題。在這種情況下,關(guān)鍵任務(wù)應(yīng)用的最大延遲上限已被確定,尤其是對于低速網(wǎng)絡(luò)或共享基礎(chǔ)設(shè)施網(wǎng)絡(luò)。當(dāng)然,這并不意味著我們應(yīng)該忽視其他情況下的延遲。最大限度地減少延遲仍然是一個不變的目標(biāo)。首先,端到端的累計延遲會隨著每一次連續(xù)跳轉(zhuǎn)而增加。其次,延遲的增加往往表明控制器中增加了電路或處理功能,這可能會導(dǎo)致系統(tǒng)功耗增加。
延遲洞察:剖析以太網(wǎng)子系統(tǒng)層
首先,我們拋開任何隊列延遲不談,假設(shè)從應(yīng)用程序到以太網(wǎng)控制器之間有一條清晰的路徑,沒有任何帶寬競爭。帶寬差異會導(dǎo)致數(shù)據(jù)包排隊延遲,當(dāng)延遲至關(guān)重要時,應(yīng)避免這種情況。當(dāng)數(shù)據(jù)包通過傳輸控制器時,以太網(wǎng)幀會即時建立或修改。值得注意的是,線路編碼和傳輸FEC階段不需要大量存儲。
傳輸報文處理延遲取決于具體的實現(xiàn)方式,但可以通過良好的設(shè)計實踐將其最小化。傳輸信息所需的時間取決于以太網(wǎng)速率和幀大小。對于1.6T以太網(wǎng),傳輸一個最小大小的數(shù)據(jù)包需要0.4ns-基本上是2.5GHz時鐘每跳動一下就傳輸一個以太網(wǎng)幀。標(biāo)準(zhǔn)最大以太網(wǎng)幀的傳輸時間為8ns,巨型幀的傳輸時間延長至48ns。
考慮到穿越介質(zhì)的時間,光纖延遲大約為每米5ns,而銅纜稍快,為每米4ns。雖然信息接收時間與發(fā)送時間相同,但由于這兩個過程同時進行,因此通常會被忽略。
大部分延遲發(fā)生在接收器控制器上
即使是最優(yōu)化的設(shè)計,RSFEC解碼器造成的延遲也是不可避免的。開始糾錯時,必須接收并存儲4個編碼字,以1.6Tbps的速率計算,這需要12.8ns的時間。隨后的流程,如執(zhí)行FEC算法、糾錯(必要時)、緩沖和時鐘域管理,都會進一步增加控制器的接收延遲。雖然FEC編解碼存儲時間是一個恒定因素,但信息接收過程中的延遲與具體實施有關(guān),但可以通過良好的數(shù)字設(shè)計實踐進行優(yōu)化。
從本質(zhì)上講,由于FEC機制和物理距離或電纜長度,存在固有的、不可避免的延遲。除了這些因素外,良好的設(shè)計實踐在最大限度地減少以太網(wǎng)控制器造成的延遲方面也發(fā)揮著關(guān)鍵作用。利用集成的完整解決方案(包括MAC、PCS和PHY)以及專業(yè)的設(shè)計團隊,可為最高效、低延遲的實施鋪平道路。
?總結(jié)?
1.6Tbps以太網(wǎng)可滿足帶寬最密集、時延最敏感的應(yīng)用需求。隨著224GSerDes技術(shù)的出現(xiàn)以及MAC和PCSIP的開發(fā),可提供符合不斷發(fā)展的1.6T以太網(wǎng)標(biāo)準(zhǔn)的完整現(xiàn)成解決方案??刂破餮舆t在1.6Tbps應(yīng)用中至關(guān)重要。除了協(xié)議和糾錯機制造成的固有延遲外,IP數(shù)字設(shè)計還必須由專業(yè)設(shè)計團隊精心設(shè)計,以防止數(shù)據(jù)通路增加不必要的延遲。
經(jīng)過硅驗證的解決方案需要優(yōu)化的架構(gòu)和精確的數(shù)字設(shè)計,強調(diào)能效并減少硅足跡,從而使1.6T數(shù)據(jù)速率成為現(xiàn)實。新思科技經(jīng)過硅驗證的224G以太網(wǎng)PHYIP為1.6TMAC/PCS的實現(xiàn)奠定了基礎(chǔ)。利用領(lǐng)先的設(shè)計、分析、仿真和測量技術(shù),新思科技將繼續(xù)提供卓越的信號完整性和抖動性能,以及包括MAC+PCS+PHY在內(nèi)的完整以太網(wǎng)解決方案。
審核編輯:黃飛
?
評論
查看更多