rm新时代靠谱的平台,新时代平台

1.什么是DPU

DPU（Data Processing Unit）是以數(shù)據(jù)為中心構(gòu)造的專用處理器，采用軟件定義技術(shù)路線支撐基礎(chǔ)設(shè)施層資源虛擬化，支持存儲(chǔ)、安全、服務(wù)質(zhì)量管理等基礎(chǔ)設(shè)施層服務(wù)。2020年NVIDIA公司發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”，掀起了一波行業(yè)熱潮。DPU的出現(xiàn)是異構(gòu)計(jì)算的一個(gè)階段性標(biāo)志。與GPU的發(fā)展類似，DPU是應(yīng)用驅(qū)動(dòng)的體系結(jié)構(gòu)設(shè)計(jì)的又一典型案例；但與GPU不同的是，DPU面向的應(yīng)用更加底層。DPU要解決的核心問(wèn)題是基礎(chǔ)設(shè)施的“降本增效”，即將“CPU處理效率低下、GPU處理不了”的負(fù)載卸載到專用DPU，提升整個(gè)計(jì)算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本（TCO）。DPU的出現(xiàn)也許是體系結(jié)構(gòu)朝著專用化路線發(fā)展的又一個(gè)里程碑。

關(guān)于DPU中“D”的解釋

DPU中的“D”有三種解釋：

（1）Data Processing Unit，即數(shù)據(jù)處理器。這種解釋把“數(shù)據(jù)”放在核心位置，區(qū)別于信號(hào)處理器、基帶處理器等通信相關(guān)的處理器對(duì)應(yīng)的“信號(hào)”，也區(qū)別于GPU對(duì)應(yīng)的圖形圖像類數(shù)據(jù)，這里的“數(shù)據(jù)”主要指數(shù)字化以后的各種信息，特別是各種時(shí)序化、結(jié)構(gòu)化的數(shù)據(jù)，比如大型的結(jié)構(gòu)化表格，網(wǎng)絡(luò)流中的數(shù)據(jù)包，海量的文本等等。DPU就是處理這類數(shù)據(jù)的專用引擎。

（2）Datacenter Processing Unit，即數(shù)據(jù)中心處理器。這種解釋把數(shù)據(jù)中心作為DPU的應(yīng)用場(chǎng)景，特別是隨著WSC（Warehouse-scale Computer）的興起，不同規(guī)模的數(shù)據(jù)中心成為了IT核心基礎(chǔ)設(shè)施。目前來(lái)看，DPU確實(shí)在數(shù)據(jù)中心中使用前景非常廣闊。但是計(jì)算中心的三大部分：計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)，計(jì)算部分是CPU占主導(dǎo)，GPU輔助；網(wǎng)絡(luò)部分是路由器和交換機(jī)，存儲(chǔ)部分是高密度磁盤(pán)構(gòu)成的的RAID系統(tǒng)和SSD為代表非易失性存儲(chǔ)系統(tǒng)。在計(jì)算和網(wǎng)絡(luò)中扮演數(shù)據(jù)處理的芯片都可以稱之為Datacenter Processing Unit，所以這種說(shuō)法相對(duì)比較片面。

（3）Data-centric Processing Unit，即以數(shù)據(jù)為中心的處理器。Data-centric，即數(shù)據(jù)為中心，是處理器設(shè)計(jì)的一種理念，相對(duì)于“Control-centric”即控制為中心。經(jīng)典的馮諾依曼體系結(jié)構(gòu)就是典型的控制為中心的結(jié)構(gòu)，在馮諾依曼經(jīng) 典計(jì)算模型中有控制器、計(jì)算器、存儲(chǔ)器、輸入和輸出，在指令系統(tǒng)中的表現(xiàn) 是具有一系列非常復(fù)雜的條件跳轉(zhuǎn)和尋址指令。而數(shù)據(jù)為中心的理念與數(shù)據(jù)流（Data Flow）計(jì)算一脈相承，是一種實(shí)現(xiàn)高效計(jì)算的方法。同時(shí)，現(xiàn)在試圖打破訪存墻（Memory Wall）的各種近存（Near-memory）計(jì)算、存內(nèi)（Inmemory）計(jì)算、存算一體等技術(shù)路線，也符合數(shù)據(jù)為中心的設(shè)計(jì)理念。

以上三種關(guān)于“D”的解釋，從不同角度反映DPU的特征，都有一定的可取之處，筆者認(rèn)為可以作為不同的三個(gè)維度來(lái)理解DPU的內(nèi)涵。

DPU的作用

DPU最直接的作用是作為CPU的卸載引擎，接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù)，釋放CPU的算力到上層應(yīng)用。以網(wǎng)絡(luò)協(xié)議處理為例，要線速處理10G的網(wǎng)絡(luò)需要的大約4個(gè)Xeon CPU的核，也就是說(shuō)，單是做網(wǎng)絡(luò)數(shù)據(jù)包處理，就可以占去一個(gè)8核高端CPU一半的算力。如果考慮40G、100G的高速網(wǎng)絡(luò)，性能的開(kāi)銷(xiāo)就更加難以承受了。Amazon把這些開(kāi)銷(xiāo)都稱之為 “Datacenter Tax”，即還未運(yùn)行業(yè)務(wù)程序，先接入網(wǎng)絡(luò)數(shù)據(jù)就要占去的計(jì)算資源。AWS Nitro產(chǎn)品家族旨在將數(shù)據(jù)中心開(kāi)銷(xiāo)（為虛擬機(jī)提供遠(yuǎn)程資源，加密解密，故障跟蹤，安全策略等服務(wù)程序）全部從CPU卸載到Nitro加速卡上，將給上層應(yīng)用釋放30%的原本用于支付“Tax”的算力！

DPU可以成為新的數(shù)據(jù)網(wǎng)關(guān)，將安全隱私提升到一個(gè)新的高度。在網(wǎng)絡(luò)環(huán)境下，網(wǎng)絡(luò)接口是理想的隱私的邊界，但是加密、解密算法開(kāi)銷(xiāo)都很大，例如國(guó)密標(biāo)準(zhǔn)的非對(duì)稱加密算法SM2、哈希算法SM3和對(duì)稱分組密碼算法SM4。如果用CPU來(lái)處理，就只能做少部分?jǐn)?shù)據(jù)量的加密。在未來(lái)，隨著區(qū)塊鏈承載的業(yè)務(wù)的逐漸成熟，運(yùn)行共識(shí)算法POW，驗(yàn)簽等也會(huì)消耗掉大量的CPU算力。而這些都可以通過(guò)將其固化在DPU中來(lái)實(shí)現(xiàn)，甚至DPU將成為一個(gè)可信根。

DPU也可以成為存儲(chǔ)的入口，將分布式的存儲(chǔ)和遠(yuǎn)程訪問(wèn)本地化。隨著 SSD性價(jià)比逐漸可接受，部分存儲(chǔ)遷移到SSD器件上已經(jīng)成為可能，傳統(tǒng)的面向機(jī)械硬盤(pán)的SATA協(xié)議并不適用于SSD存儲(chǔ)，所以，將SSD通過(guò)本地PCIe或高速網(wǎng)絡(luò)接入系統(tǒng)就成為必選的技術(shù)路線。NVMe（Non Volatile Memory Express）就是用于接入SSD存儲(chǔ)的高速接口標(biāo)準(zhǔn)協(xié)議，可以通過(guò)PCIe作為底層傳輸協(xié)議，將SSD的帶寬優(yōu)勢(shì)充分發(fā)揮出來(lái)。同時(shí)，在分布式系統(tǒng)中，還可通過(guò)NVMe over Fabrics（NVMe-oF）協(xié)議擴(kuò)展到InfiniBand、Ethernet、或Fibre channel節(jié)點(diǎn)中，以RDMA的形式實(shí)現(xiàn)存儲(chǔ)的共享和遠(yuǎn)程訪問(wèn)。這些新的協(xié)議處理都可以集成在DPU中以實(shí)現(xiàn)對(duì)CPU的透明處理。進(jìn)而，DPU將可能承接各種互連協(xié)議控制器的角色，在靈活性和性能方面達(dá)到一個(gè)更優(yōu)的平衡點(diǎn)。

DPU將成為算法加速的沙盒，成為最靈活的加速器載體。DPU不完全是一顆固化的ASIC，在CXL、CCIX等標(biāo)準(zhǔn)組織所倡導(dǎo)CPU、GPU與DPU等數(shù)據(jù)一致性訪問(wèn)協(xié)議的鋪墊下，將更進(jìn)一步掃清DPU編程障礙，結(jié)合FPGA等可編程器件，可定制硬件將有更大的發(fā)揮空間，“軟件硬件化”將成為常態(tài)，異構(gòu)計(jì)算的潛能將因各種DPU的普及而徹底發(fā)揮出來(lái)。在出現(xiàn)“Killer Application”的領(lǐng)域都有可能出現(xiàn)與之相對(duì)應(yīng)的DPU，諸如傳統(tǒng)數(shù)據(jù)庫(kù)應(yīng)用如OLAP、OLTP， 5G 邊緣計(jì)算，智能駕駛V2X等等。

2.DPU的發(fā)展背景

DPU的出現(xiàn)是異構(gòu)計(jì)算的又一個(gè)階段性標(biāo)志。摩爾定律放緩使得通用CPU 性能增長(zhǎng)的邊際成本迅速上升，數(shù)據(jù)表明現(xiàn)在CPU的性能年化增長(zhǎng)（面積歸一化之后）僅有3%左右1，但計(jì)算需求卻是爆發(fā)性增長(zhǎng)，這幾乎是所有專用計(jì)算芯片得以發(fā)展的重要背景因素。以AI芯片為例，最新的GPT-3等千億級(jí)參數(shù)的超大型模型的出現(xiàn)，將算力需求推向了一個(gè)新的高度。DPU也不例外。隨著2019年我國(guó)以信息網(wǎng)絡(luò)等新型基礎(chǔ)設(shè)施為代表的“新基建”戰(zhàn)略帷幕的拉開(kāi)，5G、千兆光纖網(wǎng)絡(luò)建設(shè)發(fā)展迅速，移動(dòng)互聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)等領(lǐng)域發(fā)展日新月異。云計(jì)算、數(shù)據(jù)中心、智算中心等基礎(chǔ)設(shè)施快速擴(kuò)容。網(wǎng)絡(luò)帶寬從主流 10G朝著25G、40G、100G、200G甚至400G發(fā)展。網(wǎng)絡(luò)帶寬和連接數(shù)的劇增使得數(shù)據(jù)的通路更寬、更密，直接將處于端、邊、云各處的計(jì)算節(jié)點(diǎn)暴露在了劇增的數(shù)據(jù)量下，而CPU的性能增長(zhǎng)率與數(shù)據(jù)量增長(zhǎng)率出現(xiàn)了顯著的“剪刀差”現(xiàn)象。所以，尋求效率更高的計(jì)算芯片就成為了業(yè)界的共識(shí)。DPU芯片就是在這樣的趨勢(shì)下提出的。

帶寬性能增速比（RBP）失調(diào)

摩爾定律的放緩與全球數(shù)據(jù)量的爆發(fā)這個(gè)正在迅速激化的矛盾通常被作為處理器專用化的大背景，正所謂硅的摩爾定律雖然已經(jīng)明顯放緩，但“數(shù)據(jù)摩爾定律”已然到來(lái)。IDC的數(shù)據(jù)顯示，全球數(shù)據(jù)量在過(guò)去10年年均復(fù)合增長(zhǎng)率接近50%，并進(jìn)一步預(yù)測(cè)每四個(gè)月對(duì)于算力的需求就會(huì)翻一倍。因此必須要找到新的可以比通用處理器帶來(lái)更快算力增長(zhǎng)的計(jì)算芯片，DPU于是應(yīng)運(yùn)而生。這個(gè)大背景雖然有一定的合理性，但是還是過(guò)于模糊，并沒(méi)有回答DPU之所以新的原因是什么，是什么“量變”導(dǎo)致了“質(zhì)變”？

從現(xiàn)在已經(jīng)公布的各個(gè)廠商的DPU架構(gòu)來(lái)看，雖然結(jié)構(gòu)有所差異，但都不約而同強(qiáng)調(diào)網(wǎng)絡(luò)處理能力。從這個(gè)角度看，DPU是一個(gè)強(qiáng)IO型的芯片，這也是 DPU與CPU最大的區(qū)別。CPU的IO性能主要體現(xiàn)在高速前端總線（在Intel的體系里稱之為FSB，F(xiàn)ront Side Bus），CPU通過(guò)FSB連接北橋芯片組，然后連接到主存系統(tǒng)和其他高速外設(shè)（主要是PCIe設(shè)備）。目前更新的CPU雖然通過(guò)集成存儲(chǔ)控制器等手段弱化了北橋芯片的作用，但本質(zhì)是不變的。CPU對(duì)于處理網(wǎng)絡(luò)處理的能力體現(xiàn)在網(wǎng)卡接入鏈路層數(shù)據(jù)幀，然后通過(guò)操作系統(tǒng)（OS）內(nèi)核態(tài)，發(fā)起DMA中斷響應(yīng)，調(diào)用相應(yīng)的協(xié)議解析程序，獲得網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)（雖然也有不通過(guò)內(nèi)核態(tài)中斷，直接在用戶態(tài)通過(guò)輪詢獲得網(wǎng)絡(luò)數(shù)據(jù)的技術(shù)，如Intel的DPDK，Xilinx的Onload等，但目的是降低中斷的開(kāi)銷(xiāo)，降低內(nèi)核態(tài)到用戶態(tài)的切換開(kāi)銷(xiāo)，并沒(méi)有從根本上增強(qiáng)IO性能）。可見(jiàn)，CPU是通過(guò)非常間接的手段來(lái)支持網(wǎng)絡(luò)IO，CPU的前端總線帶寬也主要是要匹配主存（特別是 DDR）的帶寬，而不是網(wǎng)絡(luò)IO的帶寬。

相較而言，DPU的IO帶寬幾乎可以與網(wǎng)絡(luò)帶寬等同，例如，網(wǎng)絡(luò)支持 25G，那么DPU就要支持25G。從這個(gè)意義上看，DPU繼承了網(wǎng)卡芯片的一些特征，但是不同于網(wǎng)卡芯片，DPU不僅僅是為了解析鏈路層的數(shù)據(jù)幀，而是要做直接的數(shù)據(jù)內(nèi)容的處理，進(jìn)行復(fù)雜的計(jì)算。所以，DPU是在支持強(qiáng)IO基礎(chǔ)上的具備強(qiáng)算力的芯片。簡(jiǎn)言之，DPU是一個(gè)IO密集型的芯片；相較而言，DPU還是一個(gè)計(jì)算密集型芯片。

進(jìn)一步地，通過(guò)比較網(wǎng)絡(luò)帶寬的增長(zhǎng)趨勢(shì)和通用CPU性能增長(zhǎng)趨勢(shì)，能發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象：帶寬性能增速比（RBP，Ratio of Bandwidth and Performance growth rate）失調(diào)。RBP定義為網(wǎng)絡(luò)帶寬的增速比上CPU性能增速，即RBP=BW GR/Perf. GR如圖1-1所示，以Mellanox的ConnectX系列網(wǎng)卡帶寬作為網(wǎng)絡(luò)IO的案例，以Intel的系列產(chǎn)品性能作為CPU的案例，定義一個(gè)新指標(biāo)“帶寬性能增速比”來(lái)反應(yīng)趨勢(shì)的變化。

2010年前，網(wǎng)絡(luò)的帶寬年化增長(zhǎng)大約是30%，到2015年微增到35%，然后在近年達(dá)到45%。相對(duì)應(yīng)的，CPU的性能增長(zhǎng)從10年前的23%，下降到12%，并在近年直接降低到3%。在這三個(gè)時(shí)間段內(nèi)，RBP指標(biāo)從1附近，上升到3，并在近年超過(guò)了10！如果在網(wǎng)絡(luò)帶寬增速與CPU性能增速近乎持平，RGR～1，IO壓力尚未顯現(xiàn)出來(lái)，那么當(dāng)目前RBP達(dá)到10倍的情形下，CPU幾乎已經(jīng)無(wú)法直接應(yīng)對(duì)網(wǎng)絡(luò)帶寬的增速。RBP指標(biāo)在近幾年劇增也許是DPU終于等到機(jī)會(huì)“橫空出世”的重要原因之一。

異構(gòu)計(jì)算發(fā)展趨勢(shì)的助?

DPU首先作為計(jì)算卸載的引擎，直接效果是給CPU“減負(fù)”。DPU的部分功能可以在早期的TOE（TCP/IP Offloading Engine）中看到。正如其名，TOE 就是將CPU的處理TCP協(xié)議的任務(wù)“卸載”到網(wǎng)卡上。傳統(tǒng)的TCP軟件處理方式雖然層次清晰，但也逐漸成為網(wǎng)絡(luò)帶寬和延遲的瓶頸。軟件處理方式對(duì)CPU的占用，也影響了CPU處理其他應(yīng)用的性能。TCP卸載引擎（TOE）技術(shù)，通過(guò)將TCP協(xié)議和IP協(xié)議的處理進(jìn)程交由網(wǎng)絡(luò)接口控制器進(jìn)行處理，在利用硬件加速為網(wǎng)絡(luò)時(shí)延和帶寬帶來(lái)提升的同時(shí)，顯著降低了 CPU 處理協(xié)議的壓力。具體有三個(gè)方面的優(yōu)化：1）隔離網(wǎng)絡(luò)中斷，2）降低內(nèi)存數(shù)據(jù)拷貝量，3）協(xié)議解析硬件化。這三個(gè)技術(shù)點(diǎn)逐漸發(fā)展成為現(xiàn)在數(shù)據(jù)平面計(jì)算的三個(gè)技術(shù)，也是DPU普遍需要支持的技術(shù)點(diǎn)。例如，NVMe協(xié)議，將中斷策略替換為輪詢策略，更充分的開(kāi)發(fā)高速存儲(chǔ)介質(zhì)的帶寬優(yōu)勢(shì)；DPDK采用用戶態(tài)調(diào)用，開(kāi)發(fā)“Kernelbypassing”機(jī)制，實(shí)現(xiàn)零拷貝（Zeor-Copy）；在DPU中的面向特定應(yīng)用的專用核，例如各種復(fù)雜的校驗(yàn)和計(jì)算、數(shù)據(jù)包格式解析、查找表、IP安全（IPSec）的支持等，都可以視為協(xié)議處理的硬件化支持。所以，TOE基本可以被視為DPU的雛形。

延續(xù)TOE的思想，將更多的計(jì)算任務(wù)卸載至網(wǎng)卡側(cè)來(lái)處理，促進(jìn)了智能網(wǎng)卡（SmartNIC）技術(shù)的發(fā)展。常見(jiàn)的智能網(wǎng)卡的基本結(jié)構(gòu)是以高速網(wǎng)卡為基本功能，外加一顆高性能的FPGA芯片作為計(jì)算的擴(kuò)展，來(lái)實(shí)現(xiàn)用戶自定義的計(jì)算邏輯，達(dá)到計(jì)算加速的目的。然而，這種“網(wǎng)卡+FPGA”的模式并沒(méi)有將智能網(wǎng)卡變成一個(gè)絕對(duì)主流的計(jì)算設(shè)備，很多智能網(wǎng)卡產(chǎn)品被當(dāng)作單純的FPGA加速卡來(lái)使用，在利用FPGA優(yōu)勢(shì)的同時(shí)，也繼承了所有FPGA的局限性。DPU是對(duì)現(xiàn)有的SmartNIC的一個(gè)整合，能看到很多以往SmartNIC的影子，但明顯高于之前任何一個(gè)SmartNIC的定位。

Amazon的AWS在2013研發(fā)了Nitro產(chǎn)品，將數(shù)據(jù)中心開(kāi)銷(xiāo)（為虛機(jī)提供遠(yuǎn)程資源，加密解密，故障跟蹤，安全策略等服務(wù)程序）全部放到專用加速器上執(zhí) 行。Nitro架構(gòu)采用輕量化Hypervisor配合定制化的硬件，將虛擬機(jī)的計(jì)算（主要是CPU和內(nèi)存）和I/O（主要是網(wǎng)絡(luò)和存儲(chǔ)）子系統(tǒng)分離開(kāi)來(lái)，通過(guò)PCIe總線連接，節(jié)省了30%的CPU資源。阿里云提出的X-Dragon系統(tǒng)架構(gòu)，核心是MOC卡，有比較豐富的對(duì)外接口，也包括了計(jì)算資源、存儲(chǔ)資源和網(wǎng)絡(luò)資源。MOC卡的核心X-Dragon SOC，統(tǒng)一支持網(wǎng)絡(luò)，IO、存儲(chǔ)和外設(shè)的虛擬化，為虛擬機(jī)、裸金屬、容器云提供統(tǒng)一的資源池。

可見(jiàn)，DPU其實(shí)在行業(yè)內(nèi)已經(jīng)孕育已久，從早期的網(wǎng)絡(luò)協(xié)議處理卸載，到后續(xù)的網(wǎng)絡(luò)、存儲(chǔ)、虛擬化卸載，其帶來(lái)的作用還是非常顯著的，只不過(guò)在此之前DPU“有實(shí)無(wú)名”，現(xiàn)在是時(shí)候邁上一個(gè)新的臺(tái)階了。

3.DPU發(fā)展歷程

隨著云平臺(tái)虛擬化技術(shù)的發(fā)展，智能網(wǎng)卡的發(fā)展基本可以分為三個(gè)階段（如圖1-2所示）：

圖1-2 智能?卡發(fā)展的三個(gè)階段

第?階段：基礎(chǔ)功能?卡

基礎(chǔ)功能網(wǎng)卡（即普通網(wǎng)卡）提供2x10G或2x25G帶寬吞吐，具有較少的硬件卸載能力，主要是Checksum，LRO/LSO等，支持SR-IOV，以及有限的多隊(duì)列能力。在云平臺(tái)虛擬化網(wǎng)絡(luò)中，基礎(chǔ)功能網(wǎng)卡向虛擬機(jī)（VM）提供網(wǎng)絡(luò)接入的方式主要是有三種：由操作系統(tǒng)內(nèi)核驅(qū)動(dòng)接管網(wǎng)卡并向虛擬機(jī)（VM）分發(fā)網(wǎng)絡(luò) 流量；由OVS-DPDK接管網(wǎng)卡并向虛擬機(jī)（VM）分發(fā)網(wǎng)絡(luò)流量；以及高性能場(chǎng)景下通過(guò)SR-IOV的方式向虛擬機(jī)（VM）提供網(wǎng)絡(luò)接入能力。

第?階段：硬件卸載?卡

可以認(rèn)為是第一代智能網(wǎng)卡，具有豐富的硬件卸載能力，比較典型的有 OVS Fastpath硬件卸載，基于RoCEv1和RoCEv2的RDMA網(wǎng)絡(luò)硬件卸載，融合網(wǎng) 絡(luò)中無(wú)損網(wǎng)絡(luò)能力（PFC，ECN，ETS等）的硬件卸載，存儲(chǔ)領(lǐng)域NVMe-oF的硬件卸載，以及安全傳輸?shù)臄?shù)據(jù)面卸載等。這個(gè)時(shí)期的智能網(wǎng)卡以數(shù)據(jù)平面的卸載為主。

第三階段：DPU智能?卡

可以認(rèn)為是第二代智能網(wǎng)卡，在第一代智能網(wǎng)卡基礎(chǔ)上加入CPU，可以用來(lái)卸載控制平面的任務(wù)和一些靈活復(fù)雜的數(shù)據(jù)平面任務(wù)。目前DPU智能網(wǎng)卡的特點(diǎn)首先是支持PCIe Root Complex模式和Endpoint模式，在配置為PCIe Root Complex模式時(shí)，可以實(shí)現(xiàn)NVMe存儲(chǔ)控制器，與NVMe SSD磁盤(pán)一起構(gòu)建存儲(chǔ)服務(wù)器；

另外，由于大規(guī)模的數(shù)據(jù)中心網(wǎng)絡(luò)的需要，對(duì)無(wú)損網(wǎng)絡(luò)的要求更加嚴(yán)格，需要解決數(shù)據(jù)中心網(wǎng)絡(luò)中Incast流量、“大象”流等帶來(lái)的網(wǎng)絡(luò)擁塞和時(shí)延問(wèn)題，各大公有云廠商紛紛提出自己的應(yīng)對(duì)方法，比如阿里云的高精度擁塞控制（HPCC，High Precision Congestion Control），AWS的可擴(kuò)展可靠數(shù)據(jù)報(bào)（SRD，Scalable Reliable Datagram）等。

DPU智能網(wǎng)卡在解決這類問(wèn)題時(shí)將會(huì)引入更為先進(jìn)的方法，如Fungible的TrueFabric，就是在DPU智能網(wǎng)卡上的新式解決方案。還有，業(yè)界提出了Hypervisor中的網(wǎng)絡(luò)，存儲(chǔ)和安全全棧卸載的發(fā)展方向，以Intel為代表提出了IPU，將基礎(chǔ)設(shè)施的功能全部卸載到智能網(wǎng)卡中，可以全面釋放之前用于Hypervisor管理的CPU算力。

未來(lái)的DPU智能?卡硬件形態(tài)

隨著越來(lái)越多的功能加入到智能網(wǎng)卡中，其功率將很難限制在75W之內(nèi)，這樣就需要獨(dú)立的供電系統(tǒng)。所以，未來(lái)的智能網(wǎng)卡形態(tài)可能有三種形態(tài)：

（1）獨(dú)立供電的智能網(wǎng)卡，需要考慮網(wǎng)卡狀態(tài)與計(jì)算服務(wù)之間低層信號(hào)識(shí) 別，在計(jì)算系統(tǒng)啟動(dòng)的過(guò)程中或者啟動(dòng)之后，智能網(wǎng)卡是否已經(jīng)是進(jìn)入服務(wù)狀態(tài)，這些都需要探索和解決。

（2）沒(méi)有PCIe接口的DPU智能網(wǎng)卡，可以組成DPU資源池，專門(mén)負(fù)責(zé)網(wǎng)絡(luò) 功能，例如負(fù)載均衡，訪問(wèn)控制，防火墻設(shè)備等。管理軟件可以直接通過(guò)智能網(wǎng)卡管理接口定義對(duì)應(yīng)的網(wǎng)絡(luò)功能，并作為虛擬化網(wǎng)絡(luò)功能集群提供對(duì)應(yīng)網(wǎng)絡(luò) 能力，無(wú)需PCIe接口。

（3）多PCIe接口，多網(wǎng)口的DPU芯片。例如Fungible F1芯片，支持16個(gè)雙模PCIe控制器，可以配置為Root Complex模式或Endpoint模式，以及8x100G網(wǎng)絡(luò) 接口。通過(guò)PCIe Gen3 x8接口可以支撐8個(gè)Dual-Socket計(jì)算服務(wù)器，網(wǎng)絡(luò)側(cè)提供 8x100G帶寬的網(wǎng)口。

DPU作為一種新型的專用處理器，隨著需求側(cè)的變化，必將在未來(lái)計(jì)算系統(tǒng)中成為一個(gè)重要組成部分，對(duì)于支撐下一代數(shù)據(jù)中心起到至關(guān)重要的作用。

4.DPU與CPU、GPU的關(guān)系

CPU是整個(gè)IT生態(tài)的定義者，無(wú)論是服務(wù)器端的x86還是移動(dòng)端的ARM，都各自是構(gòu)建了穩(wěn)固的生態(tài)系統(tǒng)，不僅形成技術(shù)生態(tài)圈，還形成了閉合價(jià)值鏈。

GPU是執(zhí)行規(guī)則計(jì)算的主力芯片，如圖形渲染。經(jīng)過(guò)NVIDIA對(duì)通用GPU （GPGPU）和CUDA編程框架的推廣，GPU在數(shù)據(jù)并行的任務(wù)如圖形圖像、深度學(xué)習(xí)、矩陣運(yùn)算等方面成為了主力算力引擎，并且成為了高性能計(jì)算最重要的輔助計(jì)算單元。2021年6月公布的Top500高性能計(jì)算機(jī)（超級(jí)計(jì)算機(jī)）的前10 名中，有六臺(tái)（第2、3、5、6、8、9名）都部署有NVIDIA的GPU。

數(shù)據(jù)中心與超極計(jì)算機(jī)不同，后者主要面向科學(xué)計(jì)算，如大飛機(jī)研制，石油勘探、新藥物研發(fā)、氣象預(yù)報(bào)、電磁環(huán)境計(jì)算等應(yīng)用，性能是主要指標(biāo)，對(duì)接入帶寬要求不高；但數(shù)據(jù)中心面向云計(jì)算商業(yè)化應(yīng)用，對(duì)接入帶寬，可靠性、災(zāi)備、彈性擴(kuò)展等要求更高，與之相適應(yīng)發(fā)展起來(lái)的虛擬機(jī)、容器云、并行編程框、內(nèi)容分發(fā)網(wǎng)等等技術(shù)，都是為了更好的支撐上層商業(yè)應(yīng)用如電商、支付、視頻流、網(wǎng)盤(pán)、辦公OA等。但是這些IaaS和PaaS層的服務(wù)開(kāi)銷(xiāo)極大， Amazon曾公布AWS的系統(tǒng)開(kāi)銷(xiāo)在30%以上。如果需要實(shí)現(xiàn)更好的QoS，在網(wǎng)絡(luò)、存儲(chǔ)、安全等基礎(chǔ)設(shè)施服務(wù)上的開(kāi)銷(xiāo)還會(huì)更高。

這些基礎(chǔ)層應(yīng)用類型與CPU架構(gòu)匹配程度不高導(dǎo)致計(jì)算效率低下?，F(xiàn)有的 CPU的架構(gòu)有兩個(gè)大類：多核架構(gòu)（數(shù)個(gè)或數(shù)十幾個(gè)核）和眾核架構(gòu)（數(shù)百個(gè)核以上），每種架構(gòu)支持唯一的規(guī)范通用指令集之一，如x86、ARM等。以指令集為界，軟件和硬件被劃分開(kāi)來(lái)分別獨(dú)立發(fā)展，迅速的催生了軟件產(chǎn)業(yè)和微處理器產(chǎn)業(yè)的協(xié)同發(fā)展。但是，隨著軟件復(fù)雜度的上升，軟件的生產(chǎn)率（Productivity）得到更多的重視，軟件工程學(xué)科也更加關(guān)注如何高效地構(gòu)建大型軟件系統(tǒng)，而非如何用更少的硬件資源獲得盡可能高的執(zhí)行性能。業(yè)界有個(gè)被戲稱的“安迪比爾定律”，其內(nèi)容是“What Andy gives， Bill takes away”，安迪（Andy）指英特爾前CEO安迪·格魯夫，比爾（Bill）指微軟前任CEO比爾· 蓋茨，意為硬件提高的性能，很快被軟件消耗掉了。

正如CPU在處理圖像處理時(shí)不夠高效一樣，現(xiàn)在有大量的基礎(chǔ)層應(yīng)用CPU處理起來(lái)也比較低效，例如網(wǎng)絡(luò)協(xié)議處理，交換路由計(jì)算，加密解密，數(shù)據(jù)壓縮等這類計(jì)算密集的任務(wù)，還有支持分布式處理的數(shù)據(jù)一致性協(xié)議如RAFT等。這些數(shù)據(jù)或者通過(guò)從網(wǎng)絡(luò)IO接入系統(tǒng)，或者通過(guò)板級(jí)高速PCIe總線接入系統(tǒng)，再通過(guò)共享主存經(jīng)由DMA機(jī)制將數(shù)據(jù)提供給CPU或GPU來(lái)處理。既要處理大量的上層應(yīng)用，又要維持底層軟件的基礎(chǔ)設(shè)施，還要處理各種特殊的IO類協(xié)議，復(fù)雜的計(jì)算任務(wù)讓CPU不堪重負(fù)。

這些基礎(chǔ)層負(fù)載給“異構(gòu)計(jì)算”提供了一個(gè)廣闊的發(fā)展空間。將這些基礎(chǔ)層負(fù)載從CPU上卸載下來(lái)，短期內(nèi)可以“提質(zhì)增效”，長(zhǎng)遠(yuǎn)來(lái)看還為新的業(yè)務(wù)增長(zhǎng)提供技術(shù)保障。DPU將有望成為承接這些負(fù)載的代表性芯片，與CPU和 GPU優(yōu)勢(shì)互補(bǔ)，建立起一個(gè)更加高效的算力平臺(tái)?？梢灶A(yù)測(cè)，用于數(shù)據(jù)中心的DPU的量將達(dá)到和數(shù)據(jù)中心服務(wù)器等量的級(jí)別，每年千萬(wàn)級(jí)新增，算上存量的替代，估算五年總體的需求量將突破兩億顆，超過(guò)獨(dú)立GPU卡的需求量。每臺(tái)服務(wù)器可能沒(méi)有GPU，但必須有DPU，好比每臺(tái)服務(wù)器都必須配網(wǎng)卡一樣。

5.DPU的產(chǎn)業(yè)化機(jī)遇

數(shù)據(jù)中心作為IT基礎(chǔ)設(shè)施最重要的組成部分在過(guò)去10年成為了各大高端芯片廠商關(guān)注的焦點(diǎn)。各大廠商都將原有的產(chǎn)品和技術(shù)，用全新的DPU的理念重新封裝后，推向了市場(chǎng)。

NVIDIA收購(gòu)Mellanox后，憑借原有的ConnectX系列高速網(wǎng)卡技術(shù)，推出其 BlueField系列DPU，成為DPU賽道的標(biāo)桿。作為算法加速芯片頭部廠商的Xilinx 在2018年還將“數(shù)據(jù)中心優(yōu)先（Datacenter First）”作為其全新發(fā)展戰(zhàn)略。發(fā)布了Alveo系列加速卡產(chǎn)品，旨在大幅提升云端和本地?cái)?shù)據(jù)中心服務(wù)器性能。2019年4月，Xilinx宣布收購(gòu)Solarflare通信公司，將領(lǐng)先的FPGA、MPSoC和ACAP解決方案與 Solarflare 的超低時(shí)延網(wǎng)絡(luò)接口卡（ NIC ）技術(shù)以及應(yīng)用加速軟件相結(jié)合，從而實(shí)現(xiàn)全新的融合SmartNIC解決方案。Intel 2015年底收購(gòu)了Xilinx的競(jìng)爭(zhēng) 對(duì)手——Altera，在通用處理器的基礎(chǔ)上，進(jìn)一步完善硬件加速能力。Intel 2021年6月新發(fā)布的IPU產(chǎn)品（可以被視為Intel版本的DPU），將FPGA與Xeon D系列處理器集成，成為了DPU賽道有力的競(jìng)爭(zhēng)者。IPU是具有強(qiáng)化的加速器和以太網(wǎng)連接的高級(jí)網(wǎng)絡(luò)設(shè)備，它使用緊密耦合、專用的可編程內(nèi)核加速和管理基礎(chǔ)架構(gòu)功能。IPU提供全面的基礎(chǔ)架構(gòu)分載，并可作為運(yùn)行基礎(chǔ)架構(gòu)應(yīng)用的主機(jī)的控制點(diǎn)，從而提供一層額外防護(hù)。幾乎同一時(shí)間，Marvall發(fā)布了OCTEON 10 DPU產(chǎn)品，不僅具備強(qiáng)大的轉(zhuǎn)發(fā)能力，還具有突出的AI處理能力。

在同一時(shí)期，一些傳統(tǒng)并不涉足芯片設(shè)計(jì)的互聯(lián)網(wǎng)廠商，如海外的Google、Amazon，國(guó)內(nèi)的阿里巴巴等巨頭紛紛啟動(dòng)了自研芯片的計(jì)劃，而且研發(fā)重點(diǎn)都是面向數(shù)據(jù)處理器的高性能專用處理器芯片，希望以此改善云端的服務(wù)器的成本結(jié)構(gòu)，提高單位能耗的性能水平。數(shù)據(jù)研究預(yù)測(cè)DPU在云計(jì)算市場(chǎng)的應(yīng)用需求最大，且市場(chǎng)規(guī)模隨著云計(jì)算數(shù)據(jù)中心的迭代而增長(zhǎng)，到2025年單中國(guó)的市場(chǎng)容量都將達(dá)到40億美元的規(guī)模。

來(lái)源：本篇內(nèi)容來(lái)自專用數(shù)據(jù)處理器（DPU）技術(shù) 白皮書(shū)，中國(guó)科學(xué)院計(jì)算技術(shù)研究所，鄢貴海等”。版權(quán)歸原作者所有

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

DPU

DPU

+關(guān)注

關(guān)注
0

文章
357

瀏覽量
24169
PCIe

PCIe

+關(guān)注

關(guān)注
15

文章
1234

瀏覽量
82579
智能網(wǎng)卡

智能網(wǎng)卡

+關(guān)注

關(guān)注
1

文章
53

瀏覽量
12235

原文標(biāo)題：DPU技術(shù)發(fā)展概況

文章出處：【微信號(hào)：Open_FPGA，微信公眾號(hào)：OpenFPGA】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

中科馭數(shù)分析DPU在云原生網(wǎng)絡(luò)與智算網(wǎng)絡(luò)中的實(shí)際應(yīng)用

CCF Chip 2024，精彩不能停！7月21日下午，中科馭數(shù)在第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）芯片大會(huì)的“馭數(shù)專屬時(shí)刻”仍在繼續(xù)，馭數(shù)組織承辦“DPU技術(shù)趨勢(shì)和應(yīng)用——DPU在云原生與智算網(wǎng)絡(luò)中

發(fā)表于 08-02 11:21 ?698次閱讀

IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書(shū)

AWS 與阿里云在 DPU 的應(yīng)用方面也有成功案例，借助其軟硬件全棧自研的優(yōu)勢(shì)，快速完成了云計(jì)算系統(tǒng)的改造工作，實(shí)現(xiàn)了 DPU 大規(guī)模落地部署，在降低自身運(yùn)營(yíng)成本的同時(shí)為客戶提供更好的使用體驗(yàn)，并產(chǎn)生

發(fā)表于 07-24 15:32

中科馭數(shù)：DPU是構(gòu)建高效智算中心基礎(chǔ)設(shè)施的必選項(xiàng)

日前，在江蘇省未來(lái)網(wǎng)絡(luò)創(chuàng)新研究院、網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室舉辦的“2024智算網(wǎng)絡(luò)技術(shù)與應(yīng)用創(chuàng)新峰會(huì)”上，中科馭數(shù)作為DPU算力基礎(chǔ)設(shè)施領(lǐng)軍企業(yè)，受邀出席本次峰會(huì)。中科馭數(shù)產(chǎn)品運(yùn)營(yíng)部副總經(jīng)理曹輝

發(fā)表于 07-08 10:51 ?701次閱讀

中科馭數(shù)CEO鄢貴海：從計(jì)算系統(tǒng)的三個(gè)視角重新審視DPU的核心價(jià)值

在信息技術(shù)日新月異的浪潮中，DPU正逐漸嶄露頭角。當(dāng)前，DPU發(fā)展的核心驅(qū)動(dòng)力來(lái)自于什么？DPU技術(shù)是否已經(jīng)足夠成熟到廣泛應(yīng)用？市場(chǎng)上頭部玩家參與到這一創(chuàng)新技術(shù)的市場(chǎng)角逐之中？在算力時(shí)代，DP

發(fā)表于 06-28 14:27 ?473次閱讀

芯片軟件全上陣 DPU“全家桶”來(lái)了！中科馭數(shù)成功舉辦2024產(chǎn)品發(fā)布會(huì)

業(yè)務(wù)痛點(diǎn)精心打造的全新DPU卡產(chǎn)品，以及揭秘如何通過(guò)基于DPU的馭云高性能云底座釋放云端算力，為參會(huì)者呈現(xiàn)一場(chǎng)從硬件到軟件，從技術(shù)到應(yīng)用的全方位體驗(yàn)。發(fā)布會(huì)現(xiàn)場(chǎng)，清華大學(xué)教授中國(guó)工程

發(fā)表于 06-23 11:09 ?841次閱讀

中科馭數(shù)發(fā)布高性能DPU芯片K2-Pro

在信息技術(shù)領(lǐng)域，每一次芯片技術(shù)的突破都代表著行業(yè)的一次飛躍。近日，DPU領(lǐng)域的領(lǐng)軍企業(yè)中科馭數(shù)宣布，成功研發(fā)并發(fā)布了其第三代DPU芯片——“K2-Pro”。這款芯片的發(fā)布，標(biāo)志著中科馭數(shù)在DPU領(lǐng)域的技術(shù)實(shí)力達(dá)到了新的高度。

發(fā)表于 06-21 11:41 ?766次閱讀

基于芯啟源NFP3800DPU芯片的深信服安全加速卡XSX40FNN網(wǎng)卡

近日，國(guó)內(nèi)DPU領(lǐng)域的領(lǐng)軍企業(yè)芯啟源宣布，基于芯啟源NFP3800DPU芯片定制的深信服安全加速卡XSX40FNN網(wǎng)卡已成功應(yīng)用于其防火墻產(chǎn)品，并已批量推向市場(chǎng)。

發(fā)表于 05-29 14:06 ?928次閱讀

NVIDIA DPU編程入門(mén)開(kāi)課儀式在澳門(mén)科技大學(xué)成功舉辦

5 月 24 日，NVIDIA DPU 編程入門(mén)開(kāi)課儀式在澳門(mén)科技大學(xué)成功舉辦。作為首個(gè)在中國(guó)開(kāi)設(shè) NVIDIA DPU 編程相關(guān)課程的高校，來(lái)自澳門(mén)科技大學(xué)不同院系的師生共同見(jiàn)證了本次儀式。

發(fā)表于 05-28 09:40 ?391次閱讀

DPU技術(shù)賦能下一代AI算力基礎(chǔ)設(shè)施

4月19日，在以“重構(gòu)世界奔赴未來(lái)”為主題的2024中國(guó)生成式AI大會(huì)上，中科馭數(shù)作為DPU新型算力基礎(chǔ)設(shè)施代表，受邀出席了中國(guó)智算中心創(chuàng)新論壇，發(fā)表了題為《以網(wǎng)絡(luò)為中心的AI算力底座構(gòu)建之路》主題演講，勾勒出在通往AGI之路上，DP

發(fā)表于 04-20 11:31 ?841次閱讀

明天線上見(jiàn)！DPU構(gòu)建高性能云算力底座——DPU技術(shù)開(kāi)放日最新議程公布！

算力，是數(shù)字經(jīng)濟(jì)時(shí)代的新質(zhì)生產(chǎn)力。隨著人工智能、智算中心建設(shè)等需求不斷拓展，DPU在各行各業(yè)數(shù)據(jù)中心的應(yīng)用逐步深入。異構(gòu)算力代表DPU在新質(zhì)生產(chǎn)力建設(shè)中，能否給出別開(kāi)生面的答案，應(yīng)戰(zhàn)算力難題？

發(fā)表于 04-03 18:12 ?1001次閱讀

中科馭數(shù)DPU技術(shù)開(kāi)放日秀“肌肉”：云原生網(wǎng)絡(luò)、RDMA、安全加速、低延時(shí)網(wǎng)絡(luò)等方案組團(tuán)亮相

DPU技術(shù)開(kāi)放日既是對(duì)DPU技術(shù)應(yīng)用的典型方案展示，也是DPU技術(shù)在重要細(xì)分場(chǎng)景走向成熟的標(biāo)志。

發(fā)表于 04-01 11:48 ?777次閱讀

KPU FLEXFLOW? -2100R是中科馭數(shù)完全自研的首款具備RDMA功能的DPU加速卡#RDMA

DPURDMA

中科馭數(shù)（北京）科技有限公司
發(fā)布于 :2024年03月25日 18:40:59

FPGA-Based DPU網(wǎng)卡的發(fā)展和應(yīng)用

采用單芯片的SoC形態(tài)，兼顧性能和功耗。FPGA-Based DPU在硬件設(shè)計(jì)上的挑戰(zhàn)主要來(lái)自芯片面積和功耗。

發(fā)表于 02-23 14:40 ?2040次閱讀

DPU技術(shù)發(fā)展及落地實(shí)戰(zhàn)

Nitro DPU系統(tǒng)提供了密鑰、網(wǎng)絡(luò)、安全、服務(wù)器和監(jiān)控等功能支持，釋放了底層服務(wù)資源供客戶的虛擬機(jī)使用，并且NitroDPU使AWS可以提供更多的裸金屬實(shí)例類型，甚至將特定實(shí)例的網(wǎng)絡(luò)性能提升到100Gbps。

發(fā)表于 12-26 09:36 ?1142次閱讀

《數(shù)據(jù)處理器：DPU編程入門(mén)》DPU計(jì)算入門(mén)書(shū)籍測(cè)評(píng)

來(lái)說(shuō)，DPU的需求也越來(lái)越大，大量邊緣計(jì)算的算力需求在飆升，邊緣數(shù)據(jù)預(yù)測(cè)，邊緣決策，邊緣圖像識(shí)別，一個(gè)個(gè)需求都在暴增著未來(lái)Xlinx的業(yè)務(wù)肯定是會(huì)增長(zhǎng)的，當(dāng)然，有了國(guó)產(chǎn)替代就不一定了。 2、云計(jì)算在云計(jì)算

發(fā)表于 12-24 10:54