上一期分享了“詳解DPU網(wǎng)絡(luò)卸載場景及架構(gòu)”,今天接著DPU話題,繼續(xù)聊聊DPU另外的兩大應(yīng)用場景。
DPU數(shù)據(jù)平面需要一種大規(guī)模敏捷異構(gòu)的計(jì)算架構(gòu)。這一部分的實(shí)現(xiàn)也處在“百家爭鳴”的階段,各家的實(shí)現(xiàn)方式差別較大,有基于通用處理器核的方式,有基于可編程門陣列FPGA的方式,也有基于異構(gòu)眾核的方式,還有待探索。
存儲(chǔ)功能卸載NVMe-oF硬件加速
NVMe over Fabric(又名NVMe-oF)是一個(gè)相對較新的協(xié)議規(guī)范,旨在使用NVMe通過網(wǎng)絡(luò)結(jié)構(gòu)將主機(jī)連接到存儲(chǔ),支持對數(shù)據(jù)中心的計(jì)算和存儲(chǔ)進(jìn)行分解。NVMe-oF協(xié)議定義了使用各種通用的傳輸協(xié)議來實(shí)現(xiàn)NVMe功能的方式。在NVMe-oF誕生之前,數(shù)據(jù)存儲(chǔ)協(xié)議可以分為三種:
(1)iSCSI:是一種基于IP的存儲(chǔ)網(wǎng)絡(luò)標(biāo)準(zhǔn),在TCP/IP網(wǎng)絡(luò)上通過發(fā)送 SCSI命令來訪問塊存儲(chǔ)服務(wù)。
(2)光纖通道(Fibre Channel):是一種高速的數(shù)據(jù)傳輸協(xié)議,提供有序無損的塊數(shù)據(jù)傳輸。主要用于關(guān)鍵高可靠要求的業(yè)務(wù)上。
(3)SAS(Serial Attached SCSI):一種點(diǎn)對點(diǎn)串行協(xié)議,通過SAS線纜傳 輸數(shù)據(jù)。
上述數(shù)據(jù)存儲(chǔ)協(xié)議,在當(dāng)今數(shù)據(jù)爆發(fā)的時(shí)代,已經(jīng)無法滿足大數(shù)據(jù)量的傳 輸。NVMe-oF的出現(xiàn),不僅解決了上述協(xié)議的性能瓶頸問題,它還允許組織為 高度分布式、高度可用的應(yīng)用程序?qū)嵤M向擴(kuò)展的存儲(chǔ)。通過將NVMe協(xié)議擴(kuò)展到SAN設(shè)備,NVMe-oF提高了CPU的使用效率,同時(shí)提高了服務(wù)器和存儲(chǔ)應(yīng)用程序之間的連接速度。
NVMe-oF主要支持三大類Fabric傳輸選項(xiàng),分別是FC、RDMA和TCP,其中RDMA支持InfiniBand、RoCEv2和iWARP。
NVMe-oF/FC和第六代FC可以共存于同一基礎(chǔ)設(shè)施中,避免了數(shù)據(jù)中心的叉車升級。但是,NVMe-oF/FC不具有軟件定義存儲(chǔ)的能力。NVMe-oF/RDMA利用了RDMA網(wǎng)絡(luò)的優(yōu)勢,是理想的Fabric,提供了低延 遲、低抖動(dòng)和低CPU使用率低傳輸層協(xié)議,可以最大限度利用硬件加速,避免軟件協(xié)議棧開銷。同時(shí),由于RDMA是一種內(nèi)存讀寫技術(shù),可以應(yīng)用在眾多場景中,如GPUDirect Storage的應(yīng)用場景。
NVMe-oF/TCP利用了TCP協(xié)議的可靠性傳輸?shù)奶攸c(diǎn),以及TCP/IP網(wǎng)絡(luò)的通用性和良好的互操作性,可以完美的應(yīng)用于現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)。在相對性能要求不是非常高的場景,NVMe-oF/TCP可作為備選。
NVMe支持Host端(Initiator或Client)和Controller端(Target或Server),目 前DPU智能網(wǎng)卡硬件加速的場景中,包括如下四中情況:
(1)普通智能網(wǎng)卡硬件加速NVMe-oF Initiator。智能網(wǎng)卡支持NVMe-oF/TCP和NVMe-oF/RoCEv2作為Initiator,通過硬件卸載NVMe-oF/TCP或NVMe- oF/RoCEv2,用于計(jì)算和存儲(chǔ)之間,來達(dá)到較高性能。
(2)支持GPUDirect Storage的智能網(wǎng)卡加速NVMe-oF Initiator和Target。GPUDirect Storage是NVIDIA提出的GPU可以繞過CPU直接訪問存儲(chǔ)磁盤的技術(shù),RDMA技術(shù)是GPUDirect Storage的基礎(chǔ)。這類網(wǎng)卡可以通過硬件卸載NVMe- oF/RDMA來實(shí)現(xiàn)GPU與遠(yuǎn)端存儲(chǔ)服務(wù)的直接訪問。常見的如NVMe-oF/RDMA IB和NVMe-oF/RoCEv2。
(3)智能網(wǎng)卡硬件加速NVMe-oF Target。該場景主要是通過智能網(wǎng)卡提供PCIe Root Complex能力和NVMe-oF Controller端的硬件卸載加速,來實(shí)現(xiàn)NVMe存儲(chǔ)服務(wù)器。如Broadcom Stingray PS1100R是這個(gè)場景的代表之一。
(4)DPU芯片硬件加速NVMe-oF Target。該場景是通過DPU芯片提供多個(gè)PCIe Root Complex通道以及多個(gè)100Gbps的網(wǎng)卡實(shí)現(xiàn)的超大吞吐的存儲(chǔ)服務(wù)器。Fungible FS1600 12x100Gbps帶寬吞吐的存儲(chǔ)服務(wù)器是這個(gè)場景的典型代表。
OpenStack從Rocky版本已經(jīng)支持了NVMe-oF,通過OpenStack Cinder通過消息在NVMe-oF Target上來創(chuàng)建,查詢和刪除卷等,OpenStack Nova在主機(jī)上通過NVMe-oF Initiator發(fā)現(xiàn)NVMe-oF存儲(chǔ)設(shè)備,并將存儲(chǔ)設(shè)備信息傳遞給Hypervisor來實(shí)現(xiàn)虛擬機(jī)掛載磁盤。另外,OpenStack集成Ceph做塊存儲(chǔ)和對象存儲(chǔ)已經(jīng)非常成熟,Ceph的后端存儲(chǔ)也漸漸的從使用本地磁盤的方式轉(zhuǎn)向遠(yuǎn)端NVMe存儲(chǔ),這樣NVMe-oF為Ceph存儲(chǔ)服務(wù)提供了容量可伸縮的能力。
Virtio-blk硬件加速 基于virtio的virtio-blk是KVM-Qemu虛擬化生態(tài)中的虛擬化塊存儲(chǔ)的一種實(shí) 現(xiàn)方式,利用了virtio共享內(nèi)存的機(jī)制,提供了一種高效的塊存儲(chǔ)掛載的方法。Guest OS內(nèi)核通過加載virtio-blk驅(qū)動(dòng),實(shí)現(xiàn)塊存儲(chǔ)的讀寫,無需額外的廠家專用驅(qū)動(dòng)。Virtio-blk設(shè)備在虛擬機(jī)以一個(gè)磁盤的方式呈現(xiàn),是目前應(yīng)用最廣泛的虛擬存儲(chǔ)控制器。
由于virtio機(jī)制通過硬件實(shí)現(xiàn)加速已經(jīng)是通用做法,所以利用這個(gè)優(yōu)勢,virtio-blk卸載到硬件,已經(jīng)是必然趨勢。在智能網(wǎng)卡中,將virtio-blk到后端映射到如NVMe-oF的遠(yuǎn)端磁盤上,這樣相比較當(dāng)前virtio-blk的用法,不需要在主機(jī)系統(tǒng)中掛載很多的遠(yuǎn)端NVMe磁盤,由智能網(wǎng)卡直接完成映射,更加安全。
安全功能卸載硬件信任根
硬件信任根在安全領(lǐng)域是其它安全功能的基礎(chǔ),主要表現(xiàn)如下方面:
(1)硬件信任根(Root-Of-Trust):硬件信任根提供更離散的密鑰生成算法,并且與主機(jī)操作系統(tǒng)相隔離,可以做到硬件防破解。硬件信任根實(shí)現(xiàn)私有 密鑰存儲(chǔ),可以反克隆和簽名。通過硬件信任根認(rèn)證授權(quán)實(shí)現(xiàn)訪問受控。
(2)加密解密(Encryption/Decryption):數(shù)據(jù)加密解密算法完全卸載到硬件網(wǎng)卡,無需主機(jī)CPU資源,效率更高更可靠??梢詫?shí)現(xiàn)通用加密算法和國 密算法等。
(3)密鑰證書管理(KMS):密鑰證書管理卸載到智能網(wǎng)卡,與主機(jī)系統(tǒng)相隔離;支持多種密鑰交換算法,如D-H密鑰交換等。
(4)動(dòng)態(tài)數(shù)據(jù)安全(Secure Data-in-Motion):利用硬件級加解密算法,對 傳輸通道上的數(shù)據(jù)做加解密處理,如IPSec和TLS等。硬件處理可以實(shí)現(xiàn)更高吞 吐量。
(5)靜態(tài)數(shù)據(jù)安全(Secure Data-at-Rest):在存儲(chǔ)服務(wù)中,永久存盤的數(shù)據(jù)需要進(jìn)行加密,防止被竊取,硬件級數(shù)據(jù)加解密在存儲(chǔ)服務(wù)中可以提供更高效的數(shù)據(jù)讀取,并保證數(shù)據(jù)安全。
(6)流日志和流分析(Flowlog):流分析和流日志監(jiān)控,對數(shù)據(jù)中心流量做精細(xì)監(jiān)控,有效識(shí)別,可以及時(shí)識(shí)別DDoS攻擊,并做出響應(yīng)。
安全服務(wù)應(yīng)用
在安全領(lǐng)域,還有很多的安全功能產(chǎn)品,如NGFW,WAF,IPS/IDS,DDoS防御設(shè)備等。隨著云和虛擬化技術(shù)的發(fā)展,越來越多的安全功能產(chǎn)品的實(shí) 現(xiàn)方式轉(zhuǎn)為虛擬化方式,并通過云平臺(tái)來部署管理。這些安全功能產(chǎn)品由于部署在數(shù)據(jù)中心流量的主要路徑上,轉(zhuǎn)發(fā)性能對整體網(wǎng)絡(luò)的吞吐量和時(shí)延具有重要的影響?;赬86的軟件實(shí)現(xiàn)方式,需要大量CPU資源來處理對應(yīng)的業(yè)務(wù)邏 輯,性能上的瓶頸已經(jīng)愈發(fā)明顯。通過智能網(wǎng)卡對這些安全功能產(chǎn)品做硬件加速,已經(jīng)是必然趨勢。
由于安全功能產(chǎn)品對報(bào)文處理的深度不同,有些只需要在二至四層處理,有些則需要在七層進(jìn)行處理,所以在智能網(wǎng)卡的卸載方式上,也存在不同。如NGFW和DDoS等設(shè)備,可以通過流表卸載的方式,對流量進(jìn)行攔截,來加速運(yùn)行在主機(jī)系統(tǒng)中的安全服務(wù)應(yīng)用。如IPS/IDS等,需要對報(bào)文內(nèi)容做深度檢測, 則可以通過in-line的方式將數(shù)據(jù)深度檢測功能卸載到智能網(wǎng)卡的CPU上,這時(shí)需要智能網(wǎng)卡的CPU具有較強(qiáng)的性能。
隔離網(wǎng)絡(luò)虛擬化
在傳統(tǒng)的網(wǎng)卡上做云平臺(tái)虛擬化,Hypervisor以及對應(yīng)的虛擬化網(wǎng)絡(luò)的實(shí)現(xiàn),都是在主機(jī)操作系統(tǒng)上實(shí)現(xiàn)的。這樣如果黑客如果攻陷了Hypervisor并拿到 主機(jī)操作系統(tǒng)的root權(quán)限,就可以通過篡改虛擬化網(wǎng)絡(luò)配置,來對租戶網(wǎng)絡(luò)進(jìn)行攻擊,甚至可以滲透到其它計(jì)算節(jié)點(diǎn),進(jìn)行更大范圍的攻擊。
引入DPU智能網(wǎng)卡之后,將虛擬化網(wǎng)絡(luò)的控制平面完全卸載到智能網(wǎng)卡 上,與主機(jī)操作系統(tǒng)相隔離。即使黑客攻陷了Hypervisor,獲取了主機(jī)操作系統(tǒng)的root權(quán)限,也無法篡改虛擬化網(wǎng)絡(luò)的配置,這樣可以將黑客的攻擊范圍限制在 主機(jī)操作系統(tǒng)上,不會(huì)影響到虛擬化網(wǎng)絡(luò)以及其它主機(jī)。進(jìn)而達(dá)到了安全隔離的效果。
審核編輯 :李倩
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4761瀏覽量
72033 -
DPU
+關(guān)注
關(guān)注
0文章
357瀏覽量
24169 -
智能網(wǎng)卡
+關(guān)注
關(guān)注
1文章
53瀏覽量
12235
原文標(biāo)題:詳解DPU存儲(chǔ)、安全卸載及架構(gòu)
文章出處:【微信號:AI_Architect,微信公眾號:智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論