RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

I/O軟件模擬虛擬化和類虛擬化

安芯教育科技 ? 來(lái)源:軟硬件融合 ? 作者:Chaobowx ? 2021-10-13 11:09 ? 次閱讀

I/O虛擬化是SmartNIC/DPU/IPU中最核心的部分,AWS NITRO就是從I/O硬件虛擬化開(kāi)始,逐漸開(kāi)啟了DPU這個(gè)新處理器類型的創(chuàng)新。而Virtio接口,已經(jīng)是事實(shí)上的云計(jì)算虛擬化的標(biāo)準(zhǔn)化接口。Virtio成為整個(gè)問(wèn)題的焦點(diǎn):不管是SPDK/vhost、還是vDPA加速,都是圍繞著Virtio接口展開(kāi)。

1 I/O設(shè)備虛擬化:從軟件模擬到SR-IOV

I/O虛擬化是計(jì)算機(jī)虛擬化最復(fù)雜的部分,因?yàn)樯婕暗?a target="_blank">CPU、操作系統(tǒng)、Hypervisor以及I/O設(shè)備的相互配合。I/O虛擬化也經(jīng)歷了從軟件模擬虛擬化、類虛擬化向完全硬件虛擬化的轉(zhuǎn)變。

a. I/O軟件模擬虛擬化和類虛擬化

I/O設(shè)備虛擬化場(chǎng)景,既要關(guān)注I/O設(shè)備模擬,也要關(guān)注vCPU和虛擬I/O設(shè)備的交互,許多條件交織在一起,使得整個(gè)問(wèn)題變的非常復(fù)雜。I/O虛擬化性能代價(jià)主要體現(xiàn)在三個(gè)方面:驅(qū)動(dòng)訪問(wèn)設(shè)備寄存器的代價(jià);設(shè)備通過(guò)中斷和DMA訪問(wèn)驅(qū)動(dòng)的代價(jià);設(shè)備模擬本身的代價(jià)。因此,I/O虛擬化性能優(yōu)化主要是通過(guò)五個(gè)角度:

減少I/O訪問(wèn)寄存器的代價(jià):一方面是把部分I/O的訪問(wèn)變成MMIO訪問(wèn),這樣就不需要陷入Hypervisor;另一方面是優(yōu)化VM-exit/VM-entry切換的代價(jià)。

減少I/O訪問(wèn)的次數(shù):比如簡(jiǎn)化通知機(jī)制,簡(jiǎn)化虛擬化設(shè)備功能等。

優(yōu)化中斷:主要有如APIC的中斷硬件虛擬化或者不需要中斷的輪詢驅(qū)動(dòng)。

減少DMA訪問(wèn)的代價(jià):通過(guò)IOMMU等實(shí)現(xiàn)Pass Through模式。

減少設(shè)備模擬的代價(jià):則主要是通過(guò)硬件SR-IOV機(jī)制實(shí)現(xiàn)硬件設(shè)備。

如圖1(a),虛擬機(jī)中看到的設(shè)備,一般是由Hypervisor模擬出來(lái)的。虛擬設(shè)備的功能,可以少于也可以多于物理的設(shè)備,甚至可以模擬出一些不存在的特性,模擬出不存在的硬件設(shè)備。通過(guò)I/O軟件模擬的方式,我們稱之為I/O設(shè)備軟件模擬虛擬化。在I/O軟件模擬虛擬化的解決方案中,客戶機(jī)VM要使用底層的硬件資源,需要Hypervisor來(lái)截獲每一條請(qǐng)求指令,然后模擬出這些指令的行為。我們都知道Hypervisor截獲指令的動(dòng)作就是從VM-exit,處理完模擬然后再VM-entry的過(guò)程,這個(gè)過(guò)程的代價(jià)很高,每條指令都要如此,帶來(lái)的性能開(kāi)銷必然是非常龐大的。

如圖1(b)所示,Virtio提供的類虛擬化方式,客戶機(jī)完成設(shè)備的前端驅(qū)動(dòng)程序,Hypervisor配合客戶機(jī)完成相應(yīng)的后端驅(qū)動(dòng)程序,這樣兩者之間通過(guò)交互機(jī)制就可以實(shí)現(xiàn)高效的虛擬化過(guò)程。

Virtio框架如圖2所示,使用Virtqueue來(lái)實(shí)現(xiàn)其I/O機(jī)制,每個(gè)Virtqueue就是一個(gè)承載大量數(shù)據(jù)的Queue。VRing是Virtqueue的具體實(shí)現(xiàn)方式,針對(duì)VRing會(huì)有相應(yīng)的描述符表格進(jìn)行描述。Virtio是一個(gè)通用的驅(qū)動(dòng)和設(shè)備接口框架,基于Virtio分別實(shí)現(xiàn)了Virtio-net、Virtio-blk、Virtio-scsi等很多不同類型的模擬設(shè)備及設(shè)備驅(qū)動(dòng)。

Virtio類虛擬化比傳統(tǒng)的I/O設(shè)備軟件模擬的性能優(yōu)勢(shì)體現(xiàn)在:很多控制和狀態(tài)信息不需要通過(guò)寄存器讀寫操作來(lái)交互的,而是通過(guò)寫入Virtqueue的相關(guān)數(shù)據(jù)結(jié)構(gòu)來(lái)讓驅(qū)動(dòng)(Driver)和設(shè)備(Device)雙方交互。并且在數(shù)據(jù)交互的時(shí)候,只需要在一定批量數(shù)據(jù)變化需要對(duì)方處理的時(shí)候才會(huì)通知對(duì)方,驅(qū)動(dòng)通知設(shè)備是通過(guò)寫Kick寄存器,設(shè)備通知驅(qū)動(dòng)是通過(guò)中斷。

b. I/O完全硬件虛擬化

評(píng)價(jià)I/O虛擬化技術(shù)的兩個(gè)指標(biāo)——性能和通用性。性能,當(dāng)然是越接近無(wú)虛擬化環(huán)境下的I/O性能最好;而通用性,則是I/O虛擬化對(duì)客戶操作系統(tǒng)越透明越好。要想要高性能,最直接的方法就是讓客戶機(jī)直接使用真實(shí)的硬件設(shè)備;要想要通用性,則是要用想辦法讓客戶機(jī)操作系統(tǒng)自帶的驅(qū)動(dòng)程序能夠發(fā)現(xiàn)設(shè)備并操作設(shè)備。

客戶機(jī)直接操作設(shè)備面臨兩個(gè)問(wèn)題:第一,如何讓客戶機(jī)直接訪問(wèn)到設(shè)備真實(shí)的I/O地址空間(包括I/O和MMIO);第二,如何讓設(shè)備的DMA直接訪問(wèn)客戶機(jī)的內(nèi)存空間。內(nèi)存硬件虛擬化的EPT技術(shù)可以解決第一個(gè)問(wèn)題。而VT-d技術(shù)則用來(lái)解決第二個(gè)問(wèn)題。VT-d技術(shù)主要是引入地址重映射(IOMMU+IOTLB),負(fù)責(zé)提供重映射和設(shè)備直接分配。從設(shè)備端的DMA訪問(wèn),都會(huì)進(jìn)入地址重映射進(jìn)行地址轉(zhuǎn)換,使得設(shè)備可以訪問(wèn)到對(duì)應(yīng)客戶機(jī)特定的內(nèi)存區(qū)域。

VT-d技術(shù)雖然可以將物理的I/O設(shè)備直接透?jìng)鹘o虛擬機(jī),但是一臺(tái)計(jì)算機(jī)系統(tǒng)受限于接口,可以連的物理設(shè)備畢竟有限。因此,PCIe SR-IOV技術(shù)應(yīng)運(yùn)而生。通過(guò)PCIe SR-IOV技術(shù),一個(gè)物理I/O設(shè)備可以虛擬出多個(gè)虛擬設(shè)備,分配給虛擬機(jī)使用。

如圖1(c)所示,SR-IOV引入了兩個(gè)PCIe的功能類型:

PFs(Physical Functions):包括管理SR-IOV功能在內(nèi)的所有PCIe設(shè)備。

VFs(Virtual Functions):輕量級(jí)的PCIe設(shè)備,只能進(jìn)行必要的配置和數(shù)據(jù)傳輸。

Hypervisor把VF分配給虛擬機(jī),通過(guò)IOMMU等硬件輔助技術(shù)提供的DMA數(shù)據(jù)映射,直接在虛擬機(jī)和硬件設(shè)備之間傳輸數(shù)據(jù)。

c. I/O虛擬化總結(jié)

通過(guò)兼容性、性能、成本、擴(kuò)展性四個(gè)方面對(duì)I/O虛擬化技術(shù)進(jìn)行總結(jié),詳見(jiàn)表1:

表1 不同I/O虛擬化方式對(duì)比

I/O虛擬化方式 VM的兼容性 性能 成本 擴(kuò)展性
設(shè)備接口軟件模擬 重用已有驅(qū)動(dòng) 頻繁的上下文切換 沒(méi)有額外硬件成本 受設(shè)備模擬的性能代價(jià)約束
類虛擬化前后端 需要加載特定驅(qū)動(dòng) 基于共享隊(duì)列的機(jī)制減少了前后端交互 沒(méi)有額外硬件成本 受設(shè)備后端的性能代價(jià)約束
直接分配VT-d 重用設(shè)備驅(qū)動(dòng) 直接訪問(wèn)物理設(shè)備,減少虛擬化開(kāi)銷 需要購(gòu)買額外的較多的硬件 硬件設(shè)備獨(dú)占性,受主板擴(kuò)展槽限制
直接分配SR-IOV 需要加載VF驅(qū)動(dòng) 直接訪問(wèn)物理設(shè)備,減少虛擬化開(kāi)銷 需要購(gòu)買額外的較少的硬件 硬件設(shè)備支持多個(gè)虛擬設(shè)備,擴(kuò)展性較好

2 通用接口Virtio

Virtio旨在提供一套高效的、良好維護(hù)的通用的Linux驅(qū)動(dòng),實(shí)現(xiàn)虛擬機(jī)應(yīng)用和不同Hypervisor實(shí)現(xiàn)的模擬設(shè)備之間標(biāo)準(zhǔn)化的接口。Virtio作為類虛擬化的I/O設(shè)備接口,廣泛應(yīng)用于云計(jì)算虛擬化場(chǎng)景,某種程度上,Virtio已經(jīng)成為事實(shí)上的I/O設(shè)備的接口標(biāo)準(zhǔn)。

在上一節(jié)介紹I/O虛擬化時(shí),Virtio作為I/O類虛擬化技術(shù)做過(guò)介紹。本節(jié)會(huì)略去虛擬化相關(guān)的內(nèi)容,把Virtio作為一個(gè)標(biāo)準(zhǔn)的接口進(jìn)行詳細(xì)的闡述。

2.1 Virtio寄存器

Virtio寄存器有三種類型:設(shè)備狀態(tài)字、功能特征位以及PCIe配置空間。

a. 設(shè)備狀態(tài)字

如表2所示,設(shè)備狀態(tài)字(Device Status Field)標(biāo)識(shí)了初始化序列步驟的完成情況。

表2 設(shè)備狀態(tài)字描述

Bit位置 狀態(tài)字值 定義 描述
0 1 ACKNOWLEDGE 表示操作系統(tǒng)已找到該設(shè)備并將其識(shí)別為有效的Virtio設(shè)備
1 2 DRIVER 表示操作系統(tǒng)已找到該設(shè)備并將其識(shí)別為有效的Virtio設(shè)備
2 4 DRIVER_OK 表示已安裝驅(qū)動(dòng)程序并準(zhǔn)備驅(qū)動(dòng)設(shè)備
3 8 FEATURES_OK 表示驅(qū)動(dòng)程序已確認(rèn)其理解的所有功能,并且功能協(xié)商已完成
4 16 保留位 保留位
5 32 保留位 保留位
6 64 DEVICE_NEEDS_RESET 表示設(shè)備遇到了無(wú)法恢復(fù)的錯(cuò)誤。
7 128 FAILED 表示操作系統(tǒng)出現(xiàn)問(wèn)題,或者驅(qū)動(dòng)和設(shè)備功能不匹配,或者設(shè)備運(yùn)行過(guò)程中出現(xiàn)致命錯(cuò)誤等。

基于設(shè)備狀態(tài)字,Virtio協(xié)議定義并約束了驅(qū)動(dòng)程序必須按照以下順序初始化設(shè)備:

(1)重置設(shè)備。

(2)設(shè)置ACKNOWLEDGE狀態(tài)位,表示OS已發(fā)現(xiàn)此設(shè)備。

(3)設(shè)置DRIVER狀態(tài)位,表示OS知道如何驅(qū)動(dòng)此設(shè)備。

(4)讀取設(shè)備功能位,并將操作系統(tǒng)和驅(qū)動(dòng)程序可以理解的功能位子集寫入設(shè)備。

(5)設(shè)置FEATURES_OK狀態(tài)位。

(6)重新讀取設(shè)備狀態(tài),如果FEATURES_OK讀取結(jié)果依然為1,則表示設(shè)備接受了驅(qū)動(dòng)的功能位子集;否則,如果為0,則表示該設(shè)備不支持驅(qū)動(dòng)的功能子集,該設(shè)備不可用。

(7)執(zhí)行設(shè)備特定的設(shè)置,包括發(fā)現(xiàn)設(shè)備的虛擬隊(duì)列、讀取和可能寫入設(shè)備的virtio配置空間以及填充虛擬隊(duì)列等。

(8)將DRIVER_OK狀態(tài)位設(shè)置為1。此時(shí),設(shè)備初始化完成,設(shè)備處于活動(dòng)狀態(tài)。

(9)如果上述這些步驟中的任何一個(gè)發(fā)生不可恢復(fù)的錯(cuò)誤,驅(qū)動(dòng)程序會(huì)將FAILED狀態(tài)位設(shè)置為1。

b. 功能特征位

每個(gè)Virtio設(shè)備均提供其支持的所有功能對(duì)應(yīng)的功能特征位。在設(shè)備初始化期間,驅(qū)動(dòng)程序?qū)⒆x取此信息并告知設(shè)備它接受的子集。

通過(guò)這種方式可以實(shí)現(xiàn)向前和向后兼容:如果設(shè)備增加了新功能位,則較舊的驅(qū)動(dòng)程序就不會(huì)將該功能位寫回到設(shè)備中(意味著此功能不會(huì)被開(kāi)啟)。同樣,如果驅(qū)動(dòng)程序增加了新的功能,而設(shè)備未提供此功能,則同樣此功能不會(huì)被寫回到設(shè)備(意味著此功能不會(huì)被開(kāi)啟)。

Virtio1.1協(xié)議中的功能位分配如下:

比特位0 – 23:特定設(shè)備類型的功能位;

比特位24 – 37:保留用于擴(kuò)展隊(duì)列和功能協(xié)商機(jī)制的功能位;

比特位38以上:保留功能位以供將來(lái)擴(kuò)展。

c. 配置空間

Virtio over PCI使用的配置空間與標(biāo)準(zhǔn)的PCI配置空間相比,特殊的地方在于其Vendor ID和Device ID。Virtio的Vendor ID為0x1AF4,其Device ID編號(hào)從0x1040-0x107F。

為了跟PCI Capabilities格式兼容,Virtio定義的virtio_pci_cap格式如表3所示。

表3 Virtio的PCI capability結(jié)構(gòu)

Byte 3 Byte 2 Byte 1 Byte 0
0x0 cfg_type cap_len cap_vndr cap_vndr
0x4 padding bar
0x8 offset
0xC Length

其中cfg_type標(biāo)識(shí)virtio_pci_cap類型,共有五種,代表了映射在BAR空間的五組寄存器。virtio_pci_cap類型如表4所示。

表4 Virtio PCI capability類型

類型名稱 ID 描述
VIRTIO_PCI_CAP_COMMON_CFG 1 通用配置
VIRTIO_PCI_CAP_NOTIFY_CFG 2 通知
VIRTIO_PCI_CAP_ISR_CFG 3 ISR狀態(tài)
VIRTIO_PCI_CAP_DEVICE_CFG 4 設(shè)備具體的配置
VIRTIO_PCI_CAP_PCI_CFG 5 PCI配置訪問(wèn)

2.2 Virtqueue交互隊(duì)列

Virtio 1.1引入了Packed Virtqueue的概念,對(duì)應(yīng)的Virtio 1.0的Virtqueue被稱為Split Virtqueue。

如圖3所示,為Virtio1.0的Split Virtqueue結(jié)構(gòu)。Virtqueue由三部分組成:

描述符表

可用的描述符環(huán)

已使用的描述符環(huán)

Virtio 1.0的Split Virtqueue具有一些缺點(diǎn):

如果是虛擬化場(chǎng)景軟件模擬Virtio設(shè)備的話,因?yàn)榉稚⒌臄?shù)據(jù)結(jié)構(gòu),導(dǎo)致Cache利用率較低,每次請(qǐng)求都會(huì)有很多Cache不命中;

如果是硬件實(shí)現(xiàn)的話,每次描述符需要多次設(shè)備DMA訪問(wèn)。

如圖4所示,Virtio 1.1引入了Packed Virtqueue的概念。整個(gè)描述符只有一個(gè)數(shù)據(jù)結(jié)構(gòu)。這樣,如果軟件實(shí)現(xiàn)Virtio設(shè)備模擬的話,可以提升描述符交互的Cache命中率。如果硬件實(shí)現(xiàn)的,可以降低設(shè)備DMA的訪問(wèn)次數(shù)。

2.3 Virtio交互

驅(qū)動(dòng)和設(shè)備的交互,符合生產(chǎn)者消費(fèi)者模型的數(shù)據(jù)及通知(Notification)的交互行為。驅(qū)動(dòng)把共享隊(duì)列的隊(duì)列項(xiàng)準(zhǔn)備好,通過(guò)寫寄存器的方式通知設(shè)備。設(shè)備收到驅(qū)動(dòng)發(fā)送的通知?jiǎng)t處理隊(duì)列項(xiàng)以及相應(yīng)的數(shù)據(jù)搬運(yùn)工作,結(jié)束后更新隊(duì)列狀態(tài)并通知(設(shè)備通知驅(qū)動(dòng)是通過(guò)中斷)驅(qū)動(dòng)。驅(qū)動(dòng)接收到中斷通知時(shí)候,把已經(jīng)使用的隊(duì)列項(xiàng)釋放,并更新隊(duì)列狀態(tài)。

一個(gè)典型的通用的驅(qū)動(dòng)和設(shè)備的交互流程如圖5所示。Virtio場(chǎng)景的驅(qū)動(dòng)和設(shè)備交互,驅(qū)動(dòng)給設(shè)備的通知(Notification)稱為Kick,設(shè)備給驅(qū)動(dòng)的通知稱為Interrupt(中斷)。Kick和Interrupt操作是Virtio接口的一部分,在虛擬化場(chǎng)景,Kick和Interrupt需要非常大的CPU切換代價(jià)。驅(qū)動(dòng)希望在Kick之前產(chǎn)生盡可能多的待處理緩沖項(xiàng)(一個(gè)緩沖項(xiàng)對(duì)應(yīng)一個(gè)描述符和描述符指向的數(shù)據(jù)塊);同樣的,設(shè)備希望處理盡可能多的緩沖項(xiàng)然后再發(fā)送一個(gè)中斷。通過(guò)盡量處理更多的緩沖項(xiàng)的方式,來(lái)攤薄通知的代價(jià)。

這種策略是一種理想狀態(tài),因?yàn)榇蠖鄶?shù)時(shí)候驅(qū)動(dòng)并不知道下一組緩沖項(xiàng)何時(shí)帶來(lái),因此不得不每一組緩沖項(xiàng)準(zhǔn)備好之后就必須要Kick設(shè)備。同樣的,設(shè)備在處理完相應(yīng)的緩沖項(xiàng)之后,就盡快的發(fā)送中斷給驅(qū)動(dòng),以達(dá)到盡可能小的延遲。

如圖6所示,在設(shè)備模擬的虛擬化場(chǎng)景下,驅(qū)動(dòng)可以暫時(shí)禁用中斷,設(shè)備也可以暫時(shí)禁用Kick。通過(guò)這樣的機(jī)制,可以最大限度的減少通知的代價(jià),并且不影響性能和延遲。Virtio 1.1支持兩種通知抑制機(jī)制,因此共有三種模式:

使能通知模式:完全無(wú)抑制,使能通知;

禁用通知模式:如圖6所示,可以完全禁止對(duì)方發(fā)通知給自己;

使能特定的描述符通知模式:告知對(duì)方一個(gè)特定的描述符,當(dāng)對(duì)方順序處理到此描述符處理完成時(shí)產(chǎn)生通知。

2.4 總結(jié)

如圖7,Virtio基于分層的設(shè)計(jì)思想,定義了三層Virtio設(shè)備架構(gòu):

最下層的總線接口。PCI是最常用的Virtio場(chǎng)景使用的總線,但Virtio協(xié)議不僅僅支持PCI,也支持MMIO和Channel IO等。

通用的Virtio交互接口。包括Virtqueue、功能特征位、配置空間等。Virtio交互接口是Virtio最核心的功能,通過(guò)Virtio交互接口實(shí)現(xiàn)了不同類型設(shè)備的標(biāo)準(zhǔn)化。

上層的特定設(shè)備接口。在Virtio協(xié)議里,定義網(wǎng)絡(luò)、塊、控制臺(tái)、SCSI、GPU等各種不同類型的設(shè)備。

Virtio的優(yōu)點(diǎn)體現(xiàn)在:

Virtio實(shí)現(xiàn)了盡可能多的設(shè)計(jì)共享。這樣,在開(kāi)發(fā)的時(shí)候就可以復(fù)用很多軟件和硬件資源,達(dá)到快速開(kāi)發(fā)的目的。

Virtio實(shí)現(xiàn)了接口的標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化體現(xiàn)在兩個(gè)方面:

(1)一個(gè)是通用的Virtio交互接口,統(tǒng)一了不同的設(shè)備類型軟硬件交互;

(2)另一個(gè)是基于Virtio的Virtio-net、Virtio-block等廣泛應(yīng)用于云計(jì)算虛擬化場(chǎng)景,Virtio已經(jīng)成為事實(shí)上的標(biāo)準(zhǔn)I/O接口。

而Virtio的缺點(diǎn),則同樣因?yàn)閂irtio實(shí)現(xiàn)了接口的標(biāo)準(zhǔn)化,而忽略了不同設(shè)備類型數(shù)據(jù)傳輸?shù)奶攸c(diǎn)。因此,在一些大數(shù)據(jù)量傳輸?shù)膱?chǎng)景,效率比較低下。如果是在類似HPC這樣的性能和延遲非常敏感的場(chǎng)景,Virtio就不是一個(gè)很好的選擇。

3 虛擬化卸載

虛擬化卸載指的是計(jì)算機(jī)虛擬化中消耗CPU資源較多的接口設(shè)備模擬、熱遷移、虛擬化管理等任務(wù)的卸載。

a. 接口設(shè)備的卸載

前面我們介紹了網(wǎng)絡(luò)、遠(yuǎn)程存儲(chǔ)等IO工作任務(wù)的卸載,而虛擬化卸載主要指的是跟IO相關(guān)的接口設(shè)備的卸載,例如網(wǎng)絡(luò)、存儲(chǔ)等接口設(shè)備的卸載。IO接口設(shè)備的卸載本身上也是IO硬件虛擬化的過(guò)程,比如我們通過(guò)VT-d技術(shù)實(shí)現(xiàn)從VM中pass though訪問(wèn)硬件設(shè)備,某種程度上也可以認(rèn)為是把運(yùn)行在Hypervisor中的模擬設(shè)備 “卸載”到了硬件。因此,IO接口設(shè)備的卸載本質(zhì)上和IO設(shè)備硬件虛擬化是一件事情。

如圖8,為了實(shí)現(xiàn)設(shè)備接口的標(biāo)準(zhǔn)化、加速IO處理的性能以及潛在的充分利用現(xiàn)有的虛擬化生態(tài)(例如更好的支持設(shè)備熱遷移)等原因,阿里云在神龍芯片里實(shí)現(xiàn)了硬件的Virtio接口設(shè)備,通過(guò)Virtio接口設(shè)備支持Virtio-net網(wǎng)絡(luò)驅(qū)動(dòng)和Virtio-blk存儲(chǔ)驅(qū)動(dòng)等,實(shí)現(xiàn)了類虛擬化IO設(shè)備Virtio的硬件“卸載”。

AWS的NITRO系統(tǒng)支持網(wǎng)絡(luò)、本地存儲(chǔ)和遠(yuǎn)程存儲(chǔ),NITRO實(shí)現(xiàn)了網(wǎng)絡(luò)接口設(shè)備ENA/EFA(AWS自定義接口)的硬件“卸載”以及存儲(chǔ)接口設(shè)備NVMe(遠(yuǎn)程存儲(chǔ)EBS使用的是NVMe接口,本地存儲(chǔ)也是NVMe接口)的卸載。

b. 接口設(shè)備卸載后的遷移問(wèn)題

當(dāng)把設(shè)備“卸載”到硬件,讓VM直接訪問(wèn)硬件設(shè)備,這使得VM的設(shè)備熱遷移變的非常有挑戰(zhàn)。vDPA(vhost Data Path Acceleration,vhost數(shù)據(jù)路徑加速,其中vhost是Virtio后端設(shè)備模擬的輪詢方式實(shí)現(xiàn))實(shí)現(xiàn)了一種折中的解決方案,如圖9所示,vDPA把Virtio分為了控制面和數(shù)據(jù)面:

控制面。vDPA控制面依然是通過(guò)要經(jīng)過(guò)Hypervisor的處理,用于設(shè)備和VM之間的配置更改和功能協(xié)商,用于建立和終止數(shù)據(jù)面。

數(shù)據(jù)面。vDPA數(shù)據(jù)面包括共享隊(duì)列以及相應(yīng)的通知機(jī)制,用于在設(shè)備和VM之間傳輸實(shí)際的數(shù)據(jù)。

使用vDPA一個(gè)重要原因是,在熱遷移的時(shí)候可以很方便的把Virtio數(shù)據(jù)面的處理切換回傳統(tǒng)的Virtio/Vhost后端設(shè)備模擬。這樣,可以充分利用現(xiàn)有的基于KVM/Qemu對(duì)Virtio設(shè)備遷移的解決方案來(lái)完成設(shè)備的遷移。

c. 虛擬化管理的卸載

從軟件虛擬化進(jìn)化到硬件虛擬化的過(guò)程,本身就可以看作是一個(gè)硬件加速以及硬件卸載的過(guò)程。我們逐步的剝離了Hypervisor的功能,比如通過(guò)VT-x技術(shù)“卸載”了Hypervisor的CPU/內(nèi)存等的軟件模擬,以及通過(guò)VT-d以及vDPA等技術(shù)“卸載”了設(shè)備軟件模擬。這些剝離,使得Hypervisor越來(lái)越輕量,整個(gè)系統(tǒng)的虛擬化開(kāi)銷也越來(lái)越少。進(jìn)一步的,我們可以把虛擬化的管理(例如Linux平臺(tái)主流的管理程序Libvirt)卸載到硬件中的嵌入式軟件運(yùn)行。

如圖10, 我們通過(guò)橋接的方式,實(shí)現(xiàn)主機(jī)軟件和硬件中嵌入式軟件通信機(jī)制。把虛擬化管理等軟件任務(wù)從主機(jī)卸載到嵌入式系統(tǒng)(依然有很小一部分任務(wù)無(wú)法卸載,如虛擬機(jī)資源分配、vCPU調(diào)度等)。這樣,可以把幾乎100%的主機(jī)資源提供給用戶,使用戶虛擬機(jī)得到近乎物理機(jī)的性能。

通過(guò)虛擬化管理卸載到硬件中的嵌入式CPU軟件,我們可以做到物理上的業(yè)務(wù)和管理分離,整個(gè)業(yè)務(wù)主機(jī)跟云計(jì)算管理網(wǎng)絡(luò)安全的隔離,只能通過(guò)特定的接口訪問(wèn)到Lite Hypervisor,除此之外,不能訪問(wèn)主機(jī)的任何資源。這樣,即使有潛在的運(yùn)維操作失誤,也無(wú)法對(duì)業(yè)務(wù)主機(jī)造成影響。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 虛擬化
    +關(guān)注

    關(guān)注

    1

    文章

    371

    瀏覽量

    29790
  • APIC
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    7250

原文標(biāo)題:技術(shù)分享 | I/O虛擬化及Virtio接口介紹

文章出處:【微信號(hào):Ithingedu,微信公眾號(hào):安芯教育科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何實(shí)現(xiàn)軟件的emulate功能 emulation和虛擬的區(qū)別是什么

    軟件的Emulate功能與虛擬的區(qū)別 在現(xiàn)代計(jì)算機(jī)技術(shù)中,軟件的emulate功能和虛擬是兩
    的頭像 發(fā)表于 12-05 15:35 ?138次閱讀

    深入KVM虛擬之構(gòu)建高效、可擴(kuò)展的虛擬環(huán)境

    的計(jì)算機(jī),而且每個(gè)邏輯計(jì)算機(jī) 它可以是不同操作系統(tǒng) 虛擬技術(shù):可以擴(kuò)大硬件容量,單個(gè)cpu模擬出多個(gè)cpu并行, 允許一個(gè)平臺(tái)上同時(shí)運(yùn)行多個(gè)操作系統(tǒng),應(yīng)用程序都可以在相互獨(dú)立 的空間內(nèi)運(yùn)行,而且互不影響。 為什么企業(yè)使用
    的頭像 發(fā)表于 11-26 17:22 ?229次閱讀
    深入KVM<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>之構(gòu)建高效、可擴(kuò)展的<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>環(huán)境

    蟬聯(lián)第一!賽迪報(bào)告發(fā)布,云宏虛擬位居國(guó)產(chǎn)獨(dú)立第三方虛擬軟件TOP1

    市場(chǎng)規(guī)模達(dá)到49.7億元,同比增長(zhǎng)14.7%,市場(chǎng)發(fā)展前景廣闊。在激烈的市場(chǎng)競(jìng)爭(zhēng)中,國(guó)產(chǎn)獨(dú)立第三方虛擬軟件廠商云宏,緊隨國(guó)際巨頭VMware之后,位居2023年中國(guó)
    的頭像 發(fā)表于 11-21 15:07 ?292次閱讀
    蟬聯(lián)第一!賽迪報(bào)告發(fā)布,云宏<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>位居國(guó)產(chǎn)獨(dú)立第三方<b class='flag-5'>虛擬</b><b class='flag-5'>化</b><b class='flag-5'>軟件</b>TOP1

    虛擬數(shù)據(jù)恢復(fù)—誤還原Vmware虛擬機(jī)快照的數(shù)據(jù)恢復(fù)案例

    虛擬數(shù)據(jù)恢復(fù)環(huán)境: 一臺(tái)虛擬機(jī)從物理機(jī)遷移到ESXI虛擬平臺(tái),遷移完成后做了一個(gè)快照。虛擬
    的頭像 發(fā)表于 11-12 12:23 ?146次閱讀

    虛擬數(shù)據(jù)恢復(fù)—XenServer虛擬機(jī)數(shù)據(jù)恢復(fù)案例

    服務(wù)器虛擬數(shù)據(jù)恢復(fù)環(huán)境: 某品牌720服務(wù)器中有一組通過(guò)同品牌、型號(hào)為H710P的RAID卡+4塊STAT硬盤組建的RAID10磁盤陣列。上層部署XenServer虛擬平臺(tái)。1臺(tái)
    的頭像 發(fā)表于 11-08 10:32 ?139次閱讀
    <b class='flag-5'>虛擬</b><b class='flag-5'>化</b>數(shù)據(jù)恢復(fù)—XenServer<b class='flag-5'>虛擬</b>機(jī)數(shù)據(jù)恢復(fù)案例

    emc虛擬技術(shù)的應(yīng)用場(chǎng)景

    在當(dāng)今的數(shù)字化時(shí)代,企業(yè)面臨著數(shù)據(jù)爆炸式增長(zhǎng)和業(yè)務(wù)需求不斷變化的挑戰(zhàn)。為了應(yīng)對(duì)這些挑戰(zhàn),企業(yè)需要靈活、高效且可擴(kuò)展的IT基礎(chǔ)設(shè)施。EMC虛擬技術(shù)正是在這樣的背景下應(yīng)運(yùn)而生,它通過(guò)將物理資源抽象
    的頭像 發(fā)表于 11-01 15:26 ?323次閱讀

    云計(jì)算中的虛擬技術(shù)應(yīng)用

    云計(jì)算中的虛擬技術(shù)是一種將計(jì)算機(jī)物理實(shí)體(如服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備)通過(guò)軟件技術(shù)劃分為多個(gè)虛擬實(shí)體的技術(shù),每個(gè)虛擬實(shí)體可以獨(dú)立運(yùn)行操作
    的頭像 發(fā)表于 10-24 09:22 ?596次閱讀

    華納云:OpenStack是虛擬管理平臺(tái)嗎?其工作原理是什么?

    OpenStack 就是一個(gè)虛擬管理平臺(tái)嗎?這樣說(shuō)并不準(zhǔn)確。它們存在很多相似性,但并非完全相同。的確,OpenStack 和虛擬管理平臺(tái)都位于
    的頭像 發(fā)表于 09-23 14:20 ?295次閱讀

    虛擬數(shù)據(jù)恢復(fù)—EXSI虛擬機(jī)誤還原快照如何恢復(fù)數(shù)據(jù)?

    虛擬技術(shù)原理是將硬件虛擬供不同的虛擬機(jī)使用,一臺(tái)物理機(jī)上可以有多臺(tái)虛擬機(jī)。人為誤操作或者物理
    的頭像 發(fā)表于 09-09 11:56 ?362次閱讀
    <b class='flag-5'>虛擬</b><b class='flag-5'>化</b>數(shù)據(jù)恢復(fù)—EXSI<b class='flag-5'>虛擬</b>機(jī)誤還原快照如何恢復(fù)數(shù)據(jù)?

    什么是虛擬機(jī)?什么是虛擬

    在日新月異的科技世界中,虛擬技術(shù)如同一座橋梁,連接著現(xiàn)實(shí)與數(shù)字的鴻溝,為我們打開(kāi)了全新的計(jì)算維度。虛擬機(jī),這一概念,自其誕生以來(lái),就以其獨(dú)特的魅力和強(qiáng)大的功能,深深地影響了軟件開(kāi)發(fā)、
    的頭像 發(fā)表于 09-04 14:55 ?859次閱讀

    虛擬數(shù)據(jù)恢復(fù)—XenServer虛擬平臺(tái)數(shù)據(jù)恢復(fù)案例

    虛擬數(shù)據(jù)恢復(fù)環(huán)境: 某品牌R720服務(wù)器,4塊STAT硬盤通過(guò)H710P陣列卡組建了一組raid10磁盤陣列。服務(wù)器上部署XenServer虛擬平臺(tái),
    的頭像 發(fā)表于 07-30 13:18 ?255次閱讀
    <b class='flag-5'>虛擬</b><b class='flag-5'>化</b>數(shù)據(jù)恢復(fù)—XenServer<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>平臺(tái)數(shù)據(jù)恢復(fù)案例

    軟件可配置模擬 I/O 的設(shè)計(jì)理念

    作者: Kenton Williston 曾幾何時(shí),模擬 I/O 就是最專業(yè)、功能最固定的硬件。例如,電流驅(qū)動(dòng)器和電壓傳感器是完全不同的零件,試圖顛倒其角色可謂是荒謬至極。 軟件可配置
    的頭像 發(fā)表于 05-05 11:10 ?855次閱讀
    <b class='flag-5'>軟件</b>可配置<b class='flag-5'>模擬</b> <b class='flag-5'>I</b>/<b class='flag-5'>O</b> 的設(shè)計(jì)理念

    虛擬軟件棧有哪些防御措施

    虛擬軟件棧是一種在物理服務(wù)器上運(yùn)行多個(gè)虛擬機(jī)的技術(shù),可以提高服務(wù)器資源的利用率和靈活性。然而,虛擬
    的頭像 發(fā)表于 01-25 11:27 ?756次閱讀

    RDMA RNIC虛擬方案

    主要包括Inifiband、RoCE以及iWARP。實(shí)現(xiàn)RDMA協(xié)議的I/O設(shè)備被稱為RNIC。主流云服務(wù)提供商已經(jīng)開(kāi)始廣泛部署RNIC,例如亞馬遜云推出的彈性網(wǎng)絡(luò)適配器(Elastic Network Adapter,ENA)[1]。同時(shí),云服務(wù)提供商通過(guò)硬件
    的頭像 發(fā)表于 01-23 17:23 ?1961次閱讀
    RDMA RNIC<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>方案

    超融合和虛擬的區(qū)別

    景。 一、超融合(Hyper-convergence)的定義和原理 超融合是一種集成了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和虛擬等功能的技術(shù)架構(gòu),它將不同的硬件資源整合到一臺(tái)服務(wù)器中,通過(guò)軟件定義的方式提供一致性的接口和管理平臺(tái)。超融合架構(gòu)通常由
    的頭像 發(fā)表于 01-15 10:36 ?4227次閱讀
    RM新时代网站-首页