背景
PolarDB是阿里云設(shè)計(jì)的云原生OLTP數(shù)據(jù)庫(kù),每個(gè)數(shù)據(jù)庫(kù)實(shí)例由多個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)組成,節(jié)點(diǎn)間通過(guò)高速RDMA網(wǎng)絡(luò)連接在一起。為了保證原子性,每個(gè)POLARDB實(shí)例同時(shí)僅允許一個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)處理寫(xiě)請(qǐng)求,且通過(guò)Parallel-Raft協(xié)議在寫(xiě)入時(shí)同時(shí)向存儲(chǔ)節(jié)點(diǎn)寫(xiě)入3個(gè)副本。
計(jì)算存儲(chǔ)設(shè)備CSD是在具備基本存儲(chǔ)功能同時(shí)具備數(shù)據(jù)處理能力的存儲(chǔ)設(shè)備,相比使用CPU處理的模型,CSD采用的異構(gòu)計(jì)算架構(gòu)可以達(dá)到更好的性能和效率。但是CSD同時(shí)存在硬件成本更高、實(shí)際部署適配開(kāi)發(fā)成本更高等問(wèn)題。
動(dòng)機(jī)
當(dāng)前的POLARDB在數(shù)據(jù)庫(kù)節(jié)點(diǎn)中處理表掃描任務(wù),將掃操作下移到存儲(chǔ)節(jié)點(diǎn)可以更好提升數(shù)據(jù)庫(kù)處理分析型負(fù)載的性能、降低網(wǎng)絡(luò)流量,而列存儲(chǔ)需要掃描時(shí)更高的數(shù)據(jù)處理能力。
關(guān)鍵在于如何擴(kuò)展存儲(chǔ)節(jié)點(diǎn)使之支持處理額外的掃描任務(wù)。第一種方法是擴(kuò)展存儲(chǔ)節(jié)點(diǎn)的CPU,然而這會(huì)帶來(lái)過(guò)高的成本問(wèn)題;第二種方法是使用PCIe卡模式的FPGA擴(kuò)展,但是這種方式同樣存在:掃描作為數(shù)據(jù)密集型負(fù)載帶來(lái)的數(shù)據(jù)傳輸流量過(guò)高導(dǎo)致的高功耗、負(fù)載間沖突,以及PCIe擴(kuò)展卡帶寬瓶頸等問(wèn)題。最后一種是本文提出方式,即分布式異構(gòu)架構(gòu),將表scan操作分散到每個(gè)存儲(chǔ)設(shè)備中,由此帶來(lái)的挑戰(zhàn)包括:如何修改整個(gè)軟件存儲(chǔ)站以支持掃描操作下移;和如何降低FPGA的成本、提高FPGA并行性。
方法
本文首先解決了如何實(shí)現(xiàn)跨軟件棧的掃描下移工作,包括了POLARDB的存儲(chǔ)引擎、下層的分布式文件系統(tǒng)POLARFS以及可計(jì)算存儲(chǔ)器CSD。
首先作者講解了如何擴(kuò)展POLARDB存儲(chǔ)引擎,使得存儲(chǔ)引擎可以將掃描任務(wù)傳遞給下層的POALRFS,并負(fù)責(zé)回收CSD返回的掃描結(jié)果,掃描任務(wù)的參數(shù)包括:被掃描數(shù)據(jù)的位置、被掃描表的結(jié)構(gòu)以及掃描的條件。由于CSD難以支持所有的掃描條件(如LIKE),因此POLARDB的存儲(chǔ)引擎在收到掃描請(qǐng)求時(shí)需要首先分析掃描條件,并將CSD可以處理的條件子集傳遞下去,并在收到CSD的結(jié)果后進(jìn)行二次檢查。
接著作者描述了如何擴(kuò)展作為存儲(chǔ)底層的分布式文件系統(tǒng)POLARFS,POLARFS負(fù)責(zé)管理所有存儲(chǔ)節(jié)點(diǎn)上的數(shù)據(jù)。為了盡可能讓文件的大部分?jǐn)?shù)據(jù)塊落在同一個(gè)CSD上,POLARFS采用了大粒度(4MB)條帶,當(dāng)出現(xiàn)極少數(shù)的一個(gè)壓縮條帶橫跨兩個(gè)CSD時(shí),存儲(chǔ)節(jié)點(diǎn)采用CPU處理對(duì)應(yīng)的scan操作。在傳遞scan請(qǐng)求時(shí),POLARDB存儲(chǔ)引擎?zhèn)鬟f給POLARFS的是文件偏移表示的被掃描數(shù)據(jù)位置,而CSD僅能定位以L(fǎng)BA形式的數(shù)據(jù)位置,因此,POLARFS在收到POLARDB存儲(chǔ)引擎的掃描請(qǐng)求書(shū),會(huì)將橫跨m個(gè)CSD的請(qǐng)求分割成m個(gè)掃描請(qǐng)求,并將掃描請(qǐng)求中的偏移轉(zhuǎn)換到CSD的LBA。
之后作者描述了如何擴(kuò)展CSD功能。CSD通過(guò)內(nèi)核空間的驅(qū)動(dòng)進(jìn)行管理,每個(gè)CSD都暴露為一個(gè)塊設(shè)備。驅(qū)動(dòng)將收到的POLARFS轉(zhuǎn)發(fā)的掃描請(qǐng)求分割成多個(gè)子任務(wù),以解決大掃描任務(wù)長(zhǎng)期占據(jù)NAND帶寬,影響普通IO請(qǐng)求延遲性能的問(wèn)題。同時(shí),子任務(wù)有助于降低硬件資源的使用率,提高NAND訪(fǎng)問(wèn)的并行性,同時(shí)降低后臺(tái)GC可能的過(guò)高延遲。
為了更好的降低成本,作者修改了POLARDB存儲(chǔ)的數(shù)據(jù)塊格式,以充分利用FPGA實(shí)現(xiàn)掃描功能。增加了1字節(jié)壓縮類(lèi)型,4字節(jié)的鍵值對(duì)數(shù)量和restarts鍵數(shù)量,這樣使得CSD不需要POLARDB存儲(chǔ)引擎?zhèn)鬟f塊大小即可直接解壓,同時(shí)可以高效處理restarts,并探測(cè)塊結(jié)束情況。
由于FPGA難以實(shí)現(xiàn)多類(lèi)型比較器,因此作者進(jìn)一步修改POLARDB存儲(chǔ)引擎,將所有數(shù)據(jù)都存儲(chǔ)成同一的可比較格式,這樣CSD只需要實(shí)現(xiàn)單一類(lèi)型比較器,有助于降低FPGA資源開(kāi)銷(xiāo)。
在實(shí)現(xiàn)時(shí),作者采用了終端的FPGA同時(shí)用作閃存管理和存儲(chǔ)計(jì)算單元,集成了軟LDPC編碼器,因此可以使用低成本的3D TLC/QLC以降低成本。作者使用FPGA實(shí)現(xiàn)了2個(gè)數(shù)據(jù)解壓引擎和3個(gè)數(shù)據(jù)掃描引擎,支持 支持Snappy解壓和=, ≠、>、≥、<、≤、NULL和!NULL條件。
評(píng)估
為了實(shí)際可用,CSD需要在滿(mǎn)足存儲(chǔ)計(jì)算的同時(shí)提供一流的IO性能,因此作者使用64層3D-TLC閃存,并支持了PCIe GEN3x4接口,達(dá)到了3.0GB/s和2.2GB/s的順序讀、寫(xiě)帶寬,并做到在滿(mǎn)盤(pán)、GC觸發(fā)時(shí)590K/160K的4K隨機(jī)讀、寫(xiě)IOPS。在解壓性能上,CSD的兩個(gè)解壓引擎實(shí)現(xiàn)了在60%和30%壓縮率下,2.3GB/s和2.8GB/s的總解壓吞吐量。
在使用TPC-H基準(zhǔn)測(cè)試的LINEITEM表作為測(cè)試負(fù)載測(cè)試下,作者分別對(duì)比了下移掃描任務(wù)前后整體的掃描延遲和PCIe數(shù)據(jù)流量。對(duì)比項(xiàng)共有4個(gè),分別是基于CPU、不進(jìn)行壓縮的掃描下移;基于CSD,無(wú)壓縮的掃描下移;基于CPU有Snappy壓縮的掃描下移以及基于CSD、有Snappy壓縮的掃描下移。測(cè)試結(jié)果表明:相對(duì)于基于CPU的掃描下移,CSD將平均掃描延遲從55s降低到39s,同時(shí)CPU占用率從514%降低到140%,收益最低的TS-6測(cè)試項(xiàng)中,延遲依然從65s下降到53s,同時(shí)CPU利用率從558%降低到374%。測(cè)試同時(shí)發(fā)現(xiàn),基于CSD的負(fù)載中,CPU負(fù)載與數(shù)據(jù)選擇性正相關(guān),即傳輸?shù)紺PU的數(shù)據(jù)越少,CPU負(fù)載越低,而基于CPU的掃描則與數(shù)據(jù)選擇性無(wú)關(guān)。這說(shuō)明基于CSD的掃描效率更高,且效率隨著CSD規(guī)模增加可以擴(kuò)展。
而從PCIe流量對(duì)比中可以發(fā)現(xiàn),CSD的數(shù)據(jù)移動(dòng)量更少,因此額外功耗更低。
之后作者進(jìn)行了系統(tǒng)級(jí)評(píng)估,在POLARDB的云實(shí)例上運(yùn)行TPC-H負(fù)載進(jìn)行測(cè)試。每個(gè)實(shí)例運(yùn)行32個(gè)SQL引擎容器,分布在7個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)和3個(gè)后端存儲(chǔ)節(jié)點(diǎn)上,每個(gè)存儲(chǔ)節(jié)點(diǎn)包括12個(gè)3.7TB的CSD。分別考慮3個(gè)場(chǎng)景:1. 基準(zhǔn)場(chǎng)景,即所有數(shù)據(jù)由存儲(chǔ)節(jié)點(diǎn)傳輸?shù)綌?shù)據(jù)庫(kù)節(jié)點(diǎn)進(jìn)行處理;2. 基于CPU的下移場(chǎng)景,即掃描任務(wù)下移到存儲(chǔ)節(jié)點(diǎn)的CPU上;3. 基于CSD的下移場(chǎng)景,即掃描任務(wù)下移到CSD上。
測(cè)試結(jié)果表明,隨著請(qǐng)求數(shù)量增加,基于CSD的下移相比基于CPU的下移帶來(lái)更多的延遲性能提升,這是由于隨著并行請(qǐng)求數(shù)量增長(zhǎng),每個(gè)存儲(chǔ)節(jié)點(diǎn)有更多的并行掃描任務(wù),更利于硬件并行化;另外,基于CSD的下移在表進(jìn)行壓縮時(shí)表現(xiàn)出更高的性能提升,這是由于基于CPU的下移需要更多資源進(jìn)行解壓。
流量測(cè)試結(jié)果表明,基于CSD的掃描下移相比與基于CPU的掃描下移,在7個(gè)TPC-H并行查詢(xún)時(shí)可以降低50%的PCIe流量,最大PCIe傳輸流量降低了97%,而12個(gè)并行TPC-H查詢(xún)的網(wǎng)絡(luò)總流量降低了70%。
總結(jié)
本文報(bào)告了跨軟-硬件協(xié)同的阿里云關(guān)系型數(shù)據(jù)庫(kù)POLARDBDA設(shè)計(jì)優(yōu)化,以更高效處理分析型負(fù)載。其基本思想是將高開(kāi)銷(xiāo)的表掃描操作分發(fā)到CSD中,核心思想簡(jiǎn)單且與當(dāng)前異構(gòu)計(jì)算的工業(yè)趨勢(shì)吻合。測(cè)試結(jié)果表明本文的設(shè)計(jì)在查詢(xún)測(cè)試中可以獲得超過(guò)30%的延遲性能提升,同時(shí)減少50%的存儲(chǔ)-內(nèi)存數(shù)據(jù)移動(dòng)。作者表示,希望本工作可以激勵(lì)更多關(guān)于如何在云基礎(chǔ)設(shè)施更好利用CSD的探索。
The End
致謝
感謝本次論文解讀者,來(lái)自華東師范大學(xué)的碩士生黃奕陽(yáng),主要研究方向?yàn)榇鎯?chǔ)壓縮、存儲(chǔ)計(jì)算。
審核編輯:湯梓紅
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4296瀏覽量
85797 -
SSD
+關(guān)注
關(guān)注
21文章
2857瀏覽量
117366 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3794瀏覽量
64355 -
阿里云
+關(guān)注
關(guān)注
3文章
952瀏覽量
43006 -
云原生
+關(guān)注
關(guān)注
0文章
248瀏覽量
7947
原文標(biāo)題:使用可計(jì)算SSD加速云原生數(shù)據(jù)庫(kù)
文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論