今年9月8日,愛數(shù)AnyBackup神盾會(huì)(七)上首次劇透了AnyBackup Family 8,并正式亮相了AnyBackup Family 8的核心技術(shù)架構(gòu)——備份數(shù)據(jù)湖。
備份數(shù)據(jù)湖的概念不難理解,類似國(guó)外提到的第二存儲(chǔ)理念,即把備份系統(tǒng)和數(shù)據(jù)湖系統(tǒng)合二為一。備份數(shù)據(jù)湖提供數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和數(shù)據(jù)服務(wù)三大能力,除了支撐傳統(tǒng)的災(zāi)難恢復(fù)、備份數(shù)據(jù)資產(chǎn)管理類應(yīng)用外,還支持測(cè)試數(shù)據(jù)管理和數(shù)據(jù)科學(xué)類應(yīng)用,有效降低企業(yè)在數(shù)據(jù)管理方面的TCO,提高企業(yè)數(shù)據(jù)的利用率,充分挖掘企業(yè)數(shù)據(jù)的價(jià)值。
但是,AnyBackup Family 8如此龐大和復(fù)雜的系統(tǒng),功能已經(jīng)完全超越了傳統(tǒng)備份,對(duì)性能的要求也必須與時(shí)俱進(jìn),否則上面的理念都變?yōu)榭照?。比如你從上面拉起一個(gè)數(shù)據(jù)庫副本進(jìn)行開發(fā)測(cè)試,性能比生產(chǎn)系統(tǒng)慢非常多,會(huì)大大影響企業(yè)的開發(fā)速度,造成人力的極大浪費(fèi),這樣的備份數(shù)據(jù)湖也就沒有什么實(shí)用價(jià)值。
愛數(shù)也了解大家的困惑,因此在10月27日下午,舉辦了以“性能爆表”為主題的神盾會(huì)(八),延續(xù)上一次神盾會(huì),繼續(xù)對(duì)神秘的AnyBackup Family 8進(jìn)行劇透,展示AnyBackup Family 8領(lǐng)先技術(shù)的性能表現(xiàn)。
整體的會(huì)議內(nèi)容很充實(shí),從現(xiàn)代化數(shù)據(jù)管理平臺(tái)“性能觀”的思想碰撞,到火力全開、性能爆表的炸裂表現(xiàn),再到超能打領(lǐng)先技術(shù)分享,非常值得一看。
西瓜哥作為多年存儲(chǔ)從業(yè)人員,可謂閱存儲(chǔ)無數(shù),還是發(fā)現(xiàn)這個(gè)神盾會(huì)有很多技術(shù)干貨,對(duì)專業(yè)的存儲(chǔ)人士來說也非常有啟發(fā),因此,這次我就來解讀一下其中的技術(shù)干貨。
愛數(shù)的“性能觀”
愛數(shù)認(rèn)為,現(xiàn)代化的數(shù)據(jù)管理平臺(tái)的性能是一個(gè)綜合的指標(biāo),和相關(guān)的生產(chǎn)系統(tǒng)、傳輸網(wǎng)絡(luò)都密切相關(guān)。
而性能的提升,也需要從硬件和軟件兩個(gè)方面努力。這次的會(huì)議,主要聚焦在AnyBackup Family 8在軟件scale-out能力提升方面。
總體思路:和應(yīng)用集成設(shè)計(jì)
首先,愛數(shù)認(rèn)為,備份軟件+分布式存儲(chǔ)≠分布式備份系統(tǒng)。
這個(gè)其實(shí)不難理解,因?yàn)閭浞菹到y(tǒng)本身沒有分布式化,很多部件都不是分布式設(shè)計(jì)的。比如Media不能跨節(jié)點(diǎn),單個(gè)節(jié)點(diǎn)依然是性能瓶頸;Media中轉(zhuǎn)文件系統(tǒng),性能損耗大,無法跑滿磁盤帶寬;單個(gè)節(jié)點(diǎn)提供Index,巨型應(yīng)用索引是瓶頸。
因此,AnyBackup Family 8把備份系統(tǒng)和分布式存儲(chǔ)集成在一起設(shè)計(jì),是一種集成系統(tǒng)的思路。AnyBackup Family 8通過三副本的存儲(chǔ)池、NVMe分布式緩存、兼具快照系統(tǒng)和各類數(shù)據(jù)結(jié)構(gòu)化服務(wù)的數(shù)據(jù)引擎服務(wù)、高性能客戶端和協(xié)議網(wǎng)關(guān),構(gòu)建的分布式存儲(chǔ)架構(gòu),全力打造超高性能,即使在海量數(shù)據(jù)場(chǎng)景下,依然表現(xiàn)優(yōu)異。
和業(yè)界的通用存儲(chǔ)不同,AnyBackup Family 8特別清楚自己的定位,其優(yōu)化思路和ORACLE數(shù)據(jù)庫一體機(jī)類似,讓存儲(chǔ)在特定的應(yīng)用場(chǎng)景下性能最優(yōu)。
存儲(chǔ)池采用三副本,而不是EC(糾刪碼)。這種做法類似Nutanix等很多超融合廠商,采用三副本,可以讓應(yīng)用直接感知副本的存儲(chǔ)位置,能夠大大提升數(shù)據(jù)的存取速度。
協(xié)議網(wǎng)關(guān)除了支撐通用的存儲(chǔ)協(xié)議,還支持專用的備份恢復(fù)客戶端。這種做法類似很多高性能文件系統(tǒng),通過專用客戶端來提升單客戶端的性能。
在備份系統(tǒng)的分布式化上,愛數(shù)采用全分布式的設(shè)計(jì)思路。分布式索引服務(wù)、分布式數(shù)據(jù)服務(wù)、分布式元數(shù)據(jù)服務(wù)、分布式搜索服務(wù),再加上底層分布式快照服務(wù),可以提供無限快照能力,讓所有可能成為性能瓶頸的部件全部都支持scale-out線性擴(kuò)展,從架構(gòu)上徹底解決性能問題。
下面我們來展開看看,AnyBackup Family 8的幾個(gè)性能提升設(shè)計(jì)思路。
索引拆分和分布式化
愛數(shù)第一件事就是在索引庫引入快照機(jī)制,每次增量備份完成就做一個(gè)快照,全量備份就產(chǎn)生一個(gè)新的索引。這樣做的好處就是每個(gè)時(shí)間點(diǎn)都有一個(gè)獨(dú)立完整的索引庫,每個(gè)索引庫都不大,后期的數(shù)據(jù)管理動(dòng)作,存取該索引庫的速度就快得多。
第二件事就是對(duì)單個(gè)節(jié)點(diǎn)索引庫進(jìn)行拆分,變成多節(jié)點(diǎn)索引庫的架構(gòu),實(shí)現(xiàn)索引性能按需線性增長(zhǎng)。拆分的策略有很多,按照應(yīng)用數(shù)據(jù)源的不同,可以均衡負(fù)載,就近負(fù)載。
讀寫流程簡(jiǎn)化,減少網(wǎng)絡(luò)傳輸
備份軟件+分布式存儲(chǔ)的松耦合設(shè)計(jì),由于備份軟件無法感知底層分布式存儲(chǔ)的存放位置,因此,數(shù)據(jù)需要先送到備份系統(tǒng),然后備份系統(tǒng)再送到底層分布式存儲(chǔ)系統(tǒng),分布式存儲(chǔ)再找具體節(jié)點(diǎn)落盤,中轉(zhuǎn)太多。
而AnyBackup Family 8則另辟蹊徑,把AnyBackup節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)集成設(shè)計(jì),備份客戶端按照策略,直接把備份數(shù)據(jù)寫入指定節(jié)點(diǎn)(比如負(fù)載最輕的),該節(jié)點(diǎn)再?gòu)?fù)制到其他兩個(gè)節(jié)點(diǎn)。這樣做的好處就是減少了一次網(wǎng)絡(luò)轉(zhuǎn)發(fā),寫性能會(huì)大大提高。由于恢復(fù)客戶端也能感知到副本的位置,可以直接讀取負(fù)載最輕的某個(gè)副本,恢復(fù)性能也會(huì)大大提高。
由于備份系統(tǒng)可以控制數(shù)據(jù)具體的存儲(chǔ)位置,相關(guān)的數(shù)據(jù)可以盡量放在一起,減少跨節(jié)點(diǎn)的傳輸。不相關(guān)的數(shù)據(jù)則可以跨節(jié)點(diǎn)并發(fā)讀寫,整體的集群的性能要比備份軟件+分布式存儲(chǔ)的松耦合情況要高出很多。唯一的問題是集群的容量可能出現(xiàn)不均衡,可以通過自動(dòng)重平衡閑時(shí)進(jìn)行處理。
專用客戶端,實(shí)現(xiàn)直通掛載
如果采用通用的存儲(chǔ)協(xié)議,掛載一般需要通過特定協(xié)議網(wǎng)關(guān),該網(wǎng)關(guān)再去其他節(jié)點(diǎn)取數(shù)據(jù),性能較差。
由于AnyBackup Family 8采用專門的備份恢復(fù)客戶端,可以感知數(shù)據(jù)的存放位置,因此可以直接定位到數(shù)據(jù)所在節(jié)點(diǎn)的協(xié)議網(wǎng)關(guān),實(shí)現(xiàn)直通掛載,時(shí)延更低,IOPS更高。
這種高速掛載的能力,讓備份數(shù)據(jù)湖快速提供開發(fā)測(cè)試環(huán)境,快速提供分析應(yīng)用所需的數(shù)據(jù)成為功能。
無合成永久增量備份
傳統(tǒng)的增量備份,需要在后臺(tái)進(jìn)行數(shù)據(jù)的合成,對(duì)系統(tǒng)的性能影響很大。
愛數(shù)的上一代產(chǎn)品,采用索引合并的方式,性能有所提升,但當(dāng)索引的數(shù)據(jù)量上升,耗時(shí)還是很長(zhǎng)的。
而在AnyBackup Family 8里,愛數(shù)取消了后臺(tái)合成的過程,在增量備份的時(shí)候,實(shí)時(shí)修改索引,然后利用全量快照就可以生成黃金副本,無需后臺(tái)合成過程,增量備份的性能得到巨大的提升。
無索引文件提高掛載速度
通用的文件系統(tǒng),需要訪問索引,然后才能訪問到數(shù)據(jù),因此其性能一般來說不如塊設(shè)備。AnyBackup Family 8引入一種新的文件類型FileDev,沒有索引,節(jié)省了查詢索引的過程,直接訪問數(shù)據(jù),性能更好。
這些無索引文件FileDev,其實(shí)就是一種VMDK文件,它可以通過iSCSI掛載,也可以通過NFS進(jìn)行聚合掛載,可以實(shí)現(xiàn)即時(shí)的數(shù)據(jù)服務(wù)。
性能爆表
正是上面的性能優(yōu)化技術(shù),將AnyBackup Family 8的3節(jié)點(diǎn)的備份恢復(fù)吞吐直接提升至5.1GB/s和9.21GB/s。
根據(jù)愛數(shù)發(fā)布的數(shù)據(jù),相比上一代產(chǎn)品,AnyBackup Family 8在各方面的性能提升基本都在50%以上。
神盾會(huì)上,愛數(shù)還展示了AnyBackup Family 8在百億級(jí)小文件保護(hù)、百TB級(jí)數(shù)據(jù)庫分鐘級(jí)掛載、海量虛擬機(jī)保護(hù)、PB級(jí)數(shù)據(jù)倉(cāng)庫高效備份、大規(guī)模測(cè)試數(shù)據(jù)管理等數(shù)據(jù)管理場(chǎng)景下的性能數(shù)據(jù),顯示其備份數(shù)據(jù)湖的卓越性能。
小結(jié)
從上面的分析,我們看到,愛數(shù)并沒有把AnyBackup Family 8備份數(shù)據(jù)湖底層的分布式存儲(chǔ)做成通用的存儲(chǔ),來和其他廠商的軟件定義存儲(chǔ)產(chǎn)品競(jìng)爭(zhēng)。而是采用集成系統(tǒng)的思路,把數(shù)據(jù)管理應(yīng)用和分布式存儲(chǔ)進(jìn)行緊耦合的設(shè)計(jì),讓整體數(shù)據(jù)管理平臺(tái)的性能不僅能夠進(jìn)行快速的備份和恢復(fù),也能進(jìn)行高速的掛載,提供接近生產(chǎn)系統(tǒng)的高性能的數(shù)據(jù)服務(wù),真正發(fā)揮備份數(shù)據(jù)湖的價(jià)值。
愛數(shù)的很多的性能優(yōu)化思路,在業(yè)界都是獨(dú)創(chuàng)的,如無合成的永久增量備份等,值得其他做第二存儲(chǔ)的公司借鑒。當(dāng)然,需要了解更多的細(xì)節(jié),還是建議大家回看愛數(shù)的神盾會(huì)(八)。
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4296瀏覽量
85798 -
軟件
+關(guān)注
關(guān)注
69文章
4921瀏覽量
87394 -
數(shù)據(jù)管理
+關(guān)注
關(guān)注
1文章
294瀏覽量
19610
原文標(biāo)題:不走尋常路,打造現(xiàn)代化數(shù)據(jù)管理平臺(tái)的性能爆表之路
文章出處:【微信號(hào):High-end_Storage,微信公眾號(hào):高端存儲(chǔ)知識(shí)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論