本工作發(fā)表于FAST 2022。首次基于一家主要存儲供應(yīng)商的近200萬個SSD的大量企業(yè)存儲系統(tǒng),對生產(chǎn)使用中SSD的關(guān)鍵操作特性進行了大規(guī)模的現(xiàn)場研究。
基于本文,可以得到以下重要發(fā)現(xiàn):
發(fā)現(xiàn)1:大多數(shù)SSD以非常慢的速度消耗PE周期。
發(fā)現(xiàn)2:用作緩存的SSD的主機寫力度明顯高于用作持久存儲的SSD。然而,并沒有看到更高的NAND使用率,因為他們也經(jīng)歷了更低的WAF。因此,并不一定需要對緩存工作負(fù)載使用更高的持久性驅(qū)動器
發(fā)現(xiàn)3:不同驅(qū)動器家族和制造商的WAF差異顯著(數(shù)量級)。
發(fā)現(xiàn)4:避免retention問題所作的后臺工作是WAF的一個很大的原因。
發(fā)現(xiàn)5:磨損水平度并不完美。5%的SSD報告的擦除比率超過6,也就是說,驅(qū)動器中有些塊的磨損速度是平均塊的6倍。
發(fā)現(xiàn)6:AFF系統(tǒng)平均已經(jīng)滿了43%。在生產(chǎn)的頭幾年,系統(tǒng)豐滿度增長得更快,之后增長緩慢。容量最大的系統(tǒng)比容量較小的系統(tǒng)更滿。
發(fā)現(xiàn)7:在研究的系統(tǒng)中,與SSD相關(guān)的絕大多數(shù)工作負(fù)載(94%)是讀取主導(dǎo)的,中位數(shù)R/W比為3.62:1,突出了基于SSD和基于HDD的系統(tǒng)在使用上的差異。
背景及動機
隨著SSD部署的越來越多,了解它們在實際現(xiàn)場的操作特性是非常重要的,特別由于它們的操作方面不同于HDD。了解操作特性有助于我們更好的了解SSD在實際大規(guī)模工作環(huán)境中的表現(xiàn),同時給未來的閃存部署帶來新的思考。
操作特性方面的研究,包含SSD所經(jīng)歷的寫放大水平以及它如何受到各種因素的影響;磨損水平的有效性;或者是現(xiàn)場設(shè)備使用它們的(PE)周期限制的速率,以及這對向耐力較低的下一代flash的過渡意味著什么。本文首次基于一家主要存儲供應(yīng)商(NetApp)的近200萬個SSD的大量企業(yè)存儲系統(tǒng),對生產(chǎn)使用中SSD的關(guān)鍵操作特性進行了大規(guī)模的現(xiàn)場研究。
研究問題
1、在生產(chǎn)系統(tǒng)中設(shè)備的寫入量是多少以及他們距離達(dá)到磨損極限有多近?這對未來新一代耐磨性更差的閃存來說意味著什么?
2、設(shè)備在生產(chǎn)系統(tǒng)中寫入放大程度如何?這些數(shù)字與先前的學(xué)術(shù)工作中的報告相比如何?
3、SSD在生產(chǎn)環(huán)境中的磨損水平如何?
4、寫放大如何受到各種因素的影響,包括FTL相關(guān)因素(例如,設(shè)備模型、固件版本、OP設(shè)置、是否支持多流寫)和工作負(fù)載因素(例如,寫入量和讀寫比率,設(shè)備是用作緩存還是持久存儲,設(shè)備在RAID中的角色是數(shù)據(jù)、奇偶校驗還是分區(qū))?
系統(tǒng)描述
數(shù)據(jù)量:200萬個設(shè)備;
數(shù)據(jù)種類:三個不同的制造商,總共20個不同的系列,每個系列的劃分依賴于制造商、容量、顆粒類型等;
數(shù)據(jù)內(nèi)容:使用方面的信息,如主機讀寫,總物理設(shè)備寫,以及每個驅(qū)動器的磨損水平和寫放大的信息。此外,我們的數(shù)據(jù)包含每個系統(tǒng)的配置,包括其所有RAID組和RAID組中每個驅(qū)動器的角色(即數(shù)據(jù)或奇偶校驗)等;
系統(tǒng)分類:企業(yè)系統(tǒng):一種使用SSD作為HDD上的緩存層(稱為WBC),另一種由僅閃存系統(tǒng)組成,稱為AFF (AllFlash結(jié)構(gòu)-緩存存儲(FAS));
數(shù)據(jù)來源:NetApp Active IQ ,類似于SMART技術(shù)。
操作特征
write rate:對于盤的寫入數(shù)據(jù)的程度, write rate越大越說明運行在盤上的工作負(fù)載是寫密集型的。
WAF:寫放大??紤]其也是SSD磨損的重要原因。
wear leveling:均衡磨損。由于不同盤的固件不同,導(dǎo)致FTL中的均衡磨損算法差異較大,因此影響到盤的磨損。
fullness:設(shè)備豐度。指的是在整個系統(tǒng)在容量中真正被用到的部分。因為fullness的程度會很大程度上影響盤內(nèi) 的后臺操作,尤其是均衡磨損和垃圾回收。
1. Write Rate
write rate的衡量標(biāo)準(zhǔn)是DWPD(每日全盤寫入次數(shù)),指每日寫入的數(shù)據(jù)量能夠覆蓋全盤的次數(shù)。
分三個角度進行考慮:系統(tǒng)類型、盤的容量、盤的種類。
發(fā)現(xiàn)1:DWPD的平均值是0.36,能夠滿足現(xiàn)有幾乎所有盤的要求。但是7%的盤超過3,2%的盤超過10。
發(fā)現(xiàn)2:從主機寫的情況來看,WBC系統(tǒng)相比較AFF系統(tǒng)來說,write rate要高的多。平均值3.6X,99th%10.6 。(猜測和系統(tǒng)中盤的容量大小有關(guān),因為DWPD和全盤的容量有關(guān)。而作為cache的SSD容量大小肯定低于純flash的容量)。
發(fā)現(xiàn)3:WBC系統(tǒng)的盤有一個很長的尾端分布。99th%到達(dá)40,99.9th%到達(dá)76 。說明在WBC系統(tǒng)中,對于SSD的耐久挑戰(zhàn)很大。
發(fā)現(xiàn)4:容量越小的盤write rate程度越高。
發(fā)現(xiàn)5:對于不同種類的SSD,其write rate程度相差較大。并且對于AFF和WBC系統(tǒng)來說,那些DWPD超過平均值的SSD種類基本相似。
2. WAF
發(fā)現(xiàn)1:從整體上看,WAF的分布和先前的研究有很大的不同,先前專注于金融應(yīng)用服務(wù)分布在1.3、華為3D-TLC則分布在1.5。但是98.8%和96%的SSD觀察到的WAF分別大于1.3和1.5。
發(fā)現(xiàn)2:I-C、I-D和I-E種類的WAF比其他大多數(shù)的盤種類高一個數(shù)量級。這是為什么這三個種類的主機寫入量不大,但是卻有很高的nand使用率。但是這和工作負(fù)載關(guān)系不大,沒有跡象表明這三種類型的盤用于其他不同類型的應(yīng)用。原因在于這三類盤在空閑時有大量的后臺工作。主要用于解決retention問題。但是這個問題在之前的研究中非常容易被忽視。
發(fā)現(xiàn)3:只比較同一個種類的SSD,WAF也存在不同的分布。
發(fā)現(xiàn)4:對于相同的盤類型,WBC系統(tǒng)的WAF明顯低于AFF系統(tǒng),這表明WBC工作負(fù)載更對閃存友好。就緩存要求而言,在緩存中的應(yīng)用被認(rèn)為是要求最高的,而廣泛接受的最佳實踐建議對這些應(yīng)用程序只使用具有最高
耐久性的驅(qū)動器。觀察表明,這可能并不總是必要的。
3. Wear Leveling
文章定義了兩個標(biāo)準(zhǔn)用來看均衡磨損是否有效:
發(fā)現(xiàn)1:磨損水平并不完美。中值擦除比為1.55,表明最大塊比平均塊多執(zhí)行55%。5%的盤的擦除比大于6。
發(fā)現(xiàn)2:不同種類之間的磨損等級指標(biāo)存在顯著差異。例如,I-C和I-D盤報告的磨損水平指標(biāo)明顯更高(盡管與其他一些種類的年齡、容量和DWPD相似),不同的制造商在均衡磨損方面遵循非常不同的理念:當(dāng)查看擦除差度量時,看到擦除差最大的四個種類都屬于同一個制造商(即I)。
4. Fullness
發(fā)現(xiàn)1:平均系統(tǒng)的滿容量約為45%,中值也約為45%,即超過一半的存儲容量是空閑的。各系統(tǒng)的豐滿度分布大致一致。CDF變化點僅高于80%,即低于80%的可能性大致相等,而高于80%的值則相對不太常見。
發(fā)現(xiàn)2:系統(tǒng)的豐滿度會隨著年齡的增長而增加。但是增長速度不一致,頭兩年明顯更快。但是有一些非常年輕的系統(tǒng)很滿,一些舊系統(tǒng)很空:略高于5%的年輕系統(tǒng)(不到1歲)超過80%,而19%的舊系統(tǒng)(超過4歲)不到25%。
發(fā)現(xiàn)3:總?cè)萘枯^大的系統(tǒng)往往更滿:最大的系統(tǒng)比其他系統(tǒng)多1.7×(按中位數(shù)計算)。說明,購買更大容量系統(tǒng)的客戶確實有更大的容量需求,并且也能更好地預(yù)測他們需要多少存儲容量。
Which factors impact WAF?
因素1:FTL。在同一個種類、同樣容量的SSD盤中。固件版本FV2和版本FV3上的驅(qū)動器的WAF之間有明顯的區(qū)別。
因素2:工作負(fù)載。因為無法直接獲取工作負(fù)載的特性,因此通過五個角度特征代替:DWPD、RAID組中的角色、容量、接口、讀寫比。
因素3:DWPD。在不同的容量和驅(qū)動角色中,WAF隨著DWPD數(shù)量的增加而減少。這可能表明SSD在更高的寫力度下更有效地運行(在后臺任務(wù)和WAF方面)。這也可能意味著一些FTL背景功是恒定的,即不強烈依賴于DWPD;因此,較高的DWPD會降低這種恒定功對WAF比值的影響。
因素4:角色。不同角色盤的WAF的顯著差異。對于分區(qū)SSD的較高WAF的一個可能的解釋可能是,它們被迫處理來自具有潛在不同特征的不同工作負(fù)載的請求,因此經(jīng)歷了寫模式的混合。同時需要注意,隨著數(shù)據(jù)量的增加,差距減少。表明寫力度對WAF的影響大于它的作用。
因素5:容量。高容量的主機SSD(即8TB和15TB)與相同的小容量相比,經(jīng)歷更低的WAF,當(dāng)主機總寫量較低時,差異更明顯。盡管如此,與960GB SSD相比,3.8TB SSD經(jīng)歷的WAF略高,這表明更小容量的SSD不一定會經(jīng)歷更高的WAF(即,其他因素對WAF的影響更強)。
因素6:設(shè)備接口。使用NVMe接口的盤明顯經(jīng)歷更少的WAF??紤]到NVMe還是新技術(shù),因此可能的原因在于,使用NVMe的盤會用于一些特定的應(yīng)用,導(dǎo)致工作負(fù)載上的差別,從而體現(xiàn)在WAF上的不同。同樣的,多流技術(shù)、op占比也是如此。
Read/Write (R/W) Ratios
發(fā)現(xiàn)1:絕大多數(shù)盤,約94%,經(jīng)歷的讀取多于寫取。中位數(shù)為3.6:1,95th%為61:1。這與基于HDD的系統(tǒng)相差很大,先前的研究均經(jīng)歷寫大于讀。在華為的數(shù)據(jù)中,均為寫大于讀,MLC讀寫比在0.5左右,TLC讀寫比在0.57左右。
發(fā)現(xiàn)2:AFF系統(tǒng)中的R/W比值隨時間的推移保持相當(dāng)穩(wěn)定,這表明相應(yīng)的工作負(fù)載的特性不會隨時間發(fā)生顯著變化。
Most Important Findings
整理一下文章所有的觀點可以得到以下重要發(fā)現(xiàn):
發(fā)現(xiàn)1:大多數(shù)SSD以非常慢的速度消耗PE周期。
發(fā)現(xiàn)2:用作緩存的SSD的主機寫力度明顯高于用作持久存儲的SSD。然而,并沒有看到更高的NAND使用率,因為他們也經(jīng)歷了更低的WAF。因此,并不一定需要對緩存工作負(fù)載使用更高的持久性驅(qū)動器
發(fā)現(xiàn)3:不同驅(qū)動器家族和制造商的WAF差異顯著(數(shù)量級)。
發(fā)現(xiàn)4:避免retention問題所作的后臺工作是WAF的一個很大的原因。
發(fā)現(xiàn)5:磨損水平度并不完美。5%的SSD報告的擦除比率超過6,也就是說,驅(qū)動器中有些塊的磨損速度是平均塊的6倍。
發(fā)現(xiàn)6:AFF系統(tǒng)平均已經(jīng)滿了43%。在生產(chǎn)的頭幾年,系統(tǒng)豐滿度增長得更快,之后增長緩慢。容量最大的系統(tǒng)比容量較小的系統(tǒng)更滿。
發(fā)現(xiàn)7:在研究的系統(tǒng)中,與SSD相關(guān)的絕大多數(shù)工作負(fù)載(94%)是讀取主導(dǎo)的,中位數(shù)R/W比為3.62:1,突出了基于SSD和基于HDD的系統(tǒng)在使用上的差異。
審核編輯:湯梓紅
-
NAND
+關(guān)注
關(guān)注
16文章
1681瀏覽量
136118 -
存儲
+關(guān)注
關(guān)注
13文章
4296瀏覽量
85798 -
SSD
+關(guān)注
關(guān)注
21文章
2857瀏覽量
117367
原文標(biāo)題:企業(yè)級存儲盤中的操作特性
文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論