RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

內存之后,下一代存儲技術怎么用?

SSDFans ? 來源:YXQ ? 2019-03-21 11:05 ? 次閱讀

隨著存儲技術的發(fā)展,對存儲性能的不懈追求,高性能存儲開始探索向內存通道的遷移。在這樣的情況下, NVDIMM 技術便應運而生了。

NVDIMM (Non-Volatile Dual In-Line Memory Module) 是一種可以隨機訪問的,非易失性內存, 又被稱作PMem (Persistent Memory)。在之前的微信文章中,我們介紹了NVDIMM幾種硬件上的實現方式,以及為了支持和優(yōu)化性能所做的硬件上的改變。今天,我們來討論一下為了充分發(fā)揮NVDIMM的性能,軟件方面做了哪些支持。有些人可能會有疑問, 為什么用起來這么麻煩?既然是持久性內存,不是應該關機什么樣, 開機什么樣, 就可以了嗎? 其實目前來看, 這種想法還不會變?yōu)楝F實。 因為除了DRAM是易失性的,比如 cache,寄存器這種也是易失性的。僅僅把內存做成持久性的也不能達成這樣的目的。另一個問題是, memory leak。如果發(fā)生了內存泄漏, 重啟一下就好了。 那如果是持久性內存的泄漏呢?這也是一個很棘手的問題。Pmem有些方面類似于內存,也有些方面類似于存儲。但是,通常上我們不會認為Pmem能夠替代內存或存儲。其實,可以把它看作是一種補充,填補了內存和存儲之間巨大的差異。

SPDK 在 17.10 中開始引入對于Pmem的支持。Pmem在SPDK的bdev層暴露為一個塊設備, 使用快設備接口和上層進行通信。如圖(1)所示。

圖(1)

從圖中我們可以看到libpmemblk 把塊操作轉換成了字節(jié)操作。它是怎么做到的呢? 在介紹libpmemblk 和 它背后的PMDK之前, 我們了解一下基礎知識。

mmap和DAX

首先,我們來看傳統(tǒng)的I/O方式, 即緩存I/O (Buffered I/O). 大多數操作系統(tǒng)默認的IO操作方式都是緩存IO。該機制使IO數據緩存在操作系統(tǒng)的page cache 中, 也就是說, 數據會被先拷貝到操作系統(tǒng)的內核空間的緩沖區(qū)中,然后才會從內核空間的緩沖區(qū)拷貝到指定的用戶地址空間。

圖(2)

Linux 中, 這種訪問文件的方式就是通過read/write 系統(tǒng)調用來實現,如圖(2)。接下來, 我們比較一下內存映射IO mmap().

接下來, 我們比較一下內存映射IO mmap().

圖(3)

通過mmap獲得了對應文件的一個指針,然后就像操作內存一樣進行賦值或者做memcpy/strcpy. 這種我們稱之為load/store操作(這種操作一般需要msync、fsync來落盤)。

mmap因為建立了文件到用戶空間的映射關系, 可以看作是把文件直接拷貝到用戶空間,減少了一次數據拷貝。但是, mmap依然需要依靠page cache。

圖(4)

講完了mmap, 那么DAX是什么呢?DAX即direct access,這個特性是基于mmap的。而DAX的區(qū)別在于完全不需要page cache. 直接對存儲設備訪問。 所以它就是為了NVDIMM而生的。應用對于mmap的文件操作, 是直接同步到NVDIMM上的。DAX目前在XFS, EXT4, Windows的 NTFS 上都已經支持。需要注意的是, 使用這個模式, 要對應用程序或者文件系統(tǒng)進行修改。

圖(5)

NVM Programming Model

NVM Programming Model 大致定義了三種使用方式。

圖(6)

最左邊Management 主要是通過driver提供的API對NVDIMM進行管理, 比如查看容量信息, 健康狀態(tài), 固件版本, 固件升級, 模式配置等等。

中間, 作為存儲快設備使用, 使用支持NVDIMM driver 的文件系統(tǒng)和內核, 應用程序不用做任何修改,通過標準文件接口訪問NVDIMM。

第三種, 基于文件系統(tǒng)的DAX特性,通過load/store操作,不需要page cache, 同步落盤。沒有系統(tǒng)調用, 沒有中斷。這也是NVM Programming Model 的核心, 能夠充分釋放NVDIMM的性能優(yōu)勢。但它的缺點在于,應用程序可能需要做一下改變。

PMDK

libpmemblk 實現了一個駐留在pmem中的同樣大小的塊的數組。里面每個塊對于突然掉電,程序崩潰等情況依然保持原子事務性。libpmemblk是基于libpmem庫的。

libpmem是PMDK中提供的一個更底層的庫, 尤其是對于flush的支持。它能夠追蹤每次對pmem的store操作,并保證數據落盤為持久性數據。

除此以外, PMDK 還提供了其他編程庫, 比如libpmemobj, libpmemlog, libvmmalloc 等。感興趣的同學可以訪問http://pmem.io/pmdk/ 獲取更多信息。

SPDK實戰(zhàn)

bdevperf模擬NVDIMM性能

(1) 創(chuàng)建一個虛擬的Pmem bdev

./configure --with-pmdk

make

PMDK 已經在一些新的Linux發(fā)行版中被引入。如果configure出錯,請到https://github.com/pmem/pmdk 自行安裝PMDK庫。

接下來, 我們可以通過SPDK RPC命令來建立一個pmem_pool。

rpc.py create_pmem_pool /path/to/pmem_pool

這里假設我們沒有一個真正的NVDIMM做測試, 所以pmem_pool的路徑就隨便選擇一個就好。比如:

rpc.py create_pmem_pool /mnt/pmem 128 4096

我們也可以用pmem_pool_info來獲取創(chuàng)建pmem_pool的信息:

rpc.py pmem_pool_info /path/to/pmem_pool

或者,刪除剛創(chuàng)建的pmem_pool:

rpc.py delete_pmem_pool /path/to/pmem_pool

然后, 我們在我們創(chuàng)建的pmem_pool上, 建立一個bdev塊設備:

rpc.py construct_pmem_bdev /path/to/pmem_pool -n pmem_bdev_name

(2) 更新配置文件

更改/path/to/spdk/test/bdev/bdev.conf.in, 只保留Pmem配置的部分。

[Pmem]

Blk

Example:

[Pmem]

Blk /mnt/pmem-pool pmem-bdev

(3) bdevperf 測試

./bdevperf -c ../bdev.conf.in -q -t

Example command:

./bdevperf -c ../bdev.conf.in -q 128 -t 100 -w write -o 4096

./bdevperf -c ../bdev.conf.in -q 1 -t 100 -w randwrite -o 4096

結語

至此, 對于NVDIMM硬件和軟件上的不同, 大家都有了一個大致的認識。Intel 在2018年5月發(fā)布了基于3D XPoint? 技術的Intel? Optane? DC Persistent Memory, 引發(fā)了NVDIMM爆點。如果你對NVDIMM的用法很感興趣,或者對于NVDIMM的應用有好的想法, 歡迎通過私信或者在評論區(qū)評論交流。希望大家繼續(xù)關注NVDIMM和SPDK技術。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲技術
    +關注

    關注

    5

    文章

    732

    瀏覽量

    45796
  • 內存
    +關注

    關注

    8

    文章

    3019

    瀏覽量

    74003

原文標題:內存之后,下一代存儲技術怎么用?

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SK海力士開發(fā)出下一代智能內存芯片技術PIM

    SK海力士(或‘公司’)今日宣布,公司已開發(fā)出具備計算功能的下一代內存半導體技術“PIM(processing-in-memory,內存中處理)”1)。
    發(fā)表于 02-16 11:04 ?1615次閱讀
    SK海力士開發(fā)出<b class='flag-5'>下一代</b>智能<b class='flag-5'>內存</b>芯片<b class='flag-5'>技術</b>PIM

    下一代定位與導航系統(tǒng)

    下一代定位與導航系統(tǒng)
    發(fā)表于 08-18 10:37

    2016CES:Atmel下一代觸摸傳感技術亮相

     2016年1月7日——全球微控制器(MCU)及觸控技術解決方案領域的領導者Atmel公司今日宣布,將把下一代壓力傳感技術應用于最新面向智能手機應用的maXTouchU系列。Atmel的壓力傳感
    發(fā)表于 01-13 15:39

    下一代SONET SDH設備

    下一代SONET/SDH設備
    發(fā)表于 09-05 07:05

    單片光學實現下一代設計

    單片光學 - 實現下一代設計
    發(fā)表于 09-20 10:40

    下一代測試系統(tǒng):LXI拓展視野

    下一代測試系統(tǒng):LXI拓展視野
    發(fā)表于 09-26 14:24

    下一代測試系統(tǒng):LXI推進愿景

    下一代測試系統(tǒng):LXI推進愿景(AN 1465-16)
    發(fā)表于 10-09 09:47

    請問Ultrascale FPGA中單片和下一代堆疊硅互連技術是什么意思?

    大家好, 在Ultrascale FPGA中,使用單片和下一代堆疊硅互連(SSI)技術編寫。 “單片和下一代堆疊硅互連(SSI)技術”是什么意思?謝謝娜文G K.
    發(fā)表于 04-27 09:29

    如何利用人工智能實現更為高效的下一代數據存儲

    充分利用人工智能,實現更為高效的下一代數據存儲
    發(fā)表于 01-15 07:08

    下一代超快I-V測試系統(tǒng)關鍵的技術挑戰(zhàn)有哪些?

    如何進行超快I-V測量?下一代超快I-V測試系統(tǒng)關鍵的技術挑戰(zhàn)有哪些?
    發(fā)表于 04-15 06:33

    Java開發(fā)下一代嵌入式產品

    Java開發(fā)下一代嵌入式產品在我10年的Java布道師生涯里,沒有哪次Java新版本發(fā)布能讓我如此興奮。Java 8的發(fā)布不僅在語言本身加入了些不錯的新特性,還在嵌入式開發(fā)上加入了很棒的功能
    發(fā)表于 11-05 09:12

    威剛演示下一代DDR5內存渲染圖

    CES 2021期間,存儲大廠威剛“拿”出了他們的下一代DDR5內存,不過不是實物,只是渲染圖。
    的頭像 發(fā)表于 01-15 09:44 ?2576次閱讀

    下一代內存技術

    的推進,它面臨著些擴展問題,導致該行業(yè)在其他地方尋找內存解決方案?;萜眨ɑ萜眨Α皺C器”架構的宣傳使“憶阻器”詞重新回到了記憶的聚光燈下。這項技術,也稱為電阻式隨機存取
    的頭像 發(fā)表于 10-24 10:54 ?529次閱讀

    下一代硅光子技術會是什么樣子?

    下一代硅光子技術會是什么樣子?
    的頭像 發(fā)表于 07-05 14:48 ?648次閱讀
    <b class='flag-5'>下一代</b>硅光子<b class='flag-5'>技術</b>會是什么樣子?

    網絡下一代企業(yè)存儲:NVMe結構

    電子發(fā)燒友網站提供《網絡下一代企業(yè)存儲:NVMe結構.pdf》資料免費下載
    發(fā)表于 08-28 11:39 ?0次下載
    網絡<b class='flag-5'>下一代</b>企業(yè)<b class='flag-5'>存儲</b>:NVMe結構
    RM新时代网站-首页