RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

Hx ? 作者:工程師陳翠 ? 2018-07-03 11:19 ? 次閱讀

數(shù)據(jù)中心、有線應用及其它帶寬密集型應用所需的性能,遠遠高于傳統(tǒng)的 DRAM 技術。和市場上已有的存儲器相比,HBM 存儲器在性能、功耗和尺寸上,能為系統(tǒng)架構師和 FPGA 設計人員帶來前所未有的優(yōu)勢。

在過去的十年里,電子系統(tǒng)在計算帶寬上呈現(xiàn)出指數(shù)級的增長。計算帶寬的大幅提升,也顯著提高了存儲帶寬要求,以滿足計算需求。這類系統(tǒng)的設計人員經(jīng)常發(fā)現(xiàn)市場上的并行存儲器(例如 DDR4)再也無法滿足應用的帶寬需求。賽靈思支持高帶寬存儲器 (HBM) 的 FPGA 能夠以最低的功耗、尺寸和系統(tǒng)成本提供高帶寬,顯然能夠輕松應對這類挑戰(zhàn)。在設計這款 FPGA 的過程中,賽靈思與其他領先半導體廠商一樣,選擇了業(yè)界唯一經(jīng)過證明的堆疊硅片互聯(lián)技術(即臺積電 (TSMC) 的 CoWoS 集成工藝)。這篇白皮書將介紹賽靈思 Virtex?UltraScale+ ? HBM 器件如何滿足大幅提升的系統(tǒng)存儲帶寬需求,同時保持功耗、尺寸和成本在限定范圍內。

行業(yè)趨勢 :帶寬和功耗

過去十年里,并行存儲器接口的帶寬功能進步緩慢——如今 FPGA 中支持的最大 DDR4 數(shù)據(jù)速率仍然不足 2008 年 DDR3 數(shù)據(jù)速率的 2 倍。但就在這段時間內,存儲帶寬需求增長遠遠超過了 DDR4 的性能。考慮以太網(wǎng)的發(fā)展趨勢 :從 DDR3 時代開始,以太網(wǎng)端口速度從 10Gb/s 提高到了 40Gb/s,然后提高到100Gb/s,現(xiàn)在到了 400Gb/s——原始帶寬增加了 10 倍以上。

類似的趨勢也存在于高性能計算和視頻廣播市場。FPGA 機器學習 DSP 容量已從最大型 Virtex-6 FPGA中的 2,000 個 DSP 增加到了現(xiàn)在的最大型 Virtex UltraScale+ 器件中的超過 12,000 個 DSP 元件。視頻廣播行業(yè)已經(jīng)從標準清晰度過渡到 2K,現(xiàn)已達到 4K,很快將達到 8K。這些應用領域中,所需帶寬與DDR4 DIMM 能提供的帶寬之間都存在明顯的差距。見圖 1。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 1 :存儲器帶寬要求比較

為了彌補帶寬差距,系統(tǒng)架構師若要在這些應用中使用 DDR4,就必須增加系統(tǒng)中的 DDR4 元件數(shù)量——這不是為了增加容量,而是為了在 FPGA 與存儲器之間提供所需的傳輸帶寬。四個 DDR4 DIMM以 2,667Mb/s 的數(shù)據(jù)速率運行,所能實現(xiàn)的最高帶寬為 85.2GB/s。如果應用所需的帶寬超過這個值,那么 DDR 方案就會因功耗、PCB 尺寸和成本問題變得不可行。不難看出,這些高帶寬應用中需要一種新的DRAM 存儲方案。

從能效的角度重新審視這十年時間,很顯然這種不惜一切代價“提高性能”的時代已經(jīng)結束。MDPI發(fā)表的一篇文章中預測,到 2030 年,根據(jù)當時數(shù)據(jù)中心設備的實際能效來看,僅數(shù)據(jù)中心就能消耗3%-13% 的全球能源供應 [ 參考資料 1]。設計人員極為重視能效性能,尤其在這個多兆瓦級數(shù)據(jù)中心時代。他們還重視高效散熱解決方案,因為可靠的通風和冷卻需要很高運營支出——總能耗的三分之一 [ 參考資料 2]。因此,供應商如果能以較低散熱量實現(xiàn)最高單位成本計算性能和單位功耗計算性能,則其解決方案會極富吸引力。

DDR4 DIMM 的替代方案

為了彌補帶寬差距,半導體行業(yè)引入了多種巧妙方案來替代 DDR4。見表 1。最近,業(yè)行內興起了基于收發(fā)器的串行存儲器技術,例如混合存儲立方體 (HMC)。這些技術提供更高的存儲器帶寬,能夠在單個芯片中提供相當于幾個 DDR4 DIMM 的存儲帶寬——但需要將多達 64 個超高速串行收發(fā)器分配至存儲器子系統(tǒng)中。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

表 1 :不同存儲器解決方案的關鍵特性對比

高帶寬存儲器簡介

通過移除 PCB,HBM 能以不同方式解決存儲器帶寬問題。HBM 利用硅片堆疊技術將 FPGA 和 DRAM并排放在同一封裝內。這樣,采用相同封裝的 DRAM 結構能夠實現(xiàn)多個 Tb/s 的帶寬。與其它存儲器技術相比,該技術使設計人員能夠實現(xiàn)帶寬的大幅度跨越式提升。

HBM 器件采用臺積電 (TSMC) 的業(yè)界標準 CoWoS(chip-on-wafer-on-substrate) 堆疊硅片組裝工藝進行組裝。賽靈思已經(jīng)在過去三代高端 Virtex 器件中采用這種組裝技術,因此該技術已得到了證明。CoWoS起初由賽靈思率先采用,作為硅片堆疊互聯(lián)技術應用于 28nm Virtex-7 FPGA 中。CoWoS 組裝工藝將有源芯片放在無源硅中間層上。硅與硅的堆疊結構允許通過非常小、分布非常密集的微凸塊來連接相鄰的硅器件——這里是將 FPGA 連接到 DRAM,之間有成千上萬的信號。見圖 2。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 2 :TSMC CoWoS 組裝工藝允許通過數(shù)千個非常小的線連接相鄰晶片

采用 CoWoS 組裝工藝,與典型的 DDR4 PCB 走線相比,不僅連接 HBM 的 DQ 走線總長度不足 3mm,而且電容和電感 (LC) 寄生效應極低。這樣,HBM I/O 結構的芯片面積比典型外部 DDR4 I/O 結構的芯片面積小 20 倍。HBM 接口非常小,以致于單個 HBM 堆棧接口就包含 1,024 個 DQ 引腳,而且 I/O 芯片面積僅為單個 DDR4 DIMM 接口 I/O 芯片面積的一半。具有 1,024 個 DQ 引腳,而且低寄生效應,這樣能實現(xiàn)非常高的 HBM 堆棧輸入輸出帶寬,而時延與 DDR4 相近。

對于采用 HBM 的 FPGA,所使用的外部 DDR4 的數(shù)量與容量要求有關,與帶寬要求無關。這樣所用的DDR4 組件數(shù)量大大減少,為設計人員節(jié)省了 PCB 空間和功耗。有些情況下根本不需要外部存儲器。

賽靈思 HBM 解決方案簡介

如圖 3 所示,Virtex UltraScale+ HBM 器件通過集成賽靈思合作供應商提供的業(yè)經(jīng)驗證的 HBM 控制器和存儲器堆棧,可使用與已投入量產(chǎn)的賽靈思 16nm UltraScale+ FPGA 系列相同的構建塊來構建。利用經(jīng)過量產(chǎn)驗證的 CoWoS 組裝工藝集成 HBM,通過標準的 Virtex FPGA 組裝流程將基礎 FPGA 組件與HBM 簡單地堆疊在一起。該方法消除了產(chǎn)能風險,因為基礎 FPGA 系列器件中使用的所有芯片、IP 和軟件都經(jīng)過了量產(chǎn)質量級認證

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 3 :SSI 技術與支持 HBM 的 XCVU37P

Virtex UltraScale+ HBM 器件中新增加的模塊只有 HBM、控制器和加速器的緩存一致性互連 (CCIX) 模塊。收發(fā)器、PCIe? 的集成模塊、以太網(wǎng)、Vivado? Design Suite 等均已經(jīng)得到量產(chǎn)質量級認證,使設計人員能夠集中精力充分發(fā)揮 HBM 的特性與功能,使產(chǎn)品在市場中脫穎而出。

時序收斂創(chuàng)新

由于 Virtex UltraScale+ HBM 器件的基礎已經(jīng)得到驗證,因此賽靈思工程師可將創(chuàng)新工作重點放在優(yōu)化HBM 存儲器控制器上。HBM 與 FPGA 集成的過程中,最明顯的挑戰(zhàn)在于有效利用 HBM 提供的所有存儲器帶寬。賽靈思在這些器件中提供了幾大關鍵而獨特的創(chuàng)新特性,以幫助客戶獲得 HBM 堆棧最高可用的輸入輸出帶寬。

擴展的 AXI 接口

第一個創(chuàng)新是 AXI 接口,用戶可通過該接口連接存儲器控制器。典型的集成 IP 與緊挨著嵌入式 IP 模塊的可編程邏輯進行接口連接。對于大部分模塊來說這已經(jīng)足夠,因為本地路由的匯聚帶寬足以從該模塊輸入輸出數(shù)據(jù)。然而,進出 HBM 的帶寬非常高,因而有必要創(chuàng)建新的接口結構類型,以便擴展到可編程互連。該結構明顯增加接口表面積,極大提高用戶 AXI 接口的可用互連能力,可實現(xiàn) 3.7Tb/s 的運行速度。見圖 4。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 4 :擴展的 AXI 接口

靈活尋址

第二個創(chuàng)新是 HBM 存儲器控制器中包含的靈活尋址功能。HBM 堆棧將存儲器地址空間分成偽通道。這意味著任何給定的 HBM DQ 位都被分配到特定的存儲器地址區(qū)域。因此,如果設計人員想把數(shù)據(jù)寫入存儲地址,只能通過與該地址關聯(lián)的偽通道來寫入數(shù)據(jù)。

如果設計人員想把 HBM 堆棧視為單個連續(xù)存儲器,或者跨偽通道邊界將它們進行分區(qū),那么這種限制并不理想。為了克服這種局限性,賽靈思在嵌入式存儲器控制器中包含了一個 AXI 交換網(wǎng)絡。這個交換網(wǎng)絡能夠根據(jù)地址從任意源 AXI 接口將存儲器讀和寫路由到任意 HBM 偽通道。該功能稱為靈活尋址,因為它允許任意用戶 AXI 接口訪問任意 HBM 存儲器地址。

對于想針對特定存儲器訪問形式來優(yōu)化存儲器控制器的用戶來說,也可以繞開靈活尋址。見圖 5。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 5 :AXI 接口(到用戶邏輯)和 HBM 偽通道(到 HBM 堆棧)

靈活尋址具備多個重要優(yōu)勢 :

1 讓用戶能夠完全控制對 HBM 堆棧的尋址。由于交換網(wǎng)絡能路由整個器件,因而用戶無需遵守 HBM固有的嚴格偽通道要求。32 個 AXI 接口都能讀寫任一 HBM 堆棧上的任意 HBM 偽通道,使用戶能完全控制地址分區(qū),無需考慮偽通道邊界。

2 允許設計人員根據(jù)設計的時序收斂情況使用最方便的 AXI 接口進行連接。例如,向存儲器寫入數(shù)據(jù)的邏輯無需與從存儲器讀取數(shù)據(jù)的邏輯處在相同位置。在基本流量管理器實例中,數(shù)據(jù)包寫入和數(shù)據(jù)包讀取模塊的 AXI 接口均可處在距離模塊最近的位置。見圖 6。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 6 :典型的以太網(wǎng)橋接設計

利用靈活尋址,可將數(shù)據(jù)包寫入和數(shù)據(jù)包讀取邏輯分開,以避免爭奪路由資源。

4 大量減少可編程路由資源。存儲器控制器中有很多 AXI 總線,寬度均為 256 位。因此,如果集成存儲器控制器中提供 32 條在器件中水平路由的通道,就能為 FPGA 設計人員釋放可觀的資源,以便用于具有更高價值的功能。AXI 交換網(wǎng)絡如果完全在 FPGA 邏輯中實現(xiàn),會占用 250,000 個 LUT。如果利用靈活尋址,則整個交換網(wǎng)絡無需使用 LUT。

5 與偽通道方案相比,允許設計人員更高效地使用 AXI 接口。HBM 偽通道具有典型的 DRAM 低效特征,例如激活、預充電和刷新延遲。盡管存儲器控制器確實通過重新排序來提高效率,但是 DRAM不可能達到 100% 高效。然而,單個 AXI 接口能夠將多個偽通道訪問實現(xiàn)流水線,因此獲得高于HBM 偽通道效率的 AXI 接口效率。在眾多應用中,這意味著所需的 AXI 接口數(shù)量更少,能夠釋放更多可編程資源。

能效和熱管理方面的創(chuàng)新

賽靈思客戶非常重視能效性能。TSMC 16nm FinFET+ 工藝支持雙電壓運行,使客戶能夠選擇最高絕對性能或者最高每瓦特性能。利用此工藝,賽靈思能夠提供業(yè)界最低內核電壓,將動態(tài)總功耗降低 30%,提供行業(yè)領先的收發(fā)器技術,以及在 FPGA 中混合多種集成模塊,例如以太網(wǎng)、Interlaken 和 PCIe。

HBM 技術使賽靈思能夠取消外部存儲器接口,用中間層上的走線取而代之,從而將節(jié)能設計推向新高度。這樣做可降低存儲器接口電容,從而降低多 Tb/s 存儲帶寬所需的功耗,將每比特功耗降低 5 倍。

熱管理方面,賽靈思提供多種獨特技術,用以抵消在集成 HBM 之后產(chǎn)生的不可避免的熱密度增加問題。賽靈思的 Virtex UltraScale+ HBM 器件采用散熱片就緒型、無蓋、裸芯片、倒裝芯片封裝,能顯著改善散熱性能,緩和更高熱密度問題。這些無蓋封裝已用于其它 Virtex UltraScale+ FPGA,并在大多數(shù)使用案例中將散熱設計改善 10°C 左右。這實現(xiàn)了更高的計算性能上限和 / 或更低的散熱設計成本。 如需了解更多信息,敬請閱讀賽靈思應用指南《UltraScale+ FPGA D2104 無蓋倒裝芯片封裝的機械和散熱設計指南》[ 參考資料 3]。見圖 7。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 7 :有蓋 vs 無蓋倒裝芯片封裝

應用實例 :智能網(wǎng)絡接口卡

HBM 與高端可編程邏輯的聯(lián)姻在網(wǎng)絡、數(shù)據(jù)中心、音頻 / 視頻廣播、雷達、測試與測量等眾多應用領域中發(fā)揮出巨大優(yōu)勢。其中一種應用是智能網(wǎng)絡接口卡或智能 NIC。智能 NIC 包含 :一個或多個網(wǎng)絡端口,一個連接 CPU 的接口(例如 PCIe? 或 CCIX),要加速的網(wǎng)絡功能(例如 OVS、GZIP、IPSec、SSL 等),以及用于數(shù)據(jù)包存儲和鍵值查找的存儲器。傳統(tǒng)的智能 NIC 需要在 PCB 上安裝四個 72 腳DIMM,以提供足夠的存儲器帶寬來服務兩個 100G 端口。連接四個 DIMM 需要驅動 624 個 I/O,會顯著增加總功耗。容納四個 DIMM 需要全高全長 (FHFL) 尺寸,會帶來一系列功耗和空間效率挑戰(zhàn)。

如果在采用 HBM 的 VU35P 中實現(xiàn)相同方案,則尺寸能縮減到半高半長 (HHHL),因為外部 DRAM 元器件被 HBM 堆棧取代(見圖 8)。VU35P 方案(圖 9)的功耗約為 50%,因為避免了 DIMM 接口的 I/O 功耗。若使用包含兩個 HBM 堆棧的 VU35P 器件,那么得益于 HBM 帶寬,查找速度可提升 3 倍,而且搜索條目是市場上的 TCAM 的 2 倍。除了最終解決方案的這些固有優(yōu)勢外,HBM 方案還能簡化 PCB并降低存儲器子系統(tǒng)的復雜性,從而實現(xiàn)更簡單、風險更低的設計流程。

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 8 :現(xiàn)有基礎架構

革命性提升存儲器的性能—Virtex UltraScale+ FPGA

圖 9 :Virtex UltraScale+ HBM 解決方案

結論

未來很多系統(tǒng)會超出 DDR 所能提供的帶寬,HBM 作為最佳選擇,能大幅提高存儲器帶寬,并實現(xiàn)最佳的單位功耗性能。賽靈思 Virtex UltraScale+ HBM 器件提供恰當?shù)拇鎯ζ鲙捄涂删幊逃嬎阈阅芙M合。憑借這些器件,賽靈思重點幫助設計人員充分利用 HBM 的性能,同時將經(jīng)過驗證的芯片工藝和架構、組裝技術以及設計工具作為設計開發(fā)的基礎。設計人員和系統(tǒng)架構師都會領略通過 Virtex UltraScale+HBM 器件將 HBM 功能引入系統(tǒng)所帶來的優(yōu)勢。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1629

    文章

    21729

    瀏覽量

    602978
  • 存儲器
    +關注

    關注

    38

    文章

    7484

    瀏覽量

    163761
收藏 人收藏

    評論

    相關推薦

    xilinx推出全球最大容量FPGAVirtex UltraScale+器件

    賽靈思公司今天宣布推出全球最大容量的 FPGAVirtex UltraScale+ VU19P,從而進一步擴展了旗下 16 納米 (nm) Virtex?
    發(fā)表于 08-24 09:09 ?3678次閱讀

    賽靈思推出全球最大容量的FPGAVirtex UltraScale+ VU19P

    自適應和智能計算的全球領先企業(yè)賽靈思公司(Xilinx, Inc.,(NASDAQ:XLNX))今天宣布推出全球最大容量的 FPGAVirtex UltraScale+ VU19P,從而進一步
    發(fā)表于 11-02 08:34

    如何調試Zynq UltraScale+ MPSoC VCU DDR控制

    的普通問題,還是一個出現(xiàn)在正在使用 Zynq UltraScale+ MPSoC VCU DDR 控制的地方的特殊問題?! DR 性能:  對于性能問題,可將板上的
    發(fā)表于 01-07 16:02

    ZYNQ Ultrascale+ MPSOC FPGA教程

    ZYNQ Ultrascale+ MPSOC FPGA教程
    發(fā)表于 02-02 07:53

    全新 Virtex UltraScale+ FPGA 評估套件加速高帶寬應用

    Virtex? UltraScale+? FPGA VCU118 評估套件采用可在 FinFET 節(jié)點提供最高性能及各種集成功能的 Virtex
    發(fā)表于 01-13 12:52 ?3061次閱讀

    Xilinx 新型FPGA:擁有最高存儲器帶寬,能將存儲器帶寬提升 20 倍

    賽靈思公司(Xilinx)宣布,采用HBM和CCIX技術的新型16nm Virtex UltraScale+ FPGA的細節(jié)。該支持HBM的FPGA系列,擁有最高
    發(fā)表于 07-31 09:00 ?2723次閱讀

    Zynq UltraScale+ MPSoC存儲器接口系統(tǒng)的介紹

    該視頻重點介紹了UltraScale +產(chǎn)品系列的第一個成員Zynq?UltraScale+?MPSoC,并展示了使用可編程邏輯中的DDR4 SDRAM IP的存儲器接口系統(tǒng)的穩(wěn)健。
    的頭像 發(fā)表于 11-29 06:36 ?3319次閱讀

    Virtex UltraScale+ FPGA收發(fā)的演示

    該視頻演示了具有32.75G背板功能的Virtex?UltraScale+?FPGA,功率優(yōu)化的收發(fā)。 該收發(fā)器具有同類最佳的發(fā)送抖動和第三代客戶驗證的自適應接收
    的頭像 發(fā)表于 11-28 06:39 ?2396次閱讀

    Xilinx 16nm Virtex UltraScale+ FPGA器件的功能

    在本視頻中,了解Xilinx采用高帶寬存儲器(HBM)和CCIX技術的16nm Virtex UltraScale + FPGA的功能和存儲器
    的頭像 發(fā)表于 11-27 06:20 ?3964次閱讀

    Virtex UltraScale+ FPGA VCU110開發(fā)套件的特點性能演示

    查看Virtex UltraScale + FPGA VCU110開發(fā)套件,該套件具有完美的開發(fā)環(huán)境,可用于評估尖端的Virtex UltraSca
    的頭像 發(fā)表于 11-23 06:04 ?3614次閱讀

    Virtex UltraScale FPGA產(chǎn)品簡介資料說明

    與7系列FPGA相比,virtex?UltraScale+?設備提供3倍的系統(tǒng)級性能,以及系統(tǒng)集成和帶寬,適用于各種應用,如1+tb/s數(shù)據(jù)中心、有線通信和波形處理應用。
    發(fā)表于 02-19 15:41 ?4次下載
    <b class='flag-5'>Virtex</b> <b class='flag-5'>UltraScale</b> <b class='flag-5'>FPGA</b>產(chǎn)品簡介資料說明

    嵌入式存儲器的巨大優(yōu)勢

    大多數(shù) Kintex UltraScale+ 和 Zynq UltraScale+ 器件都包含一列 UltraRAM ;高端 Virtex UltraScale+
    的頭像 發(fā)表于 07-30 10:27 ?2728次閱讀
    嵌入式<b class='flag-5'>存儲器</b>的巨大優(yōu)勢

    賽靈思公司宣布其Virtex UltraScale+ FPGA面向首批客戶開始發(fā)貨

    Virtex UltraScale+ 器件加上 Zynq UltraScale+ MPSoC 和 Kintex UltraScale+ FPGA
    的頭像 發(fā)表于 07-30 17:14 ?2539次閱讀

    用于Zynq UltraScale+設備中PL隔離的存儲器和外設保護單元

    電子發(fā)燒友網(wǎng)站提供《用于Zynq UltraScale+設備中PL隔離的存儲器和外設保護單元.pdf》資料免費下載
    發(fā)表于 09-13 15:23 ?0次下載
    用于Zynq <b class='flag-5'>UltraScale+</b>設備中PL隔離的<b class='flag-5'>存儲器</b>和外設保護單元

    Virtex UltraScale+ FPGA數(shù)據(jù)手冊:DC和AC開關特性

    電子發(fā)燒友網(wǎng)站提供《Virtex UltraScale+ FPGA數(shù)據(jù)手冊:DC和AC開關特性.pdf》資料免費下載
    發(fā)表于 09-13 09:45 ?0次下載
    <b class='flag-5'>Virtex</b> <b class='flag-5'>UltraScale+</b> <b class='flag-5'>FPGA</b>數(shù)據(jù)手冊:DC和AC開關特性
    RM新时代网站-首页