賽靈思有90%的客戶在使用DDR存儲器。DDR4是倍受青睞的DDR存儲器系列的最后一代。眾多競爭者們正在虎視眈眈,意圖搶占更大的DDR4市場份額。
存儲器領(lǐng)域正在發(fā)生翻天覆地的變化,這一變化的根本原因在于倍受青睞的DDR存儲器系列將在DDR4戛然而止,而賽靈思有90%的客戶都在使用該主流緩沖存儲器(圖1)。
無需過度恐慌:原因在于DDR3能夠與大多數(shù)系統(tǒng)板完美兼容,DDR4盡管進(jìn)展緩慢,但在未來數(shù)年將會逐步取代DDR3的位置。盡管如此,由于DDR4沒有繼任者,客戶正在尋找另一種存儲器,同時也在認(rèn)真權(quán)衡帶寬、容量或功耗。可能的繼任者是LPDDR3/4,而某些應(yīng)用領(lǐng)域則更傾向于混合存儲立方體(HMC)等串行DRAM解決方案。
為了了解存儲器面臨的這些重要挑戰(zhàn),讓我們先來看看影響這些器件的市場趨勢,以及“迫使DDR帝國沒落”的限制因素。接下來,我們會考慮替代DDR的新存儲器類別,從LPDDR到串行存儲器——相信設(shè)計人員都希望了解這一新概念。
瞬息萬變的市場趨勢
通常,當(dāng)客戶在設(shè)計他們的新一代產(chǎn)品時,他們總是會選擇同樣存儲器的新一代產(chǎn)品,以獲得更高的容量、速度和吞吐量。鑒于此,圖2顯示了當(dāng)前和預(yù)計的DRAM市場份額變化趨勢。DDR3占據(jù)了當(dāng)前總DRAM市場約70%的份額,這一市場主導(dǎo)地位的確立是由于2009到2010年間其市場份額急劇上升了40%。DDR4的市場接受速度稍慢,部分是因為移動DRAM(又被稱為LPDDR)的“侵入”。如果LPDDR能夠滿足無線市場的需求,那么DDR4的增長空間將會非常有限。
圖中,DDR4增長的確呈加速之勢,因為它有很多優(yōu)勢,如供電電壓較低,所以更加省電,且速度較快。因此,它最終會在各個市場上取代DDR3,且最終取決于PC市場空間。盡管PC的DRAM使用已經(jīng)不再超過70%的市場份額,但PC仍然是最大的商品設(shè)備細(xì)分市場。存儲器廠商聲稱,目前DDR4主要用于服務(wù)器,而非個人電子產(chǎn)品細(xì)分市場。盡管如此,DDR4仍是眾多設(shè)計的絕佳選擇。這種存儲器類型廣為人知,并且在很長時間內(nèi)都會存在,尤其是因為它沒有繼任者。
為什么DDR4是最后一代?
那么,為什么沒有DDR5?當(dāng)終端客戶需要采用新器件時,他們希望有更多的存儲器可供選擇??蛻魧Υ鎯ζ鲙挼男枨笥罒o止境。MP3播放器需要存儲10,000首歌曲,而曾經(jīng)流行的盒式錄音帶則只能存儲幾十首??蛻粝M?a target="_blank">智能手機(jī)也能夠存儲成倍的圖片或視頻數(shù)量。這些期望通常意味著更多組件和更大的板極空間。諷刺的是,消費者通常并不希望他們的電子設(shè)備尺寸與存儲容量或性能保持同比增長。他們希望技術(shù)進(jìn)步,這樣在同樣甚至更小的空間內(nèi)就可以存儲更多內(nèi)容。
當(dāng)存儲器與賽靈思FPGA配合使用時,有具體的操作指南,用于指導(dǎo)板面布局,以確保邊距合理以及系統(tǒng)整體成功。具體實例包括走線長度、終端電阻和布線層。這些規(guī)則限制了設(shè)計的最小尺寸,或者不同部件的最近距離。
最小尺寸板面設(shè)計的替代方案可能是一些最前沿的封裝類型。不幸的是,如果采取新的封裝技術(shù),例如通過硅通孔技術(shù)(TSV)實現(xiàn)芯片堆疊,則會使成本急劇上升。DDR存儲器并非高成本器件,完全依賴于行業(yè)基礎(chǔ)設(shè)施的規(guī)模經(jīng)濟(jì),因此無法采取激進(jìn)的封裝方式或承擔(dān)價格的提升。因此,這些技術(shù)進(jìn)步在可預(yù)見的未來不會對DDR3或DDR4系統(tǒng)有任何幫助。
消費者還想要更快的速度。以更快的速度運行系統(tǒng)會導(dǎo)致電路板設(shè)計更加復(fù)雜。DDR存儲器采用單端信號,信號需要合理端接。您運行系統(tǒng)的速度越快,保證系統(tǒng)功能正常運行的從存儲器到FPGA的走線越短。這意味著器件本身需要放置在更加靠近FPGA的位置。與FPGA的距離限制意味著您在設(shè)計中能夠使用的存儲器件數(shù)量將會減少。很多DDR4設(shè)計會在FPGA周圍封裝盡可能多的器件,已經(jīng)達(dá)到了設(shè)計極限。
如果您想要更多存儲空間,您就需要更多器件。如果您需要更快的速度,您就需要縮短器件之間的距離。在有限的空間內(nèi)能夠擠進(jìn)的存儲器件數(shù)量有限。DDR5在速度方面的任何改進(jìn)都會降低存儲器件可用的區(qū)域,從而降低可用的存儲空間。
DDR3的繼任者應(yīng)該是誰?
DDR4能否完全取代DDR3?可能不會全面取代。趨勢表明,服務(wù)器市場正在采用DDR4,而DDR3較低價格優(yōu)勢仍在持續(xù),使它成為個人電腦細(xì)分市場的首選。毫無疑問,消費者對于速度和存儲空間的需求會繼續(xù)增長,最終PC會全面采用DDR4存儲器。
如果不是LPDDR,那會是什么呢?
除了LPDDR之外,還有其它幾類存儲器在覬覦成為下一代存儲器繼任者。串行存儲器就是一種可行的替代方案,并且它完全改變了人們對存儲空間的看法(圖3)。
從FPGA的角度來看,存儲器是最終障礙,也是最后需要串行的部分,原因就是延時。數(shù)據(jù)從并行流變?yōu)榇?,通過串行鏈路,然后再從串行轉(zhuǎn)換為并行數(shù)據(jù)流,這個流程耗時太長?,F(xiàn)在,使用串行鏈路的缺點在某些應(yīng)用中是可以容忍的(例如多次寫入且只有少量讀取的情況下,如CT掃描器的測試測量系統(tǒng)或掃描天空的一組望遠(yuǎn)鏡)。在另一方面,如果質(zhì)量測量需要寫入數(shù)據(jù)并且立即閱讀該數(shù)據(jù),串行存儲器在任何情形下的表現(xiàn)都劣于并行數(shù)據(jù)。但是,如果好的存儲器的衡量標(biāo)準(zhǔn)是高帶寬、能存儲大量視頻或在互聯(lián)網(wǎng)上發(fā)送大量信息,那么串行存儲器就很有誘惑力。
拋開延時,我們需要對同樣的弊端進(jìn)行研究。生命周期不是問題:與LPDDR較短的生命周期相比,這些產(chǎn)品只要有市場需求就可以生產(chǎn)。事實上,如果對串行存儲器的需求增加,眾多廠商都可能會加入生產(chǎn)該存儲器件的行列。
串行存儲器沒有采用I/O引腳,而采用串并收發(fā)器技術(shù)。在FPGA中,我們可以使用串行接口(收發(fā)器)實現(xiàn)高速率運行。最近,由于降低延時的需求,廠商們也已經(jīng)解決了這些性能方面的問題。這種高度發(fā)達(dá)的串行技術(shù)能夠?qū)崿F(xiàn)極高的吞吐量,每秒可達(dá)15 Gb。下一代(以HMC為例)吞吐量預(yù)計可達(dá)到30 Gbps。人們喜歡“新事物”,但同時又害怕接觸不熟悉的事物。另一方面,新技術(shù)會導(dǎo)致生產(chǎn)速率受限且初始價格更高。
混合存儲立方體(HMC)
最有望取代DDR DRAM的串行存儲器為混合存儲立方體 (HMC),由混合存儲立方體聯(lián)盟 (HMC Consortium) 推廣,首倡者為美國美光(圖4)。該技術(shù)的贊助者在推廣HMC方面做的非常出色。人們甚至開始使用縮寫詞HMC來代表“串行存儲器”。但事實上,HMC只是串行存儲器的一種。
除了HMC之外,MoSys公司正在開發(fā)一種名為Bandwidth Engine的串行SRAM存儲器,博通公司也提供了一系列串行接口TCAM方案。與之相對,三星和海力士半導(dǎo)體正在推廣高帶寬存儲器(HBM),這是一種基于TSV的堆棧式DRAM,采用超寬并行接口。該存儲器看起來似乎風(fēng)險更低,因為它采用的是并行接口。
但是,目前HMC是從DDR3和DDR4奪取市場份額最有力的競爭者。HMC采用TSV技術(shù),在邏輯層的頂部堆棧了4到8層互相連接的DRAM,以創(chuàng)建2G或4G的封裝。該邏輯層可提供一個便捷的接口。
如果需要更多存儲空間,您可以將多達(dá)8個器件以菊花鏈形式連接起來。這種1對4的鏈路能力(以半個鏈路為單位步進(jìn))能夠?qū)崿F(xiàn)256位的存取和超大吞吐量。每個鏈路包括16個收發(fā)器(半個鏈路為8個),每個都能夠處理15 Gbps的數(shù)據(jù)。這種超大帶寬是之前的存儲器設(shè)計師所不曾體驗過的。
如需了解對DDR解決方案的帶寬技術(shù)改進(jìn),敬請參見表格1,該表格給出了三種設(shè)計,每一種 (DDR3/DDR4/HMC) 都被調(diào)整為支持60 Gbps的吞吐量。請注意,HMC解決方案中的引腳數(shù)量較原來至少減少8倍,極大地降低了電路板的復(fù)雜程度并簡化了布線(如圖5所示)。串并收發(fā)器鏈路的高帶寬允許采用更少的器件,本例中僅有一個器件。該單一器件和一個FPGA所占據(jù)的板極空間降為原來的1/20。最后,HMC解決方案每比特數(shù)據(jù)的能耗也降低了2/3。這些數(shù)據(jù)非常具有震撼性,讓觀察者們相信HMC能夠從DDR4中贏得一部分市場份額。
其它串行存儲器
由于HMC和“串行存儲器”經(jīng)常被錯誤混用,有時候甚至用來代表任何一種新的高帶寬存儲器,因此探索一些其它新出現(xiàn)的存儲器件是非常有益處的。該類別的三大有力的競爭者為MoSys的Bandwidth Engine、博通公司的TCAM,以及三星、海力士半導(dǎo)體和Intel推廣的HBM。
MoSys的Bandwidth Engine(BE2)類似于串行SRAM,而非串行DRAM。它采用收發(fā)器實現(xiàn)16 Gbps的吞吐量。但是,BE2不太可能取代DDR。相反,它支持72位存取和更低延時,目標(biāo)是針對QDR或RLDRAM。它可用于存儲數(shù)據(jù)包頭或查詢表,而不是像DDR一樣存儲數(shù)據(jù)包緩沖區(qū)。
TCAM為三態(tài)內(nèi)容尋址存儲器。這種特殊的高速存儲器可以廣泛地搜索在高性能路由器和交換機(jī)中找到的模式匹配。與高性能相伴的是高費用、能耗和發(fā)熱。除了速度快之外,TCAM在本質(zhì)上是并行的,它沒有使用串并收發(fā)器實現(xiàn)高速度。但是,博通公司正在推出該類存儲器的各種串行版本。
因此,TCAM解決方案仍具備串行存儲器所具備的引腳數(shù)少和速度高的優(yōu)勢。
第三種類型的存儲器為HBM。不要被HMC和HBM之間偶爾發(fā)生的爭辯所迷惑。鮮為人知的是,HBM器件是買不到的。事實上,如果您想使用HBM,就必須從海力士半導(dǎo)體購買一個芯片,并且將該芯片安裝在您的封裝內(nèi)部的插入器或硅基片上。插入器設(shè)計中必須包含從您的器件到存儲器的連接,才能實現(xiàn)這一高帶寬的并行存儲器。
這種類型的存儲器想要占領(lǐng)市場,企業(yè)就必須決定他們想要分享的商業(yè)機(jī)密相關(guān)內(nèi)容,還必須同意采用該類存儲器的設(shè)計標(biāo)準(zhǔn)(插入器設(shè)計、高度、接口、公差等等)。這些細(xì)節(jié)可以解決,但目前尚未解決。另一方面,HBM的延時會很低。這是因為電子器件的遷移距離會非常小,因為它位于封裝內(nèi)部。這個創(chuàng)意非常好,但需要未來的進(jìn)一步檢驗。
進(jìn)入生產(chǎn)階段
上述任何或全部解決方案的成功都能確保更多的供應(yīng)商加入到為該行業(yè)服務(wù)的先行者隊伍當(dāng)中。目前正在生產(chǎn)當(dāng)中的解決方案是MoSys的BE2。HMC正在試樣,到年底將會全面投產(chǎn)。LPDDR4今年年中會開始試樣。HBM并不會作為獨立封裝提供,但有傳言說HBM可能串行并獨立封裝。如果您想要購買芯片并將HBM整合到您的封裝里,您可以聯(lián)系三星或海力士半導(dǎo)體或其他更小的廠商,很多客戶正在這么做。
目前,DDR3仍在銷售,表現(xiàn)強(qiáng)勁,而DDR4正處于增長和市場接受階段。DDR4也會有持久的生命力,很可能比現(xiàn)在倍受青睞的DDR3持續(xù)時間更長,因為它是高度成功的存儲器件的最后一代產(chǎn)品。LPDDR4最有可能填補(bǔ)該空缺,但不會在所有領(lǐng)域取代DDR4,除非有非??焖俚淖x/寫迭代。
否則,串行存儲器將成為最值得關(guān)注的新興技術(shù)。HMC正準(zhǔn)備取代DDR,而Bandwidth Engine則是可以取代QDR和RLDRAM的串行解決方案。
賽靈思如何量身定制ULTRASCALE存儲器的性能
賽靈思UltraScale ? FPGA 專為存儲器所需的更高性能和更大的靈活性而設(shè)計。演示證明DDR4 運行速度可達(dá)2,400 Mbps。這一全球最快的速度得到Agilent 的證實,該公司在設(shè)計出了可插入在存儲器下方的插入器,并在系統(tǒng)運行時進(jìn)行系統(tǒng)眼圖測量時獲得了這一速度。由于DDR4 采用了新型“偽開漏”(POD) I/O 結(jié)構(gòu),賽靈思也在UltraScale 中添加了POD。該結(jié)構(gòu)與I/O 電壓需求為1.2V 的DDR4 協(xié)議相結(jié)合,能夠使存儲器接口I/O 系統(tǒng)比類似速度的DDR3 系統(tǒng)節(jié)約35%。
除了DDR3 和DDR4 之外,UltraScale 還支持大量其它的并行存儲器: LPDDR3、RLDRAM3、QDRII+ 和QDRIV。在串行存儲器領(lǐng)域中,UltraScale 可支持HMC 和MoSys 的Bandwidth Engine,該器件帶有多達(dá)120 個收發(fā)器,足以應(yīng)對大多數(shù)應(yīng)用。
此外,UltraScale 還進(jìn)行了內(nèi)部改進(jìn),以提升存儲器接口性能和FPGA I/O Bank 的利用率。為了提升利用率,賽靈思增加了每個Bank 的I/O 數(shù)量,每個I/O Bank 有兩個PLL。此外,還增加了更精確的5 皮秒抽頭時延功能。不僅如此,每個I/O Bank 還支持4 字節(jié)通道,每個通道有13 個引腳。賽靈思還為I/O 的預(yù)加重和均衡增加了電路。
這一代技術(shù)目前支持4 排DIMM 模塊和4 個器件,內(nèi)存訪問深度增加了4 倍。物理層時延的改進(jìn)讓數(shù)據(jù)訪問更加快速。大量的改進(jìn)意味著存儲器架構(gòu)將得到優(yōu)化,以滿足您所在市場的性能要求。
UltraScale FPGA 支持所有主要的存儲器標(biāo)準(zhǔn)。帶有MIG IP 向?qū)У腣ivado? 設(shè)計套件讓部署更加快速,因此客戶能夠更加關(guān)注解決方案而非問題。
— Tamara I. Schmitz
評論
查看更多