新时代软件下载,RM新时代正规网址|首入球时间

01.HBM

高帶寬內(nèi)存（HBM）正在成為超大規(guī)模廠商的首選內(nèi)存，但其在主流市場的最終命運仍然存在疑問。雖然它在數(shù)據(jù)中心中已經(jīng)很成熟，并且由于人工智能/機器學習的需求導(dǎo)致使用量不斷增加，但其基本設(shè)計固有的缺陷阻礙了更廣泛的采用。另一方面，HBM 提供結(jié)構(gòu)緊湊的 2.5D 結(jié)構(gòu)尺寸，可大幅減少延遲。

Rambus產(chǎn)品營銷高級總監(jiān) Frank Ferro 在 Rambus 設(shè)計展會上發(fā)表演講時表示：“HBM 的優(yōu)點在于，可以在可變的范圍內(nèi)獲得所有這些帶寬，并且表示獲得了非常好的功耗?！?/p>

圖1：實現(xiàn)最大數(shù)據(jù)吞吐量的HBM堆棧

“目前困擾高帶寬內(nèi)存的問題之一是成本，”Cadence IP 團隊產(chǎn)品營銷總監(jiān) Marc Greenberg 說道?！?D 成本相當高，相當于有一個邏輯芯片位于芯片的底部，這是你必須支付的額外硅片。然后是硅層，它位于CPU或GPU以及HBM內(nèi)存的下面。然后，你需要一個更大的封裝，等等。目前現(xiàn)存的HBM切割了消費者領(lǐng)域，并更早放置在服務(wù)器機房或數(shù)據(jù)中心，存在許多系統(tǒng)成本。相比之下，GDDR6等圖形內(nèi)存雖然無法提供與HBM一樣多的性能，但成本卻顯著降低。GDDR6的單位成本性能實際上比 HBM 好，但 GDDR6 器件的最大帶寬與 HBM 的最大帶寬不匹配?！?/p>

Greenberg表示，這些差異為公司選擇 HBM 提供了令人信服的理由，即使它可能不是他們的第一選擇?！癏BM 提供充足的帶寬，并且每比特傳輸?shù)哪芰繕O低。使用 HBM 是因為你必須這樣做，因為沒有其他解決方案可以為你提供所需的帶寬或所需的功率?！?/p>

而且 HBM 只會變得越來越快。“我們預(yù)計 HBM3 Gen2 的帶寬將提高 50%，”美光計算產(chǎn)品事業(yè)部副總裁兼總經(jīng)理 Praveen Vaidyanathan 說道?！皬拿拦獾慕嵌葋砜?，我們預(yù)計 HBM3 Gen2產(chǎn)品將在2024財年實現(xiàn)量產(chǎn)。在2024日歷年初，我們預(yù)計隨著時間的流逝，它將開始為收入做出貢獻。此外，我們預(yù)測美光的HBM3將貢獻比DRAM更高利潤?！?/p>

盡管如此，成本因素可能會像許多設(shè)計團隊一樣考慮更有性價比的替代方案。

Greenberg指出：“如果有任何方法可以將大問題解析為更小的部分，你可能會發(fā)現(xiàn)它提高了成本效益。例如，面對一個巨大的問題并且必須在一個硬件上執(zhí)行所有這些操作，而且我必須在那里使用 HBM，也許我可以將其中斷兩個部分。讓兩個進程任務(wù)運行，另外一部分可能連接到 DDR6。如果我能夠?qū)栴}闡釋為更小的部分，那么我可能會以更小成本完成相同數(shù)量的計算。但如果你需要那么大的帶寬，那么 HBM 就是你唯一的選擇?！?/p>

另一個主要缺點是HBM 的 2.5D 結(jié)構(gòu)會積聚熱量，而其放置在接近 CPU 和 GPU 的位置會加劇這種情況。事實上，在嘗試給出不良設(shè)計的理論樣本時，很難想出比當前樣本更糟糕的東西，當前布局將 HBM及其熱敏 DRAM 堆棧放置在計算密集型熱源附近，導(dǎo)致散熱很難處理。

“最大的挑戰(zhàn)是數(shù)據(jù)，”Greenberg說?！澳阌幸粋€CPU，根據(jù)定義它會生成大量數(shù)據(jù)。你通過這個接口每秒T bits，即使每次消耗只有皮焦耳熱，但每秒都會執(zhí)行十億次計算，因此你的CPU會非常熱。它不僅僅是移動周圍的數(shù)據(jù)。它也必須進行計算。最重要的是最不喜歡熱的半導(dǎo)體組件，即DRAM。85 ℃左右它開始忘記東西，125℃左右則心不在焉。這是兩個完全不同的事情?！?/p>

還有一個可取之處?！皳碛?.5D堆棧的優(yōu)勢在于，CPU很熱，但可以間隔一定物理距離把HBM位于CPU旁邊，這樣會犧牲延時性能?！彼f。

但是Synopsys 內(nèi)存接口 IP 解決方案產(chǎn)品線總監(jiān) Brett Murdock說道，“在延遲和熱量之間的權(quán)衡中，延遲是不能變的。我沒有看到任何人犧牲延遲，我希望他們推動物理團隊尋找更多好的冷卻方式，或者更好的放置方式，以保持較低的延遲?！?/p>

02.HBM和AI

雖然很容易想象計算是 AI/ML 最密集的部分，但如果沒有良好的內(nèi)存架構(gòu)，這一切都不會發(fā)生。需要內(nèi)存來存儲和檢索數(shù)萬億次計算。事實上，在某種程度上添加更多 CPU 并不會提高系統(tǒng)性能，因為內(nèi)存帶寬無法支持它們。這就是臭名昭著的“內(nèi)存墻”瓶頸。

Quadric首席營銷官 Steve Roddy 表示，從最廣泛的定義來看，學習機器只是曲線函數(shù)?！霸谟柧氝\行的每次迭代中，你都在努力越來越接近曲線的最佳函數(shù)。這是一個XY圖，就像高中幾何課一樣。大型語言模型基本上是同一件事，但是是100億維，而不是2維?！?/p>

因此，計算相對簡單，但內(nèi)存架構(gòu)可能非常驚人。

Roddy 解釋說：“其中一些模型擁有 1000 億字節(jié)的數(shù)據(jù)，對于每次重新訓練迭代，你都必須通過數(shù)據(jù)中心的背板從磁盤上取出 1000 億字節(jié)的數(shù)據(jù)并放入計算箱中?！薄霸趦蓚€月的訓練過程中，你必須將這組巨大的內(nèi)存值來回移動數(shù)百萬次。限制因素是數(shù)據(jù)的移入和移出，這就是為什么人們對 HBM 或光學互連從內(nèi)存?zhèn)鬏數(shù)接嬎憬Y(jié)構(gòu)的東西感興趣。所有這些都是人們投入數(shù)億美元風險投資的地方，因為如果你能進行每周距離或時間，你就可以最大程度地簡化每周訓練過程，無論是切斷電源還是加快速度?！?/p>

由于所有這些原因，高帶寬內(nèi)存被認為是 AI/ML 的首選內(nèi)存?！八峁┝艘恍┯柧?a href="http://hljzzgx.com/v/tag/2562/" target="_blank">算法所需的最大帶寬，”Rambus 的 Ferro 說。“從可以擁有多個內(nèi)存堆棧從角度來看，它是可配置的，這提供了非常高的帶寬。”

這就是人們對 HBM 如此感興趣的原因。Synopsys的大多數(shù)客戶都是人工智能客戶，所以他們正在 LPDDR5X 接口和 HBM 接口之間進行一項重大的基本權(quán)衡。他們忽略了成本。他們真的很渴望 HBM。這是他們對技術(shù)的渴望，因為通過HBM能夠在一個 SoC 周圍創(chuàng)建可以足夠大的帶寬量?，F(xiàn)在，他們可以在SoC 周圍放置了 6 個 HBM 堆棧。

然而，人工智能的需求如此之高，以至于HBM減少延遲的前沿特征又推動了下一代HBM的發(fā)展。

“延遲正在成為一個真正的問題，”Ferro說?！霸?HBM 的前兩代中，我沒有聽到任何人抱怨延遲?，F(xiàn)在我們一直收到有關(guān)延遲的問題?！?/p>

Ferro 建議，抓住當前的限制，了解數(shù)據(jù)結(jié)構(gòu)極其重要?！八赡苁沁B續(xù)的數(shù)據(jù)，例如視頻或語音識別。也可能是事務(wù)性的，就像財務(wù)數(shù)據(jù)一樣，可能非常隨機。如果你知道數(shù)據(jù)是隨機的，那么設(shè)置內(nèi)存接口的方式將與流式傳輸視頻不同。這些是基本問題，但也有層次的問題。我要在內(nèi)存中使用的字長是多少？內(nèi)存的塊大小是多少？這個了解得越多，你設(shè)計系統(tǒng)的效率就越大。如果你了解了，那么你可以定制處理器，從而最大限度地提高計算能力和內(nèi)存帶寬。我們看到越來越多的 ASIC 式 SoC 正在瞄準特定的目標市場剖析市場，以實現(xiàn)更高效的處理?！?/p>

降低 HBM 成本將是一項挑戰(zhàn)。由于將 TSV 放置在晶圓上的成本很高，因此加工成本已經(jīng)明顯高于標準 DRAM。這使得它無法擁有像標準 DRAM 一樣大的市場。由于市場較小，規(guī)模經(jīng)濟導(dǎo)致成本在一個自給自足的過程中更高。體積越小，成本越高，但成本越高，使用的體積就越少。沒有簡單的方法可以解決這個問題。盡管如此，HBM 已經(jīng)是一個成熟的 JEDEC 標準產(chǎn)品，這是一種獨特的 DRAM 技術(shù)形式，能夠以比 SRAM 低得多的成本提供極高的帶寬。它還可以通過封裝提供比 SRAM 更高的密度。它會隨著時間的推移而改進，就像 DRAM 一樣。隨著接口的成熟，預(yù)計會看到更多巧妙的技巧來提高其速度。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴