最近在華爾街舉行的 HPC + AI展會上舉辦了一場小組討論,匯聚了主要供應商來討論當前的 GPU Squeeze(短缺)問題。“擠壓”是由于生成型人工智能/ LLM的快速持續(xù)增長造成的,現(xiàn)在已將 GPU 的需求推向前所未有的水平,并對 GPU 的可用性造成了“擠壓”。
下面是主要討論內(nèi)容。
GPU到底有多缺貨?
根據(jù)我們報道的消息,我認為 HPC 用戶訪問 GPU(購買的或在云中)會遇到一些挑戰(zhàn)。我想檢查我的假設,并從貴公司的角度詢問“GPU 擠壓”問題有多大。
Supermicro 的 Thomas Jorgensen 分享了一個有趣的數(shù)據(jù)點?!拔铱梢愿嬖V你,由于缺乏 H100 GPU,我們有數(shù)以萬計的系統(tǒng)缺貨。但是,我還要說,市場上有很多替代品,例如,我們有一組更新的 CPU,用于 HPC 工作負載,而傳統(tǒng)上這些工作負載是由 GPU 提供服務的。”
Thomas 提到了帶有 64 GB 嵌入式 HBM2 內(nèi)存的新型 Intel Max Xeon CPU,極大地增強了一些 HPC 工作負載。他建議,如果無法獲得 Nvidia GPU,本地 HPC 是緩解這種情況的方法之一。作為硬件中立的供應商,他還提到英特爾和 AMD 的其他 GPU 都很容易獲得。
Thomas還提到了重要的一點,“很多人都說我們依賴CUDA,但如果你要等NVidia GPUS一年,那段時間你可以轉(zhuǎn)換很多代碼。因此,市場上其他一些 GPU 絕對有生命力,其中一些可以在很短的等待時間內(nèi)被黑客攻擊?!?/p>
他最后還提到了 Nvidia L40 GPU,他認為這是一個很好的替代品,或者至少是你可以購買的東西。此外,Thomas還提到,“所以,我想說,對于我們的本地客戶來說,有很多替代方案,客戶現(xiàn)在正在探索這一點。我想補充一點,為了取得巨大成功?!?/p>
英特爾的 Kiran Agrahara 補充道:“這取決于用例。當您查看短缺時,這取決于您正在研究的用例。” 他繼續(xù)說道,“還有其他選擇,并且大多數(shù)學習和推理現(xiàn)在都可以使用 Xeon Gen 4 處理器來完成?!?他提到英特爾有針對不同用例的基準測試。他還指出,每個人都認為每個用例都需要 NVidia GPU。
Kiran 還指出,英特爾擁有 Gaudi 2,它更像是一個推理處理器,而不是學習處理器,并且可以在本地和云端使用。他繼續(xù)提到 Datacenter GPU Max 系列可以作為 A100 的替代品或替代品。最后,他呼吁大家關注英特爾的 OpenVINO(開放式視覺推理和神經(jīng)網(wǎng)絡優(yōu)化)——所有英特爾 HPC 和人工智能產(chǎn)品之上的軟件層。
Nvidia 全球合作伙伴成功經(jīng)理Prabhu Ramamoorthy 指出,人們認為 GPU 短缺是最近才發(fā)生的,但我們已經(jīng)看到這種情況好幾年了。例如,三年前,GPU 在云端運行進行 NLP(自然語言處理)。許多對沖基金都在運行所有這些工作負載。生成式人工智能就像 NLP 的新的、美麗的、更性感的術語,現(xiàn)在對這些 GPU 的需求要大得多。正如Thomas所指出的,我們希望客戶選擇正確的用例。他還提醒大家,NVidia 雇傭的軟件工程師比硬件工程師更多。作為這些努力的結果,他提到 TensorRT-LLM 等 Nvidia 軟件可以優(yōu)化應用程序并確保更有效地利用 GPU。
Google Cloud HPC 和 AI 基礎設施解決方案經(jīng)理Wyatt Gorman 總結道,他認為長期規(guī)劃 GPU 需求非常重要?,F(xiàn)在,看看替代方案,不要超出你的應用程序太多??紤]一下現(xiàn)在有哪些可能性,并且有一些方法可以優(yōu)化 GPU 使用,這是很好的替代方案。是很好的選擇。
GPU 替代方案
有關短缺的報道可能還會持續(xù) 18 個月。是否有其他方法建議 HPC 用戶運行應用程序(云、替代硬件、軟件優(yōu)化)?例如,NAMD(一種 HPC 分子動力學代碼)將使用 CPU 和 MPI 和/或 GPU 運行。用戶會恢復使用 MPI 嗎?
Kiran Agrahara 回憶起一個較舊的示例,其中用戶需要 20 個 GPU,而要完成相同的工作,他們需要大約 180 個 CPU。但他建議看看過去三年發(fā)生了什么變化。他繼續(xù)說道:“CPU 已經(jīng)取得了長足的進步。那時我們還沒有硬件加速器。如果你看看下一代 Xeon 處理器,我們有一個稱為 RMX 的先進矩陣架構。所以今天,CPU 已經(jīng)取得了長足的進步。你看到的是 128 個核心,然后你就有了 RMX 架構,我可以說它就像是增強版的 AVX512。所以答案是肯定的,你可以用 CPU 來實現(xiàn)這一點?!?/p>
Wyatt Gorman 補充說,讓人們意識到較小的 GPU 非常重要?,F(xiàn)在每個人都在考慮 A100 和 H100。速度較慢的 Nvidia T4、L4 和 L40 GPU 有足夠的容量,并且可以在 Google Cloud 上使用,因為目前對它們的需求并不高。如果您對這些 GPU 進行一些調(diào)整和優(yōu)化,您可以看到代碼的加速。
HPC 和數(shù)據(jù)中心融合
通常,HPC 位于其自己的孤島中,然后您可以在另一個正在開發(fā)的孤島中使用快速增長的 GenAI 和類似的硬件。當人們開始認識到我們可以將這兩種資源整合在一起時,您是否認為這可能會使 HPC 受益?您如何看待在數(shù)據(jù)中心運行的 HPC 應用程序與在具有單獨硬件的研發(fā)實驗室中運行的 HPC 應用程序的融合?
Wyatt Gorman 表示,谷歌在 HPC RFP 中看到了更多人工智能功能。他認為,隨著這些問題類型的出現(xiàn),隨著 HPC 和 AI 的融合,我們會看到 AI 技術被引入傳統(tǒng)的 HPC 問題解決應用程序中,并且我們將看到越來越多的此類技術以及越來越多的資源。正如我提到的,Slurm 現(xiàn)在支持 Google TPU,現(xiàn)在或?qū)砟灰欢ㄐ枰?Kubernetes 來運行 HPC。你知道,即使它是一種選擇,也沒有必要。
Supermicro 的 Thomas Jorgensen 提到,英特爾第五代路線圖顯示,未來的某些 CPU 上將有多達 288 個核心。當然,CPU 平臺上也發(fā)生了一些事情,這些事情將帶來比傳統(tǒng) CPU 平臺更高的性能。還有一點是Intel打造的Max GPU是HPC+AI GPU。我們在 Supermicro 所做的第一次測試展示了使用該 GPU 的 HPC 的真實性能。
從硬件的角度來看, Supermicro 試圖成為中立者,與 Nvidia、AMD 和 Intel 合作。
Thomas 繼續(xù)說道:“與英特爾 AMD 平臺一樣,我們擁有非常高的核心數(shù)量 Epyc 處理器,并與 Nvidia 進行了科學實驗。在此測試中,我們可以在單個系統(tǒng)中放置十個 GPU。HPC 基準測試以及我們從 HPC 上的一個系統(tǒng)中獲得的性能令人震驚。但這是一種前進的方式,至少,我的意思是,它對擠壓沒有幫助,對吧,因為使用 H100,但那里的一些性能顯示出 HPC 工作負載的真正前景。因此,我對硬件和我們看到的一些優(yōu)化非常充滿希望,這些優(yōu)化可以從現(xiàn)有硬件中發(fā)揮更多作用?!?/p>
此外,一些用戶可能會發(fā)現(xiàn)傳統(tǒng) HPC 和 GenAI 之間的界限有點模糊。對快速 GPU 的需求表明這兩種類型的應用程序都在進行大量的數(shù)字運算,但傳統(tǒng)的 HPC 蒙特卡羅風險分析是否類似于經(jīng)過訓練進行風險分析的 GenAI?換句話說,您如何看待GenAI和HPC?它們屬于同一大類還是代表兩個不同的市場?它們相輔相成嗎?
NVidia 的 Prabhu Ramamoorthy 立即提到,他看到這種融合現(xiàn)在正在發(fā)生,他們看到客戶在致力于最終用例時混合使用 HPC 和 AI 解決方案。
Google Cloud 的 Wyatt Gorman 回答說,他看到人們將機器學習技術引入不同級別的 HPC 流程中。因此,請將其視為 HPC 中的一個子集、一個域。他認為,它可能會分拆出來,變得更加孤立,就像大數(shù)據(jù)從 HPC 中分離出來一樣。但就目前而言,他認為情況正在趨同。
編輯:黃飛
-
處理器
+關注
關注
68文章
19259瀏覽量
229649 -
嵌入式
+關注
關注
5082文章
19104瀏覽量
304793 -
NVIDIA
+關注
關注
14文章
4978瀏覽量
102984 -
gpu
+關注
關注
28文章
4729瀏覽量
128890 -
HPC
+關注
關注
0文章
315瀏覽量
23753
原文標題:GPU到底有多缺貨?有替代者嗎?
文章出處:【微信號:TenOne_TSMC,微信公眾號:芯片半導體】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論