云計算、可持續(xù)性、大規(guī)模和指數(shù)級數(shù)據(jù)增長——這些曾在2022年為HPC(高性能計算)定下基調(diào)的關(guān)鍵創(chuàng)新,也將是2023年推動HPC的關(guān)鍵因素。
隨著越來越多企業(yè)依賴HPC來加快獲取成果,特別是對于他們的數(shù)據(jù)密集型應(yīng)用,這個400億美元的市場面臨著挑戰(zhàn)和機(jī)遇。
作者:Jay Boisseau博士
HPC在2023面臨的挑戰(zhàn)
1可持續(xù)性
隨著HPC市場的增長,運(yùn)行這些能源密集型基礎(chǔ)設(shè)施所需的能耗也越來越大。為了實現(xiàn)可持續(xù)發(fā)展,行業(yè)領(lǐng)導(dǎo)者正在優(yōu)先考慮如何減少二氧化碳排放,甚至使HPC脫碳。在總電力使用量增加的情況下,這不是一項容易的任務(wù)。
2冷卻
在接下來的幾年里,我們將看到硅處理器和加速器的使用增加,它們需要更多電力,也因此產(chǎn)生了更多熱量。作為HPC行業(yè)的領(lǐng)導(dǎo)者,我們十分關(guān)心如何冷卻這些數(shù)據(jù)中心。
目前,業(yè)內(nèi)正在研究創(chuàng)新的數(shù)據(jù)中心設(shè)計,包括模塊化數(shù)據(jù)中心和主機(jī)托管。另一個重點是液冷。直接液冷提供了卓越的熱管理和五倍于空氣散熱的冷卻能力。浸入式液冷使用專用冷卻液提供高性能、復(fù)雜的冷卻解決方案。液冷方案正在全球范圍內(nèi)受到廣泛關(guān)注,成為未來數(shù)據(jù)中心的必備。
從直接液冷到浸沒式液冷,戴爾科技集團(tuán)提供全面的液冷解決方案,可滿足不同用戶所需。在國內(nèi),戴爾科技與多個合作伙伴建立合作,加快液冷技術(shù)的快速普及,助力用戶節(jié)能減碳。
3擴(kuò)展和開發(fā)大規(guī)模系統(tǒng)
為了滿足需求,HPC行業(yè)正在開發(fā)和完善戰(zhàn)略,從而有效地擴(kuò)展和部署高效和可靠的大型系統(tǒng)。這是一個艱巨的任務(wù),而且將取決于幾個因素:
●加速器的規(guī)模部署和管理;
●大規(guī)模更改電源和冷卻設(shè)計;
●高性能集群的開源部署,用于運(yùn)行模擬、AI 和數(shù)據(jù)分析工作負(fù)載。
2023 HPC有什么新的變化?
在HPC行業(yè),我們正在經(jīng)歷我們所做的事情、做事的方式和地點發(fā)生巨大變化。以下是我們注意到的變化:
交付模式
HPC正在從一個幾乎嚴(yán)格意義上的本地系統(tǒng),轉(zhuǎn)變?yōu)閾肀нh(yuǎn)程交付模型。基于服務(wù)的模型(包括IaaS/PaaS/SaaS)以及按需和訂閱支付模型的巨大增長,推動了客戶對托管、托管服務(wù)和云計算等HPC交付模型的興趣。
當(dāng)然,數(shù)據(jù)中心的挑戰(zhàn)也推動了對這些替代方案的需求。包括戴爾APEX for HPC和HPC on Demand服務(wù)在內(nèi)的新的解決方案,可以滿足這些客戶的要求和愿望。
人工智能/機(jī)器學(xué)習(xí)將作為HPC的重要工作負(fù)載繼續(xù)增長。由于數(shù)據(jù)規(guī)模的快速增長,對能夠運(yùn)行大型訓(xùn)練模型的HPC解決方案的需求不斷增加。
同時,這些模型可以補(bǔ)充模擬,指導(dǎo)目標(biāo)或減少一些問題的參數(shù)空間。我們認(rèn)識到需要一些工具來支持機(jī)器學(xué)習(xí)操作和數(shù)據(jù)科學(xué)管理,這些工具必須能夠擴(kuò)展并與HPC軟件、計算和存儲環(huán)境相集成。
數(shù)據(jù)處理單元
我們預(yù)計DPU的使用將會激增,但必須弄清楚哪些用例在價格性能比和性能瓦特比方面具有可量化的優(yōu)勢。要注意的是,需要進(jìn)行更多的研究和基準(zhǔn)比較,來幫助客戶做出最佳決策。
關(guān)于DPU何時對HPC工作負(fù)載有優(yōu)勢的一些例子包括:
●集體作業(yè)
●通過將hypervisor轉(zhuǎn)移到DPU,卸載CPU的計算負(fù)荷
●通過任務(wù)卸載改善通信。如果代碼是基于任務(wù)的,用戶有可能將任務(wù)轉(zhuǎn)移到不太繁忙的節(jié)點上
可組合基礎(chǔ)設(shè)施
我們注意到可組合基礎(chǔ)設(shè)施提高資源利用方面的好處,但關(guān)于它的未來仍然具有不確定性。與DPU一樣,需要更多的研究和可量化的比較,來確定可組合基礎(chǔ)設(shè)施是否適合客戶的下一個系統(tǒng)。
雖然特定的人工智能工作流程,需要特殊的硬件配置,而可組合的基礎(chǔ)設(shè)施可能會消除傳統(tǒng)架構(gòu)的限制,但對于它是否可以擴(kuò)展,以及投資回報率是否會通過增加靈活性和利用率來達(dá)到,還存在爭議。
量子計算
我們對量子計算系統(tǒng)(QC)將且必須與“經(jīng)典”HPC系統(tǒng)整合的共識日益增強(qiáng)。
量子計算系統(tǒng)目前只在某些類型的計算上有優(yōu)勢,因此最好作為加速器使用。在戴爾科技,我們已經(jīng)開發(fā)了一個混合的經(jīng)典/量子平臺,利用戴爾PowerEdge服務(wù)器與Qiskit Runtime,以及IonQ Aria量子處理單元。
通過該平臺,經(jīng)典和量子模擬工作負(fù)載可以在企業(yè)內(nèi)部執(zhí)行,而量子工作負(fù)載,例如為藥學(xué)開發(fā)建模的更大、更復(fù)雜的分子,可以用IonQ QPU執(zhí)行。
結(jié)語
在數(shù)據(jù)處理和人工智能/機(jī)器學(xué)習(xí)訓(xùn)練的商業(yè)需求的推動下,令人印象深刻的大型HPC市場繼續(xù)以健康的速度增長。HPC的工作負(fù)載和交付模式比以往任何時候都更加多樣化,從而導(dǎo)致客戶群體更加多樣化。盡管我們在應(yīng)用、系統(tǒng)和數(shù)據(jù)中心的擴(kuò)展方面面臨著一些最大的挑戰(zhàn),但HPC技術(shù)仍然處于計算的前沿。
審核編輯:湯梓紅
-
戴爾
+關(guān)注
關(guān)注
5文章
626瀏覽量
39965 -
云計算
+關(guān)注
關(guān)注
39文章
7764瀏覽量
137321 -
HPC
+關(guān)注
關(guān)注
0文章
313瀏覽量
23738 -
高性能計算
+關(guān)注
關(guān)注
0文章
82瀏覽量
13385
原文標(biāo)題:戴爾:2023 HPC行業(yè)的趨勢和挑戰(zhàn)
文章出處:【微信號:戴爾企業(yè)級解決方案,微信公眾號:戴爾企業(yè)級解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論