來源:SDNLAB
隨著人工智能(AI)的迅速發(fā)展和廣泛應(yīng)用,數(shù)據(jù)中心作為AI技術(shù)的基石,也面臨著前所未有的挑戰(zhàn)和機(jī)遇。為了滿足AI的高性能和低延遲要求,數(shù)據(jù)中心基礎(chǔ)設(shè)施必須進(jìn)行相應(yīng)的改變和升級。
01、基礎(chǔ)設(shè)施的升級需求數(shù)十年來,企業(yè)一直在不斷改變和升級基礎(chǔ)設(shè)施,以適應(yīng)新的應(yīng)用程序和工作負(fù)載。人工智能工作負(fù)載通常需要專門的基礎(chǔ)設(shè)施,隨著人工智能的普及,這一過程依然持續(xù)。
最近發(fā)布的IDC全球半年度人工智能跟蹤報(bào)告進(jìn)一步證實(shí):硬件支出在整個(gè)人工智能領(lǐng)域(包括服務(wù)和軟件)中占比最小,但有望實(shí)現(xiàn)巨大增長。
與傳統(tǒng)應(yīng)用程序和工作負(fù)載相比,人工智能工作負(fù)載對計(jì)算和網(wǎng)絡(luò)資源提出了全新的、獨(dú)特的需求,涉及處理器、核心網(wǎng)絡(luò)元素、功耗等多個(gè)方面的變革。當(dāng)然,企業(yè)也曾通過升級計(jì)算基礎(chǔ)設(shè)施,遷移到更快的處理器、更高性能的存儲(chǔ)和更高速的互連技術(shù)來適應(yīng)類似的變化。然而,當(dāng)前情況與先前的升級有兩個(gè)關(guān)鍵不同:首先,主體范圍更廣。過去為了運(yùn)行更復(fù)雜應(yīng)用程序而升級基礎(chǔ)設(shè)施的公司主要是領(lǐng)先的大型企業(yè)。但大多數(shù)公司未受到直接影響,無需改變其基礎(chǔ)設(shè)施。而在人工智能時(shí)代,各種規(guī)模的公司都積極嘗試?yán)萌斯ぶ悄軄韮?yōu)化運(yùn)營、提升客戶體驗(yàn)、增加收入等。其次,升級的必要性更強(qiáng)烈。當(dāng)下,許多人工智能應(yīng)用程序都是基于對來自不同內(nèi)外部數(shù)據(jù)源的大量數(shù)據(jù)進(jìn)行收集和分析。在大多數(shù)情況下,一旦企業(yè)缺乏適當(dāng)?shù)幕A(chǔ)設(shè)施,就無法有效地將大量數(shù)據(jù)傳輸?shù)狡溆?jì)算設(shè)施中。
多年來,企業(yè)一直通過采用更快的處理器、更高效的存儲(chǔ)和更快速的互連技術(shù)來升級計(jì)算基礎(chǔ)設(shè)施。例如,使用GPU和協(xié)同處理器來加速工作負(fù)載,采用并行分布式文件系統(tǒng)以提高存儲(chǔ)性能,以及利用無限波段網(wǎng)絡(luò)來加速存儲(chǔ)和計(jì)算系統(tǒng)之間的數(shù)據(jù)傳輸?shù)鹊???傮w而言,采用新技術(shù)以滿足日益增長的工作負(fù)載需求的趨勢一直在演變,而隨著人工智能的普及,這一趨勢也在持續(xù)發(fā)展。
02、數(shù)據(jù)中心如何支持人工智能人工智能工作負(fù)載通常是數(shù)據(jù)和計(jì)算密集型的,數(shù)據(jù)中心提供安全、可擴(kuò)展且可靠的基礎(chǔ)設(shè)施,用于存儲(chǔ)、處理和分析人工智能應(yīng)用生成的大量數(shù)據(jù)。數(shù)據(jù)中心通過高性能計(jì)算 (HPC)、托管專用硬件、數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)來支持人工智能。高性能計(jì)算(HPC)AI的計(jì)算需求巨大,這主要是因?yàn)锳I模型的訓(xùn)練和推理工作負(fù)載所需。為了滿足這種需求,數(shù)據(jù)中心采用了高性能計(jì)算(HPC)集群來支撐AI應(yīng)用和任務(wù)。這些HPC集群由一系列通過高速網(wǎng)絡(luò)連接的服務(wù)器組成,使其能夠?qū)崿F(xiàn)并行處理和加速訓(xùn)練過程。在數(shù)據(jù)中心環(huán)境中,HPC系統(tǒng)通常都是按照標(biāo)準(zhǔn)的19英寸寬度設(shè)計(jì)的四柱機(jī)架形式。這種設(shè)計(jì)不僅適合各種服務(wù)器類型(如1U服務(wù)器、刀片服務(wù)器和存儲(chǔ)設(shè)備),還具備了模塊化和可擴(kuò)展的特性,這使得它可以根據(jù)AI任務(wù)的需求進(jìn)行靈活的擴(kuò)展和升級。
考慮到機(jī)架的功率處理能力,它們的功率密度可以在20 kW至60 kW的范圍內(nèi)變化。以一個(gè)42U機(jī)架為例,如果每臺(tái)1U服務(wù)器的功耗是500瓦,那么機(jī)架的總功率會(huì)達(dá)到21 kW。但如果這些服務(wù)器的功耗增加到1,430瓦,那么機(jī)架的總功率將增加到60 kW。相對地,某些低功耗服務(wù)器可能只需100瓦,這意味著42U機(jī)架上所有服務(wù)器的總功率只有4.2 kW。
假設(shè)在一個(gè)擁有400個(gè)機(jī)架的數(shù)據(jù)中心中,部署了“標(biāo)準(zhǔn)”和“高”密度的HPC系統(tǒng)。這意味著整個(gè)數(shù)據(jù)中心的電力需求范圍在8.4兆瓦(MW)到24.0兆瓦(MW)之間。對于那些具有非常高功率需求的場景,我們可以利用專用的高性能計(jì)算(HPC)環(huán)境,這樣的環(huán)境專門針對大規(guī)模的、計(jì)算密集型的人工智能任務(wù)設(shè)計(jì)。HPC系統(tǒng)中使用的專用硬件
HPC系統(tǒng)通過整合高性能處理器(CPU)、高速內(nèi)存和GPU等專用硬件,有效處理大量數(shù)據(jù)并支持AI工作負(fù)載。這些高端處理器具備迅速高效執(zhí)行復(fù)雜計(jì)算和數(shù)據(jù)分析的能力。采用這類處理器可確保HPC系統(tǒng)在處理苛刻工作負(fù)載,如數(shù)據(jù)挖掘、科學(xué)模擬、高級分析和機(jī)器學(xué)習(xí)(ML)任務(wù)時(shí),能夠以快速處理速度和最小延遲的方式運(yùn)行。
深度學(xué)習(xí)(DL)模型和實(shí)時(shí)人工智能需要專門的計(jì)算加速器來實(shí)現(xiàn)深度學(xué)習(xí)算法。最初,這種計(jì)算依賴于廣泛使用的圖形處理單元(GPU)。然而,一些云服務(wù)提供商后來開發(fā)了自己的定制芯片,如谷歌的TPU,一種專用集成電路(ASIC),以及微軟的Project Catapult,它使用現(xiàn)場可編程門陣列(FPGA),以滿足不斷增長的人工智能工作負(fù)載需求。
GPU、ASIC和FPGA等專用硬件能夠加速機(jī)器學(xué)習(xí)算法,已經(jīng)成為現(xiàn)代HPC系統(tǒng)的重要組成部分。這些專用處理器旨在執(zhí)行矩陣計(jì)算,特別適用于需要并行處理大量數(shù)據(jù)的機(jī)器學(xué)習(xí)任務(wù)。通過充分利用這些專用處理器,HPC系統(tǒng)能夠顯著提高對AI工作負(fù)載的處理速度。數(shù)據(jù)存儲(chǔ)AI模型在進(jìn)行訓(xùn)練和推理時(shí)需要大量數(shù)據(jù),而數(shù)據(jù)中心提供了必要的存儲(chǔ)容量,以容納這些數(shù)據(jù)集。此外,人工智能應(yīng)用會(huì)執(zhí)行大量輸入/輸出(I/O)操作,例如從存儲(chǔ)設(shè)備讀取或?qū)懭霐?shù)據(jù),以及通過通信網(wǎng)絡(luò)在設(shè)備之間交換信息。對于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和數(shù)據(jù)處理等人工智能工作負(fù)載而言,高速存儲(chǔ)訪問至關(guān)重要。這些工作負(fù)載需要存儲(chǔ)系統(tǒng)具有快速的數(shù)據(jù)訪問和傳輸速率。這種快速訪問使得人工智能模型能夠?qū)崟r(shí)或接近實(shí)時(shí)地高效讀取、寫入和處理數(shù)據(jù),從而提高訓(xùn)練、推理和數(shù)據(jù)分析等任務(wù)的性能并減少延遲。
數(shù)據(jù)中心通常使用硬盤驅(qū)動(dòng)器(HDD)、固態(tài)驅(qū)動(dòng)器(SSD)和網(wǎng)絡(luò)附加存儲(chǔ)(NAS)等大容量存儲(chǔ)設(shè)備來存儲(chǔ)和管理龐大的人工智能數(shù)據(jù)集。云服務(wù)提供商(CSP)如AWS、Microsoft Azure和Google Cloud提供低延遲和高吞吐量的存儲(chǔ)解決方案。例如,Amazon FSx for Lustre是一種專為計(jì)算密集型工作負(fù)載設(shè)計(jì)的高性能文件系統(tǒng),包括機(jī)器學(xué)習(xí)、高性能計(jì)算(HPC)和大數(shù)據(jù)處理。
網(wǎng)絡(luò)
AI工作負(fù)載涉及大量的矩陣計(jì)算,這些計(jì)算分散在多個(gè)處理器上,如CPU、GPU、DPU等。為了有效地支持這些工作負(fù)載,我們需要一個(gè)高容量、可擴(kuò)展且高可靠性的網(wǎng)絡(luò)。隨著人工智能集群等應(yīng)用的普及,對網(wǎng)絡(luò)帶寬和容量的需求也在不斷增長,這進(jìn)一步挑戰(zhàn)了網(wǎng)絡(luò)的性能和可靠性。
在AI工作負(fù)載中,高性能網(wǎng)絡(luò)的關(guān)鍵特性包括:
# 吞吐量
在運(yùn)行大型AI應(yīng)用時(shí),網(wǎng)絡(luò)的帶寬對數(shù)據(jù)中心的整體性能至關(guān)重要。以GPU集群為例,它們通常需要比傳統(tǒng)計(jì)算網(wǎng)絡(luò)多出約3倍的帶寬。
# Disaggregated AI應(yīng)用
在該場景下,高性能網(wǎng)絡(luò)的重要性進(jìn)一步提升,由于AI應(yīng)用的各個(gè)組件分布在數(shù)據(jù)中心內(nèi)的多個(gè)硬件和軟件資源上,它們需要快速而可靠地進(jìn)行通信。這些組件之間需要無縫的通信,只有通過強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施才能實(shí)現(xiàn),例如NVIDIA Mellanox 400G InfiniBand,其網(wǎng)絡(luò)容量為每秒400吉比特(Gbps)。
# 效率
人工智能基礎(chǔ)設(shè)施的效率與其網(wǎng)絡(luò)性能直接相關(guān)。緩慢的網(wǎng)絡(luò)可能會(huì)在整個(gè)基礎(chǔ)設(shè)施中造成瓶頸,從而降低AI應(yīng)用的運(yùn)行效率。因此,為了確保AI工作負(fù)載的高效運(yùn)行,一個(gè)完備的網(wǎng)絡(luò)結(jié)構(gòu),包括擁塞控制和帶寬管理等功能,是至關(guān)重要的。
03、AI數(shù)據(jù)中心散熱AI應(yīng)用和工作負(fù)載對IT設(shè)備提出了高功率密度的要求,這導(dǎo)致了大量的熱量產(chǎn)生,從而增加了服務(wù)器的冷卻需求。數(shù)據(jù)中心因此面臨更多的冷卻挑戰(zhàn),通常需要進(jìn)行重新設(shè)計(jì)以確保維持適當(dāng)?shù)臏囟取5托У睦鋮s不僅可能縮短設(shè)備的使用壽命和降低計(jì)算性能,還會(huì)增加冷卻系統(tǒng)的負(fù)擔(dān)。
為了應(yīng)對這些冷卻挑戰(zhàn),液體冷卻和浸入式冷卻成為了兩種主要的解決方案。尤其在每個(gè)機(jī)架功率超過30 kW的高密度環(huán)境中,熱點(diǎn)問題變得尤為明顯,這時(shí)可能需要采用特殊的策略(如液冷)。當(dāng)功率密度達(dá)到每機(jī)架60 kW至80 kW時(shí),直接芯片液體冷卻變得更加常見。
液冷液體冷卻是一種涉及通過與 CPU 或 GPU 等電子組件直接接觸的冷板循環(huán)冷卻劑(例如水或 3M Novec 或 Fluorinert 等專用液體)的方法。在這個(gè)過程中,熱量被液體冷卻劑吸收,然后通過熱交換器或散熱器傳輸?shù)娇諝庵小@鋮s后的液體重新循環(huán)使用。
液體冷卻在管理高密度人工智能工作負(fù)載方面特別有效,因?yàn)橄啾葌鹘y(tǒng)的空氣冷卻系統(tǒng),它更有效地散熱。值得注意的是,每單位體積液體的散熱效率比空氣高數(shù)千倍,因此內(nèi)部硬件電子設(shè)備中往往采用循環(huán)液冷,液體循環(huán)可以有效地處理小空間中產(chǎn)生的大量熱量,并將其傳遞到硬件外部的介質(zhì),比如空氣。
總體而言,液冷系統(tǒng)在高功率密度環(huán)境中表現(xiàn)理想。然而,需要注意的是,液體冷卻通常僅用于冷卻CPU或GPU,而在房間中會(huì)產(chǎn)生一些余熱,可能需要額外的空調(diào)來冷卻其他組件。
浸沒式冷卻浸入式冷卻是一種將電子元件浸入非導(dǎo)電液體冷卻劑(如3M Novec或Fluorinert)中的方法。在這個(gè)過程中,冷卻劑吸收部件產(chǎn)生的熱量,通過循環(huán)送至熱交換器進(jìn)行冷卻,然后再循環(huán)。浸入式冷卻因其在運(yùn)行HPC環(huán)境的數(shù)據(jù)中心中提供更高功率密度和更低電源使用效率(PUE)而備受關(guān)注。浸入式冷卻不僅可以冷卻CPU,還能夠冷卻印刷電路板(PCB)或主板上的其他組件。
案例研究 – Meta Platforms 的AI數(shù)據(jù)中心Meta Platforms,原名Facebook,是一家主要提供社交媒體和社交網(wǎng)絡(luò)服務(wù)的科技巨頭。為了滿足其業(yè)務(wù)需求,Meta 在全球范圍內(nèi)擁有和運(yùn)營了21個(gè)數(shù)據(jù)中心園區(qū),總面積超過5000萬平方英尺,并且還從其他第三方提供商那里租用了多個(gè)數(shù)據(jù)中心。截至2023年,該公司計(jì)劃將超過300億美元的資本支出中的大部分用于增強(qiáng)其人工智能(AI)能力,主要通過對GPU、服務(wù)器和數(shù)據(jù)中心的投資來實(shí)現(xiàn)。Meta 正在興建專門支持下一代人工智能硬件的新數(shù)據(jù)中心。該公司的人工智能投資和產(chǎn)能將為各種產(chǎn)品和服務(wù)提供支持,包括廣告、Feed、Reels和Metaverse。到目前為止,Meta 通過使用大規(guī)模GPU集群已經(jīng)取得了一些成果,通過GPU協(xié)同工作可以更高效、更有效地處理復(fù)雜的人工智能工作負(fù)載。
基于Grand Teton GPU的硬件平臺(tái)相比其前身Zion有多項(xiàng)性能提升,包括4倍的主機(jī)到GPU帶寬、2倍的計(jì)算和數(shù)據(jù)網(wǎng)絡(luò)帶寬以及2倍的功率包絡(luò)。Grand Teton的設(shè)計(jì)具有更高的計(jì)算能力,能更有效地支持內(nèi)存帶寬限制的工作負(fù)載,例如Meta的深度學(xué)習(xí)推薦模型(DLRM)。
總體而言,Meta的戰(zhàn)略目標(biāo)是在其所有的數(shù)據(jù)中心中實(shí)現(xiàn)標(biāo)準(zhǔn)化設(shè)計(jì),以適應(yīng)高功率密度的AI工作負(fù)載,其功率范圍從每機(jī)架25 kW到每機(jī)架40 kW不等。為此,Meta目前正與能夠構(gòu)建經(jīng)濟(jì)高效、高功率密度AI基礎(chǔ)設(shè)施的數(shù)據(jù)中心運(yùn)營商進(jìn)行合作。
Meta Platforms的液體冷卻
為了支持其高功率密度的人工智能工作負(fù)載,Meta采用了液冷技術(shù)來確保服務(wù)器始終處于最佳的運(yùn)行溫度。具體來說,Meta使用空氣輔助液體冷卻(AALC)技術(shù),結(jié)合閉環(huán)系統(tǒng)和后門熱交換器,從而無需借助高架地板或外部管道就能實(shí)現(xiàn)服務(wù)器的冷卻。這一技術(shù)的采納是Meta向更為健壯的數(shù)據(jù)中心設(shè)計(jì)轉(zhuǎn)型的一個(gè)關(guān)鍵步驟,進(jìn)而推動(dòng)了液體冷卻技術(shù)的廣泛應(yīng)用。
05、AI時(shí)代的數(shù)據(jù)中心設(shè)計(jì)思考AI應(yīng)用和工作負(fù)載使用高功率密度的機(jī)架,這些機(jī)架可以部署在各種設(shè)施類型中,包括大型的超大規(guī)模/云數(shù)據(jù)中心到小型的邊緣數(shù)據(jù)中心。在超大規(guī)模/云數(shù)據(jù)中心方面,像AWS、Microsoft Azure和Google Cloud等云服務(wù)提供商提供了專門用于構(gòu)建和部署AI模型的服務(wù)。由于這些設(shè)施規(guī)模宏大,它們特別適用于處理機(jī)器學(xué)習(xí)和深度學(xué)習(xí)訓(xùn)練、大數(shù)據(jù)分析、自然語言處理(NLP)和計(jì)算機(jī)視覺等人工智能應(yīng)用程序和工作負(fù)載。至于邊緣數(shù)據(jù)中心,這些設(shè)施相對較小而分散,位于更靠近數(shù)據(jù)生成和使用的地方,提供計(jì)算和存儲(chǔ)服務(wù)。邊緣數(shù)據(jù)中心的設(shè)計(jì)旨在滿足對低延遲的快速響應(yīng)時(shí)間要求的人工智能應(yīng)用,例如實(shí)時(shí)視頻分析、增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)、自動(dòng)駕駛汽車以及無人機(jī)等。值得注意的是,由于不同的人工智能應(yīng)用和系統(tǒng)對數(shù)據(jù)中心的要求各異,不是所有的數(shù)據(jù)中心都可以針對單一用例進(jìn)行優(yōu)化。例如,深度學(xué)習(xí)和人工智能系統(tǒng)需要較高數(shù)量的CPU或GPU處理器核心來縮短訓(xùn)練時(shí)間,而用于人工智能推理的引擎則可以利用較少的處理器核心來完成其任務(wù)。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4761瀏覽量
72033 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268880 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238235
發(fā)布評論請先 登錄
相關(guān)推薦
評論