來源:SDNLAB
2023年,以ChatGPT為代表的AIGC技術正在蓬勃發(fā)展,并在文本生成、代碼開發(fā)等各個領域取得了重大進展,重塑了行業(yè)格局。德勤報告預測,到2027年,在AIGC推動下的人工智能基礎設施服務市場將增至130-160億美元。
AIGC 利用自然語言處理 (NLP) 和機器學習 (ML) 技術來完成跨文本、圖像、音頻和視頻的內(nèi)容生成,這一成就得益于強大的計算能力、存儲和高速通信的支持。
01賦能算力的關鍵在于網(wǎng)絡
AI的顯著進步離不開數(shù)據(jù)、算法和計算能力這三大支柱。尤其是對于大規(guī)模、復雜的AIGC模型,強大的算力基礎設施至關重要。以ChatGPT為例,它在訓練過程中使用了10000個V100 GPU,形成一個高帶寬集群,單次訓練消耗約3640 PF-day的算力。
然而,影響GPU利用率的最重要因素是網(wǎng)絡,特別是在由數(shù)萬個GPU組成的計算集群中,需要大量的帶寬來實現(xiàn)高效的數(shù)據(jù)交換。缺乏強大的網(wǎng)絡支持可能會導致 GPU 利用率降低、訓練時間延長、成本增加以及用戶體驗下降。因此,網(wǎng)絡尤為重要。
從本質上講,如果沒有高效的組網(wǎng),大模型的應用將會受到嚴重制約。
為了支持AIGC的運行,高性能的網(wǎng)絡基礎設施必不可少。為了滿足AI集群計算的需求,業(yè)界提出了三種主要的網(wǎng)絡解決方案:InfiniBand、RDMA和Fabric switch。
其中,RDMA是一種新的通信機制,可以顯著提高數(shù)據(jù)吞吐量,同時減少延遲。它主要基于 RoCE v2 協(xié)議,通過以太網(wǎng)實現(xiàn)。
Fabric switch解決方案適用于小規(guī)模AI計算集群部署,它采用特定的芯片和技術來滿足高性能網(wǎng)絡的需求,但它面臨著可擴展性有限、設備功耗高、故障域大等挑戰(zhàn)。
InfiniBand網(wǎng)絡具有極高的帶寬、無擁塞、低延遲等特點,雖然成本較高,但被ChatGPT、GPT-4等模型所采用。憑借 InfiniBand 和 GPU,NVIDIA 已在 AI 基礎設施領域建立了主導地位,占據(jù)了約 80% 的市場份額。以配備 NVIDIA DGX H100 系統(tǒng)的 NVIDIA DGX SuperPOD 為例,它由 31 到 127 個 DGX H100 系統(tǒng)組成,總共 1016 個 NVIDIA Hopper GPU。這種配置提供了出色的AI計算性能。
02AIGC 網(wǎng)絡和計算能力驅動下核心產(chǎn)品的趨勢
服務器:AI算力的核心
AIGC的快速發(fā)展推動了對高性能AI服務器的需求。全球AI服務器市場正在經(jīng)歷大幅增長,IDC數(shù)據(jù)預計到2025年市場規(guī)模將達到317.9億美元,年復合增長率為19%。
AI服務器與傳統(tǒng)服務器的不同之處在于其硬件配置,高性能GPU或TPU加速器使得這些服務器能夠在短時間內(nèi)處理大規(guī)模數(shù)據(jù)集,加速深度學習和機器學習。這也導致對更大內(nèi)存、更快存儲和更多核心處理器的需求不斷增加。此外,PCIe設備的需求也隨之上升,以支持更多的加速器卡和高速網(wǎng)絡接口。
不斷升級的高性能需求:AI工作負載通常需要大量的計算能力,從而推動了對高性能服務器的需求,包括配備高性能 GPU、TPU 和快速存儲的服務器。
特定硬件要求:AI服務器需要特定的硬件配置,例如GPU加速器、PCIe插槽和高速網(wǎng)絡接口,以滿足AI算法的運行需求。
創(chuàng)新的服務器設計:為了滿足大規(guī)模AI模型的需求,諸如 NVIDIA DGX GH200 之類的新型服務器設計應運而生,可提供更高的吞吐量和可擴展性。
交換機:400G/800G需求迫切
交換機作為數(shù)據(jù)中心計算網(wǎng)絡的中樞,正在逐漸演進以滿足不斷增長的高速數(shù)據(jù)傳輸需求。在為人工智能和數(shù)據(jù)中心的快速增長提供必要的支持和解決方案方面,交換機發(fā)揮著關鍵作用。
高速網(wǎng)絡需求:AI工作負載產(chǎn)生了大量的數(shù)據(jù)傳輸需求,這也推動了對網(wǎng)絡交換機從10G/40G過渡到400G/800G的需求。
減少帶寬損失:AI服務器和數(shù)據(jù)中心需要更高性能的交換機來減少數(shù)據(jù)傳輸過程中的帶寬損耗,以及更快的數(shù)據(jù)傳輸速度,以確保實時處理和響應。因此對交換機性能的要求更加苛刻,這也催生了更復雜的交換機設計和PCB要求。
數(shù)據(jù)中心擴展:隨著AI的快速發(fā)展,數(shù)據(jù)中心的規(guī)模和復雜性也在不斷增加。數(shù)據(jù)中心的擴展需要更多的交換機,以滿足連接和通信的需求。根據(jù)Dell'Oro的報告,到2027年,速度為400Gbps及以上的交換機將占據(jù)近70%的市場份額。
光模塊:強勁增長和新興技術趨勢
隨著人工智能和數(shù)據(jù)中心的快速擴張,光模塊市場正在經(jīng)歷強勁的增長。這些光模塊是數(shù)據(jù)傳輸中不可或缺的組件,通常與交換機或網(wǎng)卡協(xié)同工作,實現(xiàn)高速數(shù)據(jù)傳輸。由于AI工作負載的不斷增加,數(shù)據(jù)中心需要更快、更可靠的連接,這推動了對高性能光模塊的需求。
此外,隨著網(wǎng)絡速度不斷提高,傳統(tǒng)的可插拔光模塊可能會受到物理極限的制約,這促使了新型光模塊解決方案(如共封裝光學器件 (CPO) )的涌現(xiàn),以滿足高速數(shù)據(jù)傳輸中對更高帶寬和更小型設備的需求。
AIGC 推動的其他產(chǎn)品趨勢
除了前面提到的服務器、交換機和光模塊之外,整個網(wǎng)絡基礎設施需要更廣泛的產(chǎn)品,它們的增長也受到AI驅動解決方案擴展的影響,包括:
電源管理:電源開關、電源濾波器和穩(wěn)壓器等組件,確保整個網(wǎng)絡穩(wěn)定可靠的配電。
控制和管理:服務器內(nèi)的管理芯片、時鐘芯片和BIOS芯片等組件,對于監(jiān)督和協(xié)調(diào)網(wǎng)絡操作至關重要。
熱管理:在AI驅動的系統(tǒng)中,特別是在數(shù)據(jù)中心環(huán)境中,CPU散熱器和風扇等產(chǎn)品對于有效可靠的熱管理至關重要。
03AIGC 的持續(xù)連鎖反應
AIGC的到來引發(fā)了一場技術革命,對硬件、軟件和服務領域都帶來了巨大的影響。
從硬件角度來看,AIGC的崛起對高性能服務器、網(wǎng)絡交換機和光模塊的需求產(chǎn)生了持續(xù)的增長。特別是在高性能計算和數(shù)據(jù)中心領域,對更強大的硬件資源的渴望推動了創(chuàng)新的硬件設計趨勢。服務器需要更大內(nèi)存、更多GPU加速器和更快的存儲來滿足日益復雜的AI工作負載。此外,網(wǎng)絡交換機需要更高的吞吐量和更快的數(shù)據(jù)傳輸速度,以支持大規(guī)模的數(shù)據(jù)處理需求。光模塊的需求也隨之上升,以實現(xiàn)更高速度和更密集的數(shù)據(jù)傳輸。
從軟件和服務來說,僅限于傳統(tǒng)的機器學習和深度學習,AIGC技術正在滲透到各個領域,如文本生成、代碼開發(fā)、詩歌創(chuàng)作等。這為軟件開發(fā)和云計算服務提供了新的機遇,推動了創(chuàng)新和多樣化。
AIGC的蝴蝶效應正在持續(xù)蔓延,并有望繼續(xù)下去,這使我們需要在技術變革和市場變化中保持靈活應對和創(chuàng)新思維。了解和適應AIGC技術的快速演進將成為各行各業(yè)的關鍵,而這也將為未來的技術發(fā)展和應用帶來更多的可能性和機遇。
審核編輯:湯梓紅
-
網(wǎng)絡
+關注
關注
14文章
7553瀏覽量
88729 -
AI
+關注
關注
87文章
30728瀏覽量
268882 -
機器學習
+關注
關注
66文章
8406瀏覽量
132558 -
ChatGPT
+關注
關注
29文章
1558瀏覽量
7592 -
AIGC
+關注
關注
1文章
361瀏覽量
1539
原文標題:AIGC蝴蝶效應下的網(wǎng)絡和硬件趨勢
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論