AI 服務(wù)器發(fā)展迅速,GPU 環(huán)節(jié)被英偉達(dá)與 AMD 所占據(jù)。AIGC 的發(fā)展帶動(dòng)AI 服務(wù)器迅速增長(zhǎng),TrendForce 集邦咨詢(xún)預(yù)計(jì) 23 年 AI 服務(wù)器出貨量約 120 萬(wàn)臺(tái),同比+38.4%,占整體服務(wù)器出貨量的比約為9%,2022~2026 年 AI 服務(wù)器出貨量 CAGR 將達(dá) 22%,而 AI 芯片 2023 年出貨量將成長(zhǎng) 46%。GPU 作為數(shù)據(jù)并行處理的核心,是 AI 服務(wù)器的核心增量。
本文來(lái)自“行業(yè)專(zhuān)題:GPU龍頭產(chǎn)品迭代不斷,產(chǎn)業(yè)鏈各環(huán)節(jié)持續(xù)催化”,全球GPU呈現(xiàn)“一超一強(qiáng)”的競(jìng)爭(zhēng)格局,根據(jù) IDC 數(shù)據(jù),2021 英偉達(dá)在企業(yè)級(jí) GPU 市場(chǎng)中占比 91.4%,AMD 占比 8.5%。
目前英偉達(dá)產(chǎn)品 DGX GH200 已發(fā)布,互連技術(shù)強(qiáng)大,算力進(jìn)一步升級(jí)。5月 29 日,英偉達(dá)在其發(fā)布會(huì)上,正式發(fā)布最新的 GH200 Grace Hopper 超級(jí)芯片,以及擁有 256 個(gè) GH200 超級(jí)芯片的 NVIDIA DGX GH200 超級(jí)計(jì)算機(jī)。
GH200超級(jí)芯片內(nèi)部集成了 Grace CPU 和 H100 GPU,晶體管數(shù)量達(dá) 2000 億個(gè)。其借助 NVIDIA NVLink-C2C 芯片互連,將英偉達(dá) Grace CPU 與英偉達(dá) H100 TensorCore GPU 整合。與 PCIe Gen5 技術(shù)相比,其 GPU 和 CPU 之間的帶寬將提高 7倍,并將互連功耗減少至 1/5 以下。同時(shí),DGX GH200 的 AI 性能算力將達(dá)到1exaFLOPS。
英偉達(dá)產(chǎn)品 DGX GH200 共享內(nèi)存大幅提升,突破內(nèi)存瓶頸。DGX GH200系統(tǒng)將 256 個(gè) GH200 超級(jí)芯片與 144TB 的共享內(nèi)存進(jìn)行連接,進(jìn)一步提高系統(tǒng)協(xié)同性。與 DGX H100 相比,DGX GH200 的共享內(nèi)存提升約 230 倍。憑借強(qiáng)大的共享內(nèi)存,GH200 能夠顯著改善受 GPU 內(nèi)存大小瓶頸影響的 AI 和 HPC 應(yīng)用程序的性能。而在具有 tb 級(jí)嵌入式表的深度學(xué)習(xí)推薦模型(DLRM)、tb 級(jí)圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型或大型數(shù)據(jù)分析工作負(fù)載中,使用 DGX GH200 可將速度提高4到7倍。
而 AMD 在美國(guó)時(shí)間 2023 年 6 月 13 日,推出其新款 AI 芯片 MI300 系列,兩款芯片分別為 MI300A 與 MI300X,分別集成 1460、1530 億個(gè)晶體管。MI300A內(nèi)含 13 個(gè)小芯片,總共集成 1460 億個(gè)晶體管,其內(nèi)部包含 24 個(gè) Zen 4 CPU 核心、1 個(gè) CDNA 3 圖形引擎和 128GB HBM3 內(nèi)存;而 MI300X 是針對(duì)大預(yù)言模型的優(yōu)化版本,其內(nèi)存達(dá) 192GB,內(nèi)存帶寬為 5.2TB/s,Infinity Fabric 帶寬為896GB/s,晶體管達(dá) 1530 億個(gè)。AMD 表示,與上代 MI 250 相比,MI300 的 AI性能和每瓦性能分別為 MI250 的 8 倍和 5 倍。
應(yīng)用先進(jìn)封裝 Chiplet 技術(shù)與 HBM3,工藝技術(shù)驅(qū)動(dòng)產(chǎn)品升級(jí)。在以往 CPU、GPU 設(shè)計(jì)中,AMD 常利用其先進(jìn)的封裝堆疊技術(shù),集成多個(gè)小核心,從而實(shí)現(xiàn)整體性能的提升。根據(jù)芯智訊,MI300 由 13 個(gè)小芯片整合而成,其中其計(jì)算部分由 9 個(gè)基于臺(tái)積電 5nm 工藝制程的小芯片組成,這些小芯片包括了 CPU 和 GPU內(nèi)核。3D 堆疊設(shè)計(jì)極大提升了 MI 300 的性能與數(shù)據(jù)吞吐量。同時(shí),MI300 兩側(cè)排列著 8 個(gè)合計(jì) 128GB 的 HBM3 芯片,滿(mǎn)足其海量且高速的數(shù)據(jù)存儲(chǔ)需求。
AI 大模型等 AIGC 產(chǎn)業(yè)的升級(jí)離不開(kāi)算力的底層支持,使得 GPU 等大算力芯片性能持續(xù)提升,帶來(lái)產(chǎn)業(yè)鏈各環(huán)節(jié)增量。以英偉達(dá) DGX H100 為例,其在GPU、互連技術(shù)、智能網(wǎng)卡、內(nèi)存條、硬盤(pán)等結(jié)構(gòu)上均較普通服務(wù)器有較大提升,同時(shí)其 PCB 的面積需求量與性能要求亦高于普通服務(wù)器。
(1)GPU:量?jī)r(jià)齊升,產(chǎn)業(yè)鏈最大增量。一般的普通服務(wù)器僅會(huì)配備單卡或雙卡,而 AI 服務(wù)器由于需要承擔(dān)大量的計(jì)算,一般配置四塊或以上的 GPU。且AI大模型在訓(xùn)練與推理時(shí)的計(jì)算量巨大,中低端的GPU無(wú)法滿(mǎn)足其運(yùn)算需求。如在英偉達(dá) DGX H100 中,其配備 8 個(gè) NVIDIA H100 GPU,總 GPU 顯存高達(dá)640GB;每個(gè)GPU配備18個(gè)NVIDIA NVLink,GPU之間的雙向帶寬高達(dá)900GB/s。若以每個(gè) NVIDIA H100 GPU 單價(jià) 4 萬(wàn)美元測(cè)算,DGX H100 的 GPU 價(jià)值量為32 萬(wàn)美元,為 AI 服務(wù)器中的最大增量。
(2)硬盤(pán):AI 服務(wù)器 NAND 數(shù)據(jù)存儲(chǔ)需求提升 3 倍。AI 服務(wù)器的高吞吐量及訓(xùn)練模型的高參數(shù)量級(jí)亦推升 NAND 數(shù)據(jù)存儲(chǔ)需求。美光估計(jì),AI 服務(wù)器中NAND 需求量是傳統(tǒng)服務(wù)器的 3 倍。一臺(tái) DGX H100 中,SSD 的存儲(chǔ)容量達(dá) 30TB。
(3)內(nèi)存:AI 服務(wù)器 DRAM 數(shù)據(jù)存儲(chǔ)需求提升 8 倍,HBM 需求快速提升。以 HBM 為主要代表的存算一體芯片能夠通過(guò) 2.5D/3D 堆疊,將多個(gè)存儲(chǔ)芯片與處理器芯片封裝在一起,克服單一封裝內(nèi)帶寬的限制、增加帶寬、擴(kuò)展內(nèi)存容量、并減少數(shù)據(jù)存儲(chǔ)的延遲。根據(jù)公眾號(hào)全球 SSD,三星 2021 年 2 月與 AMD 合作開(kāi)發(fā) HBM-PIM,將內(nèi)存和 AI 處理器合而為一,在 CPU 和 GPU 安裝 HBM-PIM,顯著提高服務(wù)器運(yùn)算速度。2023 年開(kāi)年后,三星高帶寬存儲(chǔ)器(HBM)訂單快速增加。SK 海力士亦在 2021 年 10 月成功開(kāi)發(fā)出 HBM3,并于 2022 年 6 月開(kāi)始量產(chǎn),在 2022 年第三季度向英偉達(dá)進(jìn)行供貨。同時(shí),美光估計(jì),AI 服務(wù)器中 DRAM需求量是傳統(tǒng)服務(wù)器的 8 倍。如在一臺(tái) DGX H100 中,內(nèi)存容量達(dá) 2TB。
(4)PCB:AI 服務(wù)器 PCB 明確受益 AI 算力提升。目前普通服務(wù)器需要 6-16層板和封裝基板,而 AI 服務(wù)器等高端服務(wù)器主板層數(shù)則達(dá) 16 層以上,背板層數(shù)超過(guò) 20 層。且除 GPU 外,服務(wù)器中主板、電源背板、硬盤(pán)背板、網(wǎng)卡、Riser卡等核心部分均需使用 PCB 板進(jìn)行數(shù)據(jù)傳輸。服務(wù)器出貨量的增加將推動(dòng) PCB需求量的提升。
(5)先進(jìn)封裝:高制程芯片設(shè)計(jì)成本與制造成本均呈現(xiàn)指數(shù)型的增長(zhǎng)趨勢(shì),Chiplet 等先進(jìn)封裝應(yīng)運(yùn)而生。隨著制程的提升,芯片成本的提升呈現(xiàn)指數(shù)型增長(zhǎng)。以芯片設(shè)計(jì)為例,根據(jù) UCIE 白皮書(shū),28nm 制程的芯片設(shè)計(jì)成本約 0.51 億美元,但當(dāng)制程提升至 5nm 時(shí),芯片設(shè)計(jì)成本則快速升至 5.42 億美元,成本提升近十倍,先進(jìn)制程的推進(jìn)速度愈加緩慢。因此在 HPC 高性能計(jì)算領(lǐng)域,Chiplet 的重要性持續(xù)提升。
目前,以 CoWoS 為代表的高性能計(jì)算先進(jìn)封裝產(chǎn)能緊缺,制約 GPU 產(chǎn)品出貨。英偉達(dá) A100、H100 GPU 均采用臺(tái)積電 CoWoS 先進(jìn)封裝工藝。而根據(jù)科創(chuàng)板日?qǐng)?bào)與臺(tái)灣電子時(shí)報(bào),英偉達(dá)將原定今年 Q4 的先進(jìn)封裝 CoWoS 產(chǎn)能,改為 Q2-Q4 平均分配生產(chǎn),訂單生產(chǎn)時(shí)間較原計(jì)劃大大提前。目前,臺(tái)積電 CoWoS封測(cè)產(chǎn)能供不應(yīng)求,部分訂單已外溢日月光、矽品與 Amkor、聯(lián)電等。以 CoWoS 為代表的先進(jìn)封裝技術(shù)產(chǎn)能緊缺,已成為制約 GPU 生產(chǎn)的關(guān)鍵環(huán)節(jié)。
-
amd
+關(guān)注
關(guān)注
25文章
5466瀏覽量
134087 -
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128890 -
AI芯片
+關(guān)注
關(guān)注
17文章
1879瀏覽量
34990
原文標(biāo)題:全球GPU呈現(xiàn)“一超一強(qiáng)”競(jìng)爭(zhēng)格局
文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論