本文來自“AI服務(wù)器白皮書(2023年)”,人工智能行業(yè)是對算力、算法和數(shù)據(jù)等數(shù)字資源進(jìn)行創(chuàng)造、加工、整合,最終實現(xiàn)用機(jī)器替代人,為傳統(tǒng)行業(yè)智慧賦能。算力、算法、數(shù)據(jù)是人工智能的三大要素。人工智能產(chǎn)業(yè)鏈包括三層:基礎(chǔ)層、技術(shù)層和應(yīng)用層。
(1)基礎(chǔ)層:人工智能產(chǎn)業(yè)的基礎(chǔ),主要提供 AI 專有算力支持和開發(fā)環(huán)境的設(shè)備和服務(wù),包括 AI 芯片、 系統(tǒng)開發(fā)框架、AI 服務(wù)器等基礎(chǔ)設(shè)施等;
(2)技術(shù)層:在 AI 算力的支持下,通過系統(tǒng)開發(fā)框架進(jìn)行各場景數(shù)據(jù)的訓(xùn)練和 學(xué)習(xí),開發(fā)出計算機(jī)視覺、語音語義、知識圖譜等 AI 算法,并將其搭載于硬件設(shè)備上形成行業(yè)級解決方案;
(3)應(yīng)用層:針對不同的行業(yè)和場景,進(jìn)行人工智能技術(shù)的商業(yè)化落地。
AI 服務(wù)器是人工智能基礎(chǔ)層的核心物理設(shè)備,其面向深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)需要的快速,低精度,浮點(diǎn)運(yùn)算高度并行數(shù)值計算,搭載大量計算內(nèi)核和高帶寬內(nèi)存資源,用于支撐深度學(xué)習(xí)訓(xùn)練和線上推理計算框架模型和應(yīng)用,可以在多個節(jié)點(diǎn)之間高速互聯(lián)、高效地擴(kuò)展的硬件平臺。有別于傳統(tǒng)服務(wù)器以 CPU 提供主要算力,人工智能服務(wù)器多采用異構(gòu)架構(gòu)進(jìn)行加速計算,常采用CPU+GPU、CPU+FPGA、CPU+ASIC 等多種形式。通過搭配不同的異構(gòu)加速芯片,形成不同性能和可編程靈活性的人工智能算力硬件。目前廣泛使用的 AI 服務(wù)器是 CPU+GPU。
通過 AI 服務(wù)器構(gòu)成人工智能基礎(chǔ)層的智能算力集群,聯(lián)合智能模型平臺和數(shù)據(jù)基礎(chǔ)服務(wù)平臺,支撐技術(shù)層和應(yīng)用層的人工智能應(yīng)用場景落地。隨著大模型訓(xùn)練對云端算力的持續(xù)增長需求,AI 服務(wù)器部署規(guī)模越來越大,持續(xù)增長的計算速度和計算效率需求,推動著 AI 服務(wù)器的人工智能行業(yè)技術(shù)迭代。
(一)AI 服務(wù)器總體架構(gòu)
隨著人工智能和大模型應(yīng)用的持續(xù)演進(jìn)和廣泛部署,“CPU+”架構(gòu)已成為人工智能服務(wù)器的設(shè)計藍(lán)本。
在這一架構(gòu)中,CPU繼續(xù)發(fā)揮其作為系統(tǒng)的中央處理單元的關(guān)鍵角色,負(fù)責(zé)任務(wù)的調(diào)度、系統(tǒng)管理和部分計算工作。然而,為了適應(yīng)大模型和特定 AI 應(yīng)用的計算密集性需求,服務(wù)器必須融合其他具有豐富計算核心的硬件加速器,能夠在短時間內(nèi)處理大量的數(shù)據(jù)和計算任務(wù)。
以人工智能計算領(lǐng)域中廣泛使用的 GPU 計算部件為典型代表,詳細(xì)描述了在現(xiàn)代“CPU+”架構(gòu)中,人工智能加速部件與 CPU 的協(xié)同工作流程。在這種架構(gòu)中,待處理的數(shù)據(jù)首先從 CPU 內(nèi)存?zhèn)鬏數(shù)紾PU 的顯存。這一步通常涉及大數(shù)據(jù)量的遷移,因此高帶寬和低延遲的內(nèi)存接口如 PCIe 和 NVLink 成為了優(yōu)化的關(guān)鍵。一旦數(shù)據(jù)被載入顯存,CPU 便開始向 GPU 發(fā)送程序指令。這些指令利用 GPU 的并行性能,驅(qū)動其多達(dá)數(shù)千的計算核心去執(zhí)行。利用 GPU 的強(qiáng)大并行計算能力,顯存中的數(shù)據(jù)會被快速處理。例如,在深度學(xué)習(xí)中,GPU可以并行處理大規(guī)模的矩陣乘法和卷積操作。計算完成后,結(jié)果存儲在顯存中,并在需要時傳輸回 CPU 內(nèi)存。從“CPU+”這種架構(gòu)的應(yīng)用可以明顯看出 CPU 的角色更偏向于指令協(xié)調(diào)和結(jié)果匯總,而實際上的高并行度計算任務(wù)則交給了 GPU 這類加速部件。這種分工策略符合 Amdahl 定律的觀點(diǎn):系統(tǒng)的總體性能提升受制于其最慢部分。
因此,通過優(yōu)化可并行化的計算部分,將 CPU 和專門設(shè)計的硬件加速器如 GPU 結(jié)合,從而實現(xiàn)高效并行處理,滿足日益增長的計算需求。
(二)異構(gòu)計算加速計算芯片
異構(gòu)計算指的是在一個計算系統(tǒng)中使用多種不同類型的處理器或核心來執(zhí)行計算任務(wù)。這種方式旨在利用各種處理器的特定優(yōu)勢,以獲得更高的性能或能效。
傳統(tǒng)服務(wù)器系統(tǒng)內(nèi)處理器以 CPU(即中央處理單元)為主。CPU 有很強(qiáng)的通用性,需要處理各種不同的數(shù)據(jù)類型,通常負(fù)責(zé)執(zhí)行計算機(jī)和操作系統(tǒng)所需的命令和流程,因此其擅長無序超標(biāo)量與復(fù)雜控制指令級的執(zhí)行。
本輪人工智能熱潮的理論基礎(chǔ)是人工神經(jīng)網(wǎng)絡(luò),為了更好地訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò),就需要對計算密集型大規(guī)模矩陣進(jìn)行并行處理。CPU 的架構(gòu)決定了其難以適用于大規(guī)模的人工智能計算。而異構(gòu)計算加速器集成大量計算核心,簡化邏輯控制單元設(shè)計,提升系統(tǒng)的并行計算性能。
當(dāng)前異構(gòu)計算加速器發(fā)展呈現(xiàn)多樣化。人工智能芯片按照技術(shù)架構(gòu)分類,可以劃分為圖像處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)等。
GPU:AI 算力的核心
CPU 作為中央處理核心,其硬件架構(gòu)中為了滿足高性能和低 延 遲 的 需 求 , 特 地 增 強(qiáng) 了 高 速 緩 存 ( Cache ) 和 控 制 單 元(Control)的比例。相較之下,算術(shù)邏輯單元(ALU)在整體構(gòu)造中所占的份額較小,這限制了 CPU 在大規(guī)模并行計算方面的表現(xiàn)。
GPU 的架構(gòu)以計算單元為核心,采用了高度精簡且高效的流水線設(shè)計,專為處理高度并行和線程化的計算任務(wù)而生,具有大規(guī)模并行計算的能力。
傳統(tǒng)的 GDDR 顯存模塊通常焊接在 GPU 的 PCB 板上,這種配置可能會限制數(shù)據(jù)傳輸?shù)乃俾屎涂偞鎯θ萘?。隨著技術(shù)的發(fā)展,這些限制逐漸成為了圖形處理性能的瓶頸。為了解決這個問題,HBM (High Bandwidth Memory) 技 術(shù) 應(yīng) 運(yùn) 而 生 。HBM 使用了 TSV(Through-Silicon Vias) 技術(shù),允許多個 DRAM 芯片垂直堆疊起來,從而實現(xiàn)更高的數(shù)據(jù)帶寬。HBM 與 GPU 核心的連接則是通過一個特殊的互連層實現(xiàn),這不僅進(jìn)一步提高了數(shù)據(jù)傳輸速率,而且大大減少了 PCB 的使用面積。
盡管 HBM 在帶寬、體積和能效上都展現(xiàn)出了明顯的優(yōu)勢,但由于其生產(chǎn)成本相對較高,GDDR 仍然是消費(fèi)級 GPU 市場的主流選擇。而在對性能和能效要求更高的數(shù)據(jù)中心環(huán)境中,HBM則得到了更廣泛的應(yīng)用。
(1) NVIDIA GPU
2022 年春季 GTC 大會上,英偉達(dá)發(fā)布其新款 NVIDIA GraceHopper 超級芯片產(chǎn)品,Hopper H100 Tensor Core GPU。
Tensor Cores 是專門針對矩陣乘法和累加(MMA)數(shù)學(xué)運(yùn)算的高性能計算核心,為 AI 和 HPC 應(yīng)用提供了開創(chuàng)性的性能。當(dāng) TensorCores 在一個 NVIDIA GPU 的多個流多處理器(SM)中并行操作時,與標(biāo)準(zhǔn)的浮點(diǎn)數(shù)(FP)、整數(shù)(INT)和融合乘法-累加(FMA)運(yùn)算相比,它們能夠大幅提高吞吐量和效率。
(2)英特爾 Gaudi2 GPU
Gaudi2 深度學(xué)習(xí)加速器,以第一代 Gaudi 高性能架構(gòu)為基礎(chǔ),以多方位性能與能效比提升,加速高性能大語言模型運(yùn)行。具備:24 個可編程 Tensor 處理器核心(TPCs);21 個 100Gbps(RoCEv2)以太網(wǎng)接口;96GB HBM2E 內(nèi)存容量;2.4TB/秒的總內(nèi)存帶寬;48MB片上 SRAM。
Gaudi2 處理器提供 2.4T 的網(wǎng)絡(luò)帶寬,片上集成 24 x 100 GbpsRoCE V2 RDMA 網(wǎng)卡,可通過標(biāo)準(zhǔn)以太交換或直連路由實現(xiàn) Gaudi 芯片內(nèi)部通信;Gaudi2 的內(nèi)存子系統(tǒng)包括 96 GB 的 HBM2E 內(nèi)存,提供2.45 TB/秒的帶寬,此外還有 48 MB 的本地 SRAM,帶寬足以允許 MME、TPC、DMAs 和 RDMA NICs 并行操作;支持 FP32,TF32,BF16,FP16 和FP8。
通過在 GPT-3 模型上的測試,以及相關(guān) MLPerf 基準(zhǔn)測試結(jié)果,為 Gaudi2 提供了卓越性能和高效可擴(kuò)展性的有力驗證。
(3)海光 DCU
目前海光研發(fā)的 DCU 達(dá) 64 個內(nèi)核,每個內(nèi)核包含 4 個 SIMT 運(yùn)算單元和 1 個標(biāo)量整型運(yùn)算單元,每個 SIMT 包含多個可配置浮點(diǎn)乘加運(yùn)算單元,SIMT 的每個指令周期內(nèi)可以并行處理 64 個獨(dú)立的運(yùn)算線程。這種多內(nèi)核多線程的 SIMT 架構(gòu),可以保證 DCU 每個時鐘周期完成 4096 次高精度浮點(diǎn)乘加運(yùn)算。
海光 DCU 具有生態(tài)友好、精度覆蓋、安全筑底,三大特點(diǎn)。目前海光 DCU 與 Hygon、Intel、AMD 等 CPU 平臺服務(wù)器整體兼容,與國內(nèi)外主流 OS 全面適配。同時,與絕大部分主流框架(包括 TensorFlow、Pytorch、PaddlePaddle等)和算法模型(包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí) CV 與 NLP、大模型等)全面適配,并進(jìn)行了大規(guī)模部署和上百個大型應(yīng)用場景的驗證。
(4)沐曦
MXC500 是沐曦第一代通用 GPU 計算卡產(chǎn)品,基于自研 IP 進(jìn)行芯片設(shè)計,MXC500 采用通用 GPU 技術(shù)路線,通過內(nèi)置大量并行計算單元實現(xiàn)人工智能等領(lǐng)域上層應(yīng)用的并行計算加速。一方面,GPU 架構(gòu)相比 CPU 等串行計算硬件能夠?qū)崿F(xiàn)大幅度的計算加速;另一方面,GPU 架構(gòu)相比包括 NPU、DSA 等的 ASIC 計算芯片具有更好的通用性,能夠適應(yīng)廣泛的應(yīng)用領(lǐng)域和計算場景,并能夠針對 AI 算法的進(jìn)步實現(xiàn)快速的跟進(jìn)創(chuàng)新。
MXC500 采用純自研通用 GPU 架構(gòu),如下圖,核心計算單元由8個DPC(Data Processing Cluster,數(shù)據(jù)處理組)組成,每個 DPC 包含大量 AP(Acceleration Processor,加速處理器),從而實現(xiàn)大規(guī)模并行計算加速。在 GPU 內(nèi)部,Command Engine 負(fù)責(zé)將并行計算任務(wù)以線程(thread)為單位分發(fā)到不同的 AP 中進(jìn)行處理,核心計算單元與內(nèi)部的寄存器、L1 緩存、L2 緩存構(gòu)成高速的數(shù)據(jù)通路,并通過高速數(shù)據(jù)總線與 PCIe 單元、多卡互聯(lián)(采用私有協(xié)議 MetaXLink)、存儲控制器、DMA(直接內(nèi)存讀取,Direct MemoryAccess)等外圍電路模塊進(jìn)行通信。
MXC500 內(nèi)置 4 顆 HBM2e 顆粒,通過 2.5D 封裝技術(shù)與核心計算芯粒封裝到同一顆芯片內(nèi)部。HBM2e 總?cè)萘繛?64GB,帶寬高達(dá)1.55TB/s。MXC500 通過沐曦自研的私有化通信協(xié)議 MetaXLink實現(xiàn)多GPU之間的直接互聯(lián),能夠支持最多單機(jī)8卡全互聯(lián)的拓?fù)洹?/p>
審核編輯:湯梓紅
-
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128890 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85324 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238245
原文標(biāo)題:GPU:AI服務(wù)器關(guān)鍵技術(shù)及核心
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論