RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI服務(wù)器總體架構(gòu)和關(guān)鍵技術(shù)

智能計算芯世界 ? 來源:智能計算芯世界 ? 2024-01-11 11:28 ? 次閱讀

本文來自“AI服務(wù)器白皮書(2023年)”,人工智能行業(yè)是對算力、算法和數(shù)據(jù)等數(shù)字資源進(jìn)行創(chuàng)造、加工、整合,最終實現(xiàn)用機(jī)器替代人,為傳統(tǒng)行業(yè)智慧賦能。算力、算法、數(shù)據(jù)是人工智能的三大要素。人工智能產(chǎn)業(yè)鏈包括三層:基礎(chǔ)層、技術(shù)層和應(yīng)用層。

(1)基礎(chǔ)層:人工智能產(chǎn)業(yè)的基礎(chǔ),主要提供 AI 專有算力支持和開發(fā)環(huán)境的設(shè)備和服務(wù),包括 AI 芯片、 系統(tǒng)開發(fā)框架、AI 服務(wù)器等基礎(chǔ)設(shè)施等;

(2)技術(shù)層:在 AI 算力的支持下,通過系統(tǒng)開發(fā)框架進(jìn)行各場景數(shù)據(jù)的訓(xùn)練和 學(xué)習(xí),開發(fā)出計算機(jī)視覺、語音語義、知識圖譜等 AI 算法,并將其搭載于硬件設(shè)備上形成行業(yè)級解決方案;

(3)應(yīng)用層:針對不同的行業(yè)和場景,進(jìn)行人工智能技術(shù)的商業(yè)化落地。

AI 服務(wù)器是人工智能基礎(chǔ)層的核心物理設(shè)備,其面向深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)需要的快速,低精度,浮點(diǎn)運(yùn)算高度并行數(shù)值計算,搭載大量計算內(nèi)核和高帶寬內(nèi)存資源,用于支撐深度學(xué)習(xí)訓(xùn)練和線上推理計算框架模型和應(yīng)用,可以在多個節(jié)點(diǎn)之間高速互聯(lián)、高效地擴(kuò)展的硬件平臺。有別于傳統(tǒng)服務(wù)器以 CPU 提供主要算力,人工智能服務(wù)器多采用異構(gòu)架構(gòu)進(jìn)行加速計算,常采用CPU+GPU、CPU+FPGA、CPU+ASIC 等多種形式。通過搭配不同的異構(gòu)加速芯片,形成不同性能和可編程靈活性的人工智能算力硬件。目前廣泛使用的 AI 服務(wù)器是 CPU+GPU。

通過 AI 服務(wù)器構(gòu)成人工智能基礎(chǔ)層的智能算力集群,聯(lián)合智能模型平臺和數(shù)據(jù)基礎(chǔ)服務(wù)平臺,支撐技術(shù)層和應(yīng)用層的人工智能應(yīng)用場景落地。隨著大模型訓(xùn)練對云端算力的持續(xù)增長需求,AI 服務(wù)器部署規(guī)模越來越大,持續(xù)增長的計算速度和計算效率需求,推動著 AI 服務(wù)器的人工智能行業(yè)技術(shù)迭代。

(一)AI 服務(wù)器總體架構(gòu)

隨著人工智能和大模型應(yīng)用的持續(xù)演進(jìn)和廣泛部署,“CPU+”架構(gòu)已成為人工智能服務(wù)器的設(shè)計藍(lán)本。

在這一架構(gòu)中,CPU繼續(xù)發(fā)揮其作為系統(tǒng)的中央處理單元的關(guān)鍵角色,負(fù)責(zé)任務(wù)的調(diào)度、系統(tǒng)管理和部分計算工作。然而,為了適應(yīng)大模型和特定 AI 應(yīng)用的計算密集性需求,服務(wù)器必須融合其他具有豐富計算核心的硬件加速器,能夠在短時間內(nèi)處理大量的數(shù)據(jù)和計算任務(wù)。

6ded33a4-b013-11ee-8b88-92fbcf53809c.png

以人工智能計算領(lǐng)域中廣泛使用的 GPU 計算部件為典型代表,詳細(xì)描述了在現(xiàn)代“CPU+”架構(gòu)中,人工智能加速部件與 CPU 的協(xié)同工作流程。在這種架構(gòu)中,待處理的數(shù)據(jù)首先從 CPU 內(nèi)存?zhèn)鬏數(shù)紾PU 的顯存。這一步通常涉及大數(shù)據(jù)量的遷移,因此高帶寬和低延遲的內(nèi)存接口如 PCIe 和 NVLink 成為了優(yōu)化的關(guān)鍵。一旦數(shù)據(jù)被載入顯存,CPU 便開始向 GPU 發(fā)送程序指令。這些指令利用 GPU 的并行性能,驅(qū)動其多達(dá)數(shù)千的計算核心去執(zhí)行。利用 GPU 的強(qiáng)大并行計算能力,顯存中的數(shù)據(jù)會被快速處理。例如,在深度學(xué)習(xí)中,GPU可以并行處理大規(guī)模的矩陣乘法和卷積操作。計算完成后,結(jié)果存儲在顯存中,并在需要時傳輸回 CPU 內(nèi)存。從“CPU+”這種架構(gòu)的應(yīng)用可以明顯看出 CPU 的角色更偏向于指令協(xié)調(diào)和結(jié)果匯總,而實際上的高并行度計算任務(wù)則交給了 GPU 這類加速部件。這種分工策略符合 Amdahl 定律的觀點(diǎn):系統(tǒng)的總體性能提升受制于其最慢部分。

因此,通過優(yōu)化可并行化的計算部分,將 CPU 和專門設(shè)計的硬件加速器如 GPU 結(jié)合,從而實現(xiàn)高效并行處理,滿足日益增長的計算需求。

(二)異構(gòu)計算加速計算芯片

異構(gòu)計算指的是在一個計算系統(tǒng)中使用多種不同類型的處理器或核心來執(zhí)行計算任務(wù)。這種方式旨在利用各種處理器的特定優(yōu)勢,以獲得更高的性能或能效。

傳統(tǒng)服務(wù)器系統(tǒng)內(nèi)處理器以 CPU(即中央處理單元)為主。CPU 有很強(qiáng)的通用性,需要處理各種不同的數(shù)據(jù)類型,通常負(fù)責(zé)執(zhí)行計算機(jī)和操作系統(tǒng)所需的命令和流程,因此其擅長無序超標(biāo)量與復(fù)雜控制指令級的執(zhí)行。

本輪人工智能熱潮的理論基礎(chǔ)是人工神經(jīng)網(wǎng)絡(luò),為了更好地訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò),就需要對計算密集型大規(guī)模矩陣進(jìn)行并行處理。CPU 的架構(gòu)決定了其難以適用于大規(guī)模的人工智能計算。而異構(gòu)計算加速器集成大量計算核心,簡化邏輯控制單元設(shè)計,提升系統(tǒng)的并行計算性能。

當(dāng)前異構(gòu)計算加速器發(fā)展呈現(xiàn)多樣化。人工智能芯片按照技術(shù)架構(gòu)分類,可以劃分為圖像處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)等。

GPU:AI 算力的核心

6df954cc-b013-11ee-8b88-92fbcf53809c.png

CPU 作為中央處理核心,其硬件架構(gòu)中為了滿足高性能和低 延 遲 的 需 求 , 特 地 增 強(qiáng) 了 高 速 緩 存 ( Cache ) 和 控 制 單 元(Control)的比例。相較之下,算術(shù)邏輯單元(ALU)在整體構(gòu)造中所占的份額較小,這限制了 CPU 在大規(guī)模并行計算方面的表現(xiàn)。

GPU 的架構(gòu)以計算單元為核心,采用了高度精簡且高效的流水線設(shè)計,專為處理高度并行和線程化的計算任務(wù)而生,具有大規(guī)模并行計算的能力。

傳統(tǒng)的 GDDR 顯存模塊通常焊接在 GPU 的 PCB 板上,這種配置可能會限制數(shù)據(jù)傳輸?shù)乃俾屎涂偞鎯θ萘?。隨著技術(shù)的發(fā)展,這些限制逐漸成為了圖形處理性能的瓶頸。為了解決這個問題,HBM (High Bandwidth Memory) 技 術(shù) 應(yīng) 運(yùn) 而 生 。HBM 使用了 TSV(Through-Silicon Vias) 技術(shù),允許多個 DRAM 芯片垂直堆疊起來,從而實現(xiàn)更高的數(shù)據(jù)帶寬。HBM 與 GPU 核心的連接則是通過一個特殊的互連層實現(xiàn),這不僅進(jìn)一步提高了數(shù)據(jù)傳輸速率,而且大大減少了 PCB 的使用面積。

盡管 HBM 在帶寬、體積和能效上都展現(xiàn)出了明顯的優(yōu)勢,但由于其生產(chǎn)成本相對較高,GDDR 仍然是消費(fèi)級 GPU 市場的主流選擇。而在對性能和能效要求更高的數(shù)據(jù)中心環(huán)境中,HBM則得到了更廣泛的應(yīng)用。

(1) NVIDIA GPU

2022 年春季 GTC 大會上,英偉達(dá)發(fā)布其新款 NVIDIA GraceHopper 超級芯片產(chǎn)品,Hopper H100 Tensor Core GPU。

Tensor Cores 是專門針對矩陣乘法和累加(MMA)數(shù)學(xué)運(yùn)算的高性能計算核心,為 AI 和 HPC 應(yīng)用提供了開創(chuàng)性的性能。當(dāng) TensorCores 在一個 NVIDIA GPU 的多個流多處理器(SM)中并行操作時,與標(biāo)準(zhǔn)的浮點(diǎn)數(shù)(FP)、整數(shù)(INT)和融合乘法-累加(FMA)運(yùn)算相比,它們能夠大幅提高吞吐量和效率。

6daea012-b013-11ee-8b88-92fbcf53809c.png

(2)英特爾 Gaudi2 GPU

Gaudi2 深度學(xué)習(xí)加速器,以第一代 Gaudi 高性能架構(gòu)為基礎(chǔ),以多方位性能與能效比提升,加速高性能大語言模型運(yùn)行。具備:24 個可編程 Tensor 處理器核心(TPCs);21 個 100Gbps(RoCEv2)以太網(wǎng)接口;96GB HBM2E 內(nèi)存容量;2.4TB/秒的總內(nèi)存帶寬;48MB片上 SRAM

Gaudi2 處理器提供 2.4T 的網(wǎng)絡(luò)帶寬,片上集成 24 x 100 GbpsRoCE V2 RDMA 網(wǎng)卡,可通過標(biāo)準(zhǔn)以太交換或直連路由實現(xiàn) Gaudi 芯片內(nèi)部通信;Gaudi2 的內(nèi)存子系統(tǒng)包括 96 GB 的 HBM2E 內(nèi)存,提供2.45 TB/秒的帶寬,此外還有 48 MB 的本地 SRAM,帶寬足以允許 MME、TPC、DMAs 和 RDMA NICs 并行操作;支持 FP32,TF32,BF16,FP16 和FP8。

通過在 GPT-3 模型上的測試,以及相關(guān) MLPerf 基準(zhǔn)測試結(jié)果,為 Gaudi2 提供了卓越性能和高效可擴(kuò)展性的有力驗證。

(3)海光 DCU

目前海光研發(fā)的 DCU 達(dá) 64 個內(nèi)核,每個內(nèi)核包含 4 個 SIMT 運(yùn)算單元和 1 個標(biāo)量整型運(yùn)算單元,每個 SIMT 包含多個可配置浮點(diǎn)乘加運(yùn)算單元,SIMT 的每個指令周期內(nèi)可以并行處理 64 個獨(dú)立的運(yùn)算線程。這種多內(nèi)核多線程的 SIMT 架構(gòu),可以保證 DCU 每個時鐘周期完成 4096 次高精度浮點(diǎn)乘加運(yùn)算。

6e18d00e-b013-11ee-8b88-92fbcf53809c.png

海光 DCU 具有生態(tài)友好、精度覆蓋、安全筑底,三大特點(diǎn)。目前海光 DCU 與 Hygon、Intel、AMD 等 CPU 平臺服務(wù)器整體兼容,與國內(nèi)外主流 OS 全面適配。同時,與絕大部分主流框架(包括 TensorFlow、Pytorch、PaddlePaddle等)和算法模型(包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí) CV 與 NLP、大模型等)全面適配,并進(jìn)行了大規(guī)模部署和上百個大型應(yīng)用場景的驗證。

(4)沐曦

MXC500 是沐曦第一代通用 GPU 計算卡產(chǎn)品,基于自研 IP 進(jìn)行芯片設(shè)計,MXC500 采用通用 GPU 技術(shù)路線,通過內(nèi)置大量并行計算單元實現(xiàn)人工智能等領(lǐng)域上層應(yīng)用的并行計算加速。一方面,GPU 架構(gòu)相比 CPU 等串行計算硬件能夠?qū)崿F(xiàn)大幅度的計算加速;另一方面,GPU 架構(gòu)相比包括 NPU、DSA 等的 ASIC 計算芯片具有更好的通用性,能夠適應(yīng)廣泛的應(yīng)用領(lǐng)域和計算場景,并能夠針對 AI 算法的進(jìn)步實現(xiàn)快速的跟進(jìn)創(chuàng)新。

MXC500 采用純自研通用 GPU 架構(gòu),如下圖,核心計算單元由8個DPC(Data Processing Cluster,數(shù)據(jù)處理組)組成,每個 DPC 包含大量 AP(Acceleration Processor,加速處理器),從而實現(xiàn)大規(guī)模并行計算加速。在 GPU 內(nèi)部,Command Engine 負(fù)責(zé)將并行計算任務(wù)以線程(thread)為單位分發(fā)到不同的 AP 中進(jìn)行處理,核心計算單元與內(nèi)部的寄存器、L1 緩存、L2 緩存構(gòu)成高速的數(shù)據(jù)通路,并通過高速數(shù)據(jù)總線與 PCIe 單元、多卡互聯(lián)(采用私有協(xié)議 MetaXLink)、存儲控制器、DMA(直接內(nèi)存讀取,Direct MemoryAccess)等外圍電路模塊進(jìn)行通信。

6e284642-b013-11ee-8b88-92fbcf53809c.png

MXC500 內(nèi)置 4 顆 HBM2e 顆粒,通過 2.5D 封裝技術(shù)與核心計算芯粒封裝到同一顆芯片內(nèi)部。HBM2e 總?cè)萘繛?64GB,帶寬高達(dá)1.55TB/s。MXC500 通過沐曦自研的私有化通信協(xié)議 MetaXLink實現(xiàn)多GPU之間的直接互聯(lián),能夠支持最多單機(jī)8卡全互聯(lián)的拓?fù)洹?/p>

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4729

    瀏覽量

    128890
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9123

    瀏覽量

    85324
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30728

    瀏覽量

    268886
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47183

    瀏覽量

    238245

原文標(biāo)題:GPU:AI服務(wù)器關(guān)鍵技術(shù)及核心

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    RISC架構(gòu)服務(wù)器簡介

    RISC架構(gòu)服務(wù)器簡介RISC架構(gòu)服務(wù)器是指采用精簡指令系統(tǒng)計算結(jié)構(gòu)(RISC)的服務(wù)器,與IA架構(gòu)
    發(fā)表于 11-13 22:01

    CDMA原理與關(guān)鍵技術(shù)

    CDMA原理與關(guān)鍵技術(shù)
    發(fā)表于 08-16 20:25

    車載移動異構(gòu)無線網(wǎng)絡(luò)架構(gòu)關(guān)鍵技術(shù)是什么?

    車載移動異構(gòu)無線網(wǎng)絡(luò)架構(gòu)關(guān)鍵技術(shù)是什么?
    發(fā)表于 06-07 06:29

    什么是HarmonyOS?鴻蒙OS架構(gòu)關(guān)鍵技術(shù)是什么?

    什么是HarmonyOS?鴻蒙OS架構(gòu)關(guān)鍵技術(shù)是什么?
    發(fā)表于 09-23 09:02

    基于視頻服務(wù)器的視頻監(jiān)控系統(tǒng)的設(shè)計

          介紹了一種基于視頻服務(wù)器的視頻監(jiān)控系統(tǒng)的設(shè)計,著重介紹了視頻服務(wù)器、系統(tǒng)的總體設(shè)計和關(guān)鍵技術(shù),并給出了實現(xiàn)方法。
    發(fā)表于 09-03 10:10 ?18次下載

    淺析AI服務(wù)器與普通服務(wù)器的區(qū)別

    隨著大數(shù)據(jù)、云計算、人工智能等技術(shù)的成熟與在各行各業(yè)的應(yīng)用,在人工智能時代,AI服務(wù)器這個新興名詞也頻繁的出現(xiàn)在人們的視線范圍內(nèi),有人預(yù)測在人工智能時代,AI
    的頭像 發(fā)表于 01-23 17:27 ?4003次閱讀

    AI服務(wù)器的應(yīng)用場景有哪些?

    關(guān)鍵詞:人工智能、高性能計算、HPC、GPU、CPU、服務(wù)器、人工智能服務(wù)器、人工智能工作站、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、液冷散熱、冷板式液冷、水冷工作站、液冷服務(wù)器、
    的頭像 發(fā)表于 01-30 10:06 ?2737次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>服務(wù)器</b>的應(yīng)用場景有哪些?

    一文解析AI服務(wù)器技術(shù) AI服務(wù)器和傳統(tǒng)通用服務(wù)器的區(qū)別

    AI服務(wù)器和傳統(tǒng)通用服務(wù)器在設(shè)計方案上主要區(qū)別在于對高性能計算資源、內(nèi)存和存儲、網(wǎng)絡(luò)連接(PCB)、電源管理等。AI服務(wù)器為應(yīng)對
    發(fā)表于 04-14 10:41 ?1w次閱讀

    AI服務(wù)器與傳統(tǒng)服務(wù)器的區(qū)別是什么?

    AI 服務(wù)器確實是整個服務(wù)器市場的一部分,但它們是專門為基于云的 AI 模型訓(xùn)練或推理而設(shè)計的。在規(guī)格方面,廣義的AI
    發(fā)表于 06-21 12:40 ?1888次閱讀

    AI服務(wù)器架構(gòu)的五大硬件拆解

    AI 服務(wù)器我們瞄準(zhǔn)英偉達(dá) DGX A100 和 DGX H100 兩款具有標(biāo)桿性產(chǎn)品力的產(chǎn)品進(jìn)行分析,鑒于 H100 發(fā)布時間較短、資料詳盡度不夠,我們首先從 DGX A100 出發(fā)來觀測具有產(chǎn)品力的 AI
    發(fā)表于 08-11 09:24 ?5399次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>服務(wù)器</b><b class='flag-5'>架構(gòu)</b>的五大硬件拆解

    物理服務(wù)器ai發(fā)展的應(yīng)用

    物理服務(wù)器AI發(fā)展中扮演著重要的角色。傳統(tǒng)的以CPU為計算部件的服務(wù)器架構(gòu)已難以滿足人工智能的新需求,因此,"CPU+ GPU/FPGA/ASIC"的異構(gòu)計算
    的頭像 發(fā)表于 12-22 09:19 ?441次閱讀

    ai服務(wù)器是什么架構(gòu)類型

    AI服務(wù)器,即人工智能服務(wù)器,是專門為人工智能應(yīng)用設(shè)計的高性能計算服務(wù)器。AI服務(wù)器
    的頭像 發(fā)表于 07-02 09:51 ?1050次閱讀

    AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)

    AI服務(wù)器,即人工智能服務(wù)器,是一種專門設(shè)計用于運(yùn)行和加速人工智能(AI)算法與模型的硬件設(shè)備。隨著人工智能技術(shù)的快速發(fā)展和普及,
    的頭像 發(fā)表于 07-17 16:34 ?1519次閱讀

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢是什么?

    AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來滿足高吞吐量互聯(lián)的需求,為自然語言處
    的頭像 發(fā)表于 09-21 11:43 ?820次閱讀

    GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計

    眾所周知,在大型模型訓(xùn)練中,通常采用每臺服務(wù)器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對GP
    的頭像 發(fā)表于 11-05 16:20 ?313次閱讀
    GPU<b class='flag-5'>服務(wù)器</b><b class='flag-5'>AI</b>網(wǎng)絡(luò)<b class='flag-5'>架構(gòu)</b>設(shè)計
    RM新时代网站-首页