rm新时代公司官网,RM新时代新项目-百度知道

本文來自“AI服務(wù)器白皮書（2023年）”，人工智能行業(yè)是對算力、算法和數(shù)據(jù)等數(shù)字資源進(jìn)行創(chuàng)造、加工、整合，最終實現(xiàn)用機(jī)器替代人，為傳統(tǒng)行業(yè)智慧賦能。算力、算法、數(shù)據(jù)是人工智能的三大要素。人工智能產(chǎn)業(yè)鏈包括三層：基礎(chǔ)層、技術(shù)層和應(yīng)用層。

（1）基礎(chǔ)層：人工智能產(chǎn)業(yè)的基礎(chǔ)，主要提供 AI 專有算力支持和開發(fā)環(huán)境的設(shè)備和服務(wù)，包括 AI 芯片、系統(tǒng)開發(fā)框架、AI 服務(wù)器等基礎(chǔ)設(shè)施等；

（2）技術(shù)層：在 AI 算力的支持下，通過系統(tǒng)開發(fā)框架進(jìn)行各場景數(shù)據(jù)的訓(xùn)練和學(xué)習(xí)，開發(fā)出計算機(jī)視覺、語音語義、知識圖譜等 AI 算法，并將其搭載于硬件設(shè)備上形成行業(yè)級解決方案；

（3）應(yīng)用層：針對不同的行業(yè)和場景，進(jìn)行人工智能技術(shù)的商業(yè)化落地。

AI 服務(wù)器是人工智能基礎(chǔ)層的核心物理設(shè)備，其面向深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)需要的快速，低精度，浮點(diǎn)運(yùn)算高度并行數(shù)值計算，搭載大量計算內(nèi)核和高帶寬內(nèi)存資源，用于支撐深度學(xué)習(xí)訓(xùn)練和線上推理計算框架模型和應(yīng)用，可以在多個節(jié)點(diǎn)之間高速互聯(lián)、高效地擴(kuò)展的硬件平臺。有別于傳統(tǒng)服務(wù)器以 CPU 提供主要算力，人工智能服務(wù)器多采用異構(gòu)架構(gòu)進(jìn)行加速計算，常采用CPU+GPU、CPU+FPGA、CPU+ASIC 等多種形式。通過搭配不同的異構(gòu)加速芯片，形成不同性能和可編程靈活性的人工智能算力硬件。目前廣泛使用的 AI 服務(wù)器是 CPU+GPU。

通過 AI 服務(wù)器構(gòu)成人工智能基礎(chǔ)層的智能算力集群，聯(lián)合智能模型平臺和數(shù)據(jù)基礎(chǔ)服務(wù)平臺，支撐技術(shù)層和應(yīng)用層的人工智能應(yīng)用場景落地。隨著大模型訓(xùn)練對云端算力的持續(xù)增長需求，AI 服務(wù)器部署規(guī)模越來越大，持續(xù)增長的計算速度和計算效率需求，推動著 AI 服務(wù)器的人工智能行業(yè)技術(shù)迭代。

（一）AI 服務(wù)器總體架構(gòu)

隨著人工智能和大模型應(yīng)用的持續(xù)演進(jìn)和廣泛部署，“CPU+”架構(gòu)已成為人工智能服務(wù)器的設(shè)計藍(lán)本。

在這一架構(gòu)中，CPU繼續(xù)發(fā)揮其作為系統(tǒng)的中央處理單元的關(guān)鍵角色，負(fù)責(zé)任務(wù)的調(diào)度、系統(tǒng)管理和部分計算工作。然而，為了適應(yīng)大模型和特定 AI 應(yīng)用的計算密集性需求，服務(wù)器必須融合其他具有豐富計算核心的硬件加速器，能夠在短時間內(nèi)處理大量的數(shù)據(jù)和計算任務(wù)。

以人工智能計算領(lǐng)域中廣泛使用的 GPU 計算部件為典型代表，詳細(xì)描述了在現(xiàn)代“CPU+”架構(gòu)中，人工智能加速部件與 CPU 的協(xié)同工作流程。在這種架構(gòu)中，待處理的數(shù)據(jù)首先從 CPU 內(nèi)存?zhèn)鬏數(shù)紾PU 的顯存。這一步通常涉及大數(shù)據(jù)量的遷移，因此高帶寬和低延遲的內(nèi)存接口如 PCIe 和 NVLink 成為了優(yōu)化的關(guān)鍵。一旦數(shù)據(jù)被載入顯存，CPU 便開始向 GPU 發(fā)送程序指令。這些指令利用 GPU 的并行性能，驅(qū)動其多達(dá)數(shù)千的計算核心去執(zhí)行。利用 GPU 的強(qiáng)大并行計算能力，顯存中的數(shù)據(jù)會被快速處理。例如，在深度學(xué)習(xí)中，GPU可以并行處理大規(guī)模的矩陣乘法和卷積操作。計算完成后，結(jié)果存儲在顯存中，并在需要時傳輸回 CPU 內(nèi)存。從“CPU+”這種架構(gòu)的應(yīng)用可以明顯看出 CPU 的角色更偏向于指令協(xié)調(diào)和結(jié)果匯總，而實際上的高并行度計算任務(wù)則交給了 GPU 這類加速部件。這種分工策略符合 Amdahl 定律的觀點(diǎn)：系統(tǒng)的總體性能提升受制于其最慢部分。

因此，通過優(yōu)化可并行化的計算部分，將 CPU 和專門設(shè)計的硬件加速器如 GPU 結(jié)合，從而實現(xiàn)高效并行處理，滿足日益增長的計算需求。

（二）異構(gòu)計算加速計算芯片

異構(gòu)計算指的是在一個計算系統(tǒng)中使用多種不同類型的處理器或核心來執(zhí)行計算任務(wù)。這種方式旨在利用各種處理器的特定優(yōu)勢，以獲得更高的性能或能效。

傳統(tǒng)服務(wù)器系統(tǒng)內(nèi)處理器以 CPU(即中央處理單元)為主。CPU 有很強(qiáng)的通用性，需要處理各種不同的數(shù)據(jù)類型，通常負(fù)責(zé)執(zhí)行計算機(jī)和操作系統(tǒng)所需的命令和流程，因此其擅長無序超標(biāo)量與復(fù)雜控制指令級的執(zhí)行。

本輪人工智能熱潮的理論基礎(chǔ)是人工神經(jīng)網(wǎng)絡(luò)，為了更好地訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò)，就需要對計算密集型大規(guī)模矩陣進(jìn)行并行處理。CPU 的架構(gòu)決定了其難以適用于大規(guī)模的人工智能計算。而異構(gòu)計算加速器集成大量計算核心，簡化邏輯控制單元設(shè)計，提升系統(tǒng)的并行計算性能。

當(dāng)前異構(gòu)計算加速器發(fā)展呈現(xiàn)多樣化。人工智能芯片按照技術(shù)架構(gòu)分類，可以劃分為圖像處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)等。

GPU:AI 算力的核心

CPU 作為中央處理核心，其硬件架構(gòu)中為了滿足高性能和低延遲的需求，特地增強(qiáng) 了高速緩存（ Cache ）和控制單元（Control）的比例。相較之下，算術(shù)邏輯單元（ALU）在整體構(gòu)造中所占的份額較小，這限制了 CPU 在大規(guī)模并行計算方面的表現(xiàn)。

GPU 的架構(gòu)以計算單元為核心，采用了高度精簡且高效的流水線設(shè)計，專為處理高度并行和線程化的計算任務(wù)而生，具有大規(guī)模并行計算的能力。

傳統(tǒng)的 GDDR 顯存模塊通常焊接在 GPU 的 PCB 板上，這種配置可能會限制數(shù)據(jù)傳輸?shù)乃俾屎涂偞鎯θ萘?。隨著技術(shù)的發(fā)展，這些限制逐漸成為了圖形處理性能的瓶頸。為了解決這個問題，HBM (High Bandwidth Memory) 技術(shù) 應(yīng) 運(yùn) 而生。HBM 使用了 TSV(Through-Silicon Vias) 技術(shù)，允許多個 DRAM 芯片垂直堆疊起來，從而實現(xiàn)更高的數(shù)據(jù)帶寬。HBM 與 GPU 核心的連接則是通過一個特殊的互連層實現(xiàn)，這不僅進(jìn)一步提高了數(shù)據(jù)傳輸速率，而且大大減少了 PCB 的使用面積。

盡管 HBM 在帶寬、體積和能效上都展現(xiàn)出了明顯的優(yōu)勢，但由于其生產(chǎn)成本相對較高，GDDR 仍然是消費(fèi)級 GPU 市場的主流選擇。而在對性能和能效要求更高的數(shù)據(jù)中心環(huán)境中，HBM則得到了更廣泛的應(yīng)用。

（1） NVIDIA GPU

2022 年春季 GTC 大會上，英偉達(dá)發(fā)布其新款 NVIDIA GraceHopper 超級芯片產(chǎn)品，Hopper H100 Tensor Core GPU。

Tensor Cores 是專門針對矩陣乘法和累加（MMA）數(shù)學(xué)運(yùn)算的高性能計算核心，為 AI 和 HPC 應(yīng)用提供了開創(chuàng)性的性能。當(dāng) TensorCores 在一個 NVIDIA GPU 的多個流多處理器（SM）中并行操作時，與標(biāo)準(zhǔn)的浮點(diǎn)數(shù)（FP）、整數(shù)（INT）和融合乘法-累加（FMA）運(yùn)算相比，它們能夠大幅提高吞吐量和效率。

（2）英特爾 Gaudi2 GPU

Gaudi2 深度學(xué)習(xí)加速器，以第一代 Gaudi 高性能架構(gòu)為基礎(chǔ)，以多方位性能與能效比提升，加速高性能大語言模型運(yùn)行。具備：24 個可編程 Tensor 處理器核心（TPCs）；21 個 100Gbps（RoCEv2）以太網(wǎng)接口；96GB HBM2E 內(nèi)存容量；2.4TB/秒的總內(nèi)存帶寬；48MB片上 SRAM。

Gaudi2 處理器提供 2.4T 的網(wǎng)絡(luò)帶寬，片上集成 24 x 100 GbpsRoCE V2 RDMA 網(wǎng)卡，可通過標(biāo)準(zhǔn)以太交換或直連路由實現(xiàn) Gaudi 芯片內(nèi)部通信；Gaudi2 的內(nèi)存子系統(tǒng)包括 96 GB 的 HBM2E 內(nèi)存，提供2.45 TB/秒的帶寬，此外還有 48 MB 的本地 SRAM，帶寬足以允許 MME、TPC、DMAs 和 RDMA NICs 并行操作；支持 FP32,TF32,BF16,FP16 和FP8。

通過在 GPT-3 模型上的測試，以及相關(guān) MLPerf 基準(zhǔn)測試結(jié)果，為 Gaudi2 提供了卓越性能和高效可擴(kuò)展性的有力驗證。

（3）海光 DCU

目前海光研發(fā)的 DCU 達(dá) 64 個內(nèi)核，每個內(nèi)核包含 4 個 SIMT 運(yùn)算單元和 1 個標(biāo)量整型運(yùn)算單元，每個 SIMT 包含多個可配置浮點(diǎn)乘加運(yùn)算單元，SIMT 的每個指令周期內(nèi)可以并行處理 64 個獨(dú)立的運(yùn)算線程。這種多內(nèi)核多線程的 SIMT 架構(gòu)，可以保證 DCU 每個時鐘周期完成 4096 次高精度浮點(diǎn)乘加運(yùn)算。

海光 DCU 具有生態(tài)友好、精度覆蓋、安全筑底，三大特點(diǎn)。目前海光 DCU 與 Hygon、Intel、AMD 等 CPU 平臺服務(wù)器整體兼容，與國內(nèi)外主流 OS 全面適配。同時，與絕大部分主流框架（包括 TensorFlow、Pytorch、PaddlePaddle等）和算法模型（包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí) CV 與 NLP、大模型等）全面適配，并進(jìn)行了大規(guī)模部署和上百個大型應(yīng)用場景的驗證。

（4）沐曦

MXC500 是沐曦第一代通用 GPU 計算卡產(chǎn)品，基于自研 IP 進(jìn)行芯片設(shè)計，MXC500 采用通用 GPU 技術(shù)路線，通過內(nèi)置大量并行計算單元實現(xiàn)人工智能等領(lǐng)域上層應(yīng)用的并行計算加速。一方面，GPU 架構(gòu)相比 CPU 等串行計算硬件能夠?qū)崿F(xiàn)大幅度的計算加速；另一方面，GPU 架構(gòu)相比包括 NPU、DSA 等的 ASIC 計算芯片具有更好的通用性，能夠適應(yīng)廣泛的應(yīng)用領(lǐng)域和計算場景，并能夠針對 AI 算法的進(jìn)步實現(xiàn)快速的跟進(jìn)創(chuàng)新。

MXC500 采用純自研通用 GPU 架構(gòu)，如下圖，核心計算單元由8個DPC（Data Processing Cluster，數(shù)據(jù)處理組）組成，每個 DPC 包含大量 AP（Acceleration Processor，加速處理器），從而實現(xiàn)大規(guī)模并行計算加速。在 GPU 內(nèi)部，Command Engine 負(fù)責(zé)將并行計算任務(wù)以線程（thread）為單位分發(fā)到不同的 AP 中進(jìn)行處理，核心計算單元與內(nèi)部的寄存器、L1 緩存、L2 緩存構(gòu)成高速的數(shù)據(jù)通路，并通過高速數(shù)據(jù)總線與 PCIe 單元、多卡互聯(lián)（采用私有協(xié)議 MetaXLink）、存儲控制器、DMA（直接內(nèi)存讀取，Direct MemoryAccess）等外圍電路模塊進(jìn)行通信。

MXC500 內(nèi)置 4 顆 HBM2e 顆粒，通過 2.5D 封裝技術(shù)與核心計算芯粒封裝到同一顆芯片內(nèi)部。HBM2e 總?cè)萘繛?64GB，帶寬高達(dá)1.55TB/s。MXC500 通過沐曦自研的私有化通信協(xié)議 MetaXLink實現(xiàn)多GPU之間的直接互聯(lián)，能夠支持最多單機(jī)8卡全互聯(lián)的拓?fù)洹?/p>

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4729

瀏覽量
128890
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
9123

瀏覽量
85324
AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268886
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47183

瀏覽量
238245

原文標(biāo)題：GPU：AI服務(wù)器關(guān)鍵技術(shù)及核心

文章出處：【微信號：AI_Architect，微信公眾號：智能計算芯世界】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

RISC架構(gòu)服務(wù)器簡介

RISC架構(gòu)服務(wù)器簡介RISC架構(gòu)服務(wù)器是指采用精簡指令系統(tǒng)計算結(jié)構(gòu)(RISC)的服務(wù)器，與IA架構(gòu)

發(fā)表于 11-13 22:01

CDMA原理與關(guān)鍵技術(shù)

CDMA原理與關(guān)鍵技術(shù)

發(fā)表于 08-16 20:25

車載移動異構(gòu)無線網(wǎng)絡(luò)架構(gòu)及關(guān)鍵技術(shù)是什么？

車載移動異構(gòu)無線網(wǎng)絡(luò)架構(gòu)及關(guān)鍵技術(shù)是什么？

發(fā)表于 06-07 06:29

什么是HarmonyOS？鴻蒙OS架構(gòu)及關(guān)鍵技術(shù)是什么？

什么是HarmonyOS？鴻蒙OS架構(gòu)及關(guān)鍵技術(shù)是什么？

發(fā)表于 09-23 09:02

基于視頻服務(wù)器的視頻監(jiān)控系統(tǒng)的設(shè)計

介紹了一種基于視頻服務(wù)器的視頻監(jiān)控系統(tǒng)的設(shè)計，著重介紹了視頻服務(wù)器、系統(tǒng)的總體設(shè)計和關(guān)鍵技術(shù)，并給出了實現(xiàn)方法。

發(fā)表于 09-03 10:10 ?18次下載

淺析AI服務(wù)器與普通服務(wù)器的區(qū)別

隨著大數(shù)據(jù)、云計算、人工智能等技術(shù)的成熟與在各行各業(yè)的應(yīng)用，在人工智能時代，AI服務(wù)器這個新興名詞也頻繁的出現(xiàn)在人們的視線范圍內(nèi)，有人預(yù)測在人工智能時代，AI

發(fā)表于 01-23 17:27 ?4003次閱讀

AI服務(wù)器的應(yīng)用場景有哪些？

關(guān)鍵詞:人工智能、高性能計算、HPC、GPU、CPU、服務(wù)器、人工智能服務(wù)器、人工智能工作站、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、液冷散熱、冷板式液冷、水冷工作站、液冷服務(wù)器、

發(fā)表于 01-30 10:06 ?2737次閱讀

一文解析AI服務(wù)器技術(shù) AI服務(wù)器和傳統(tǒng)通用服務(wù)器的區(qū)別

AI服務(wù)器和傳統(tǒng)通用服務(wù)器在設(shè)計方案上主要區(qū)別在于對高性能計算資源、內(nèi)存和存儲、網(wǎng)絡(luò)連接（PCB）、電源管理等。AI服務(wù)器為應(yīng)對

發(fā)表于 04-14 10:41 ?1w次閱讀

AI服務(wù)器與傳統(tǒng)服務(wù)器的區(qū)別是什么？

AI 服務(wù)器確實是整個服務(wù)器市場的一部分，但它們是專門為基于云的 AI 模型訓(xùn)練或推理而設(shè)計的。在規(guī)格方面，廣義的AI

發(fā)表于 06-21 12:40 ?1888次閱讀

AI服務(wù)器架構(gòu)的五大硬件拆解

AI 服務(wù)器我們瞄準(zhǔn)英偉達(dá) DGX A100 和 DGX H100 兩款具有標(biāo)桿性產(chǎn)品力的產(chǎn)品進(jìn)行分析，鑒于 H100 發(fā)布時間較短、資料詳盡度不夠，我們首先從 DGX A100 出發(fā)來觀測具有產(chǎn)品力的 AI

發(fā)表于 08-11 09:24 ?5399次閱讀

物理服務(wù)器對ai發(fā)展的應(yīng)用

物理服務(wù)器在AI發(fā)展中扮演著重要的角色。傳統(tǒng)的以CPU為計算部件的服務(wù)器架構(gòu)已難以滿足人工智能的新需求，因此，"CPU+ GPU/FPGA/ASIC"的異構(gòu)計算

發(fā)表于 12-22 09:19 ?441次閱讀

ai服務(wù)器是什么架構(gòu)類型

AI服務(wù)器，即人工智能服務(wù)器，是專門為人工智能應(yīng)用設(shè)計的高性能計算服務(wù)器。AI服務(wù)器的

發(fā)表于 07-02 09:51 ?1050次閱讀

AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)

AI服務(wù)器，即人工智能服務(wù)器，是一種專門設(shè)計用于運(yùn)行和加速人工智能（AI）算法與模型的硬件設(shè)備。隨著人工智能技術(shù)的快速發(fā)展和普及，

發(fā)表于 07-17 16:34 ?1519次閱讀

什么是AI服務(wù)器？AI服務(wù)器的優(yōu)勢是什么？

AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計的服務(wù)器，它采用異構(gòu)形式的硬件架構(gòu)，通常搭載GPU、FPGA、ASIC等加速芯片，利用CPU與加速芯片的組合來滿足高吞吐量互聯(lián)的需求，為自然語言處

發(fā)表于 09-21 11:43 ?820次閱讀

GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計

眾所周知，在大型模型訓(xùn)練中，通常采用每臺服務(wù)器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)（上篇）》中，我們對GP

發(fā)表于 11-05 16:20 ?313次閱讀