英偉達(dá)宣布 GH200 Grace Hopper 超級(jí)芯片投產(chǎn),生成式 AI 引擎 NVIDIA DGX GH200 現(xiàn)已投入量產(chǎn)。
GH200 使用 Nvidia 的 NVLink-C2C 互連技術(shù),將 Nvidia 基于 ARM 的 Grace CPU和 Hopper GPU 架構(gòu)融合到一個(gè)芯片中。NVIDIA DGX GH200 將 256 個(gè) NVIDIA Grace Hopper超級(jí)芯片完全連接到單個(gè) GPU 中,支持萬億參數(shù) AI 大模型訓(xùn)練,能夠處理大規(guī)模推薦系統(tǒng)、生成式人工智能和圖形分析,并為巨型人工智能模型提供線性可擴(kuò)展性。
GH200 速度和功耗指標(biāo)都有顯著提升。這款新的芯片總帶寬達(dá)每秒 900GB,比當(dāng)今最先進(jìn)的加速計(jì)算系統(tǒng)中采用的標(biāo)準(zhǔn) PCIe Gen5 通道高出 7 倍。Nvidia 表示,Superchip 的功耗也降低了 5倍。
AMD 推出數(shù)據(jù)中心 APU Instinct MI300。AMD 推出數(shù)據(jù)中心APU(加速處理器)Instinct MI300,其旨在幫助數(shù)據(jù)中心處理人工智能相關(guān)數(shù)據(jù)流量,并在這一快速增長(zhǎng)的市場(chǎng)上挑戰(zhàn)英偉達(dá)的壟斷地位。Instinct MI300 系列將包括一個(gè) GPU(圖形處理器)MI300X,可以加速 ChatGPT 等聊天機(jī)器人所使用的生成式 AI 技術(shù)的處理。
先進(jìn)算力國(guó)產(chǎn)替代在行業(yè)變革中有望迎來機(jī)遇。半導(dǎo)體國(guó)產(chǎn)化勢(shì)在必行,而算力芯片又是重中之重。AI 算力、低功耗等對(duì)服務(wù)器算力芯片提出新的要求,市場(chǎng)格局近幾個(gè)季度變化較多,英偉達(dá)GH200 有望加速全球 AI 服務(wù)器算力芯片市場(chǎng)變革,中國(guó)芯片企業(yè)在面臨挑戰(zhàn)的同時(shí),也有望迎來發(fā)展機(jī)遇。
1、不同算力芯片的特點(diǎn)與區(qū)別
計(jì)算芯片包括 CPU、GPU、FPGA、ASIC 等,都用作計(jì)算分析。其中,CPU 是性能最綜合的計(jì)算芯片,AI 算法的執(zhí)行也運(yùn)用 GPU、FPGA、ASIC 等芯片。
CPU 是綜合計(jì)算芯片,擅長(zhǎng)邏輯控制和串行運(yùn)算。計(jì)算機(jī)的運(yùn)算器和控制器一起組成了 CPU,CPU 是整臺(tái)計(jì)算機(jī)的大腦,也是一個(gè)有多種功能的優(yōu)秀領(lǐng)導(dǎo)者。它的優(yōu)點(diǎn)在于調(diào)度、管理、協(xié)調(diào)能力強(qiáng),計(jì)算能力則位于其次。CPU 有大量的緩存和復(fù)雜的邏輯控制單元,非常擅長(zhǎng)邏輯控制、串行的運(yùn)算,但因計(jì)算單元占 30%左右,不擅長(zhǎng)復(fù)雜算法運(yùn)算和處理并行重復(fù)的操作。
GPU相比CPU計(jì)算單元大大增加,擅長(zhǎng)大量并行計(jì)算。而作為通用芯片的 GPU 相當(dāng)于一個(gè)接受CPU 調(diào)度的“擁有大量計(jì)算能力”的員工,計(jì)算單元相比 CPU 大大增加。GPU 最初承擔(dān)圖像計(jì)算任務(wù),能夠進(jìn)行并行計(jì)算,因此 GPU 架構(gòu)本身比較適合深度學(xué)習(xí)算法,通過對(duì) GPU 的優(yōu)化,進(jìn)一步滿足深度學(xué)習(xí)大量計(jì)算需求。其主要缺點(diǎn)在于功耗較高。
GPU 按照接入類型可以分為獨(dú)立 GPU 和集成 GPU。獨(dú)立 GPU 即獨(dú)立顯卡,需要插在主板的相應(yīng)接口上,具備單獨(dú)的顯存,不占用系統(tǒng)內(nèi)存,能夠提供更好的顯示效果和運(yùn)行性能。全球知名供應(yīng)商主要包括 AMD 和 NVIDIA 兩家。集成 GPU 即集成顯卡,是將圖形核心以單獨(dú)芯片的方式集成在主板上,并且動(dòng)態(tài)共享部分系統(tǒng)內(nèi)存作為顯存使用,能夠提供簡(jiǎn)單的圖形處理能力,以及較為流暢的編碼應(yīng)用。全球知名供應(yīng)商主要包括英特爾和 AMD 兩家。
GPU 按照應(yīng)用場(chǎng)景不同可分為 PC GPU、服務(wù)器 GPU 和移動(dòng) GPU。
1)集成 GPU 一般運(yùn)用于PC 以輕辦公、文字編纂為主;獨(dú)立 GPU 則一般運(yùn)用于 PC 以制作高清圖片、編輯視頻、渲染游戲等。
2)服務(wù)器 GPU 主要以獨(dú)立 GPU 為主。服務(wù)器 GPU 主要應(yīng)用于服務(wù)器,可做專業(yè)可視化、計(jì)算加速、深度學(xué)習(xí)等應(yīng)用。
3)移動(dòng) GPU 以集成 GPU 為主。隨著移動(dòng)端向著輕薄化不斷發(fā)展,終端內(nèi)部?jī)艨臻g隨著多種功能模組的增加呈快速下降趨勢(shì)。此外,就目前的移動(dòng)端視頻和圖片的處理要求而言,集成 GPU 的性能尚可滿足移動(dòng)端的需要。
FPGA 又稱半定制化芯片,具有足夠的計(jì)算能力、較低的試錯(cuò)成本和足夠的靈活性。FPGA 的計(jì)算速度快是源于它本質(zhì)上是無指令、無需共享內(nèi)存的體系結(jié)構(gòu),“無指令”即使用硬件描述語言編程,直接編譯為晶體管電路的組合,所以 FPGA 實(shí)際上直接用晶體管電路實(shí)現(xiàn)用戶的算法,沒有通過指令系統(tǒng)的翻譯;“無需共享內(nèi)存”是指對(duì)于保存狀態(tài)的需求,F(xiàn)PGA 中的寄存器和片上內(nèi)存(BRAM)是屬于各自的控制邏輯的,無需不必要的仲裁和緩存。
因此,FPGA 運(yùn)算速度足夠快,優(yōu)于GPU。同時(shí),相比量產(chǎn)成本高昂的 ASIC 芯片,因?yàn)?FPGA 是一種半定制的硬件,通過編程可定義其中的單元配置和鏈接架構(gòu)進(jìn)行計(jì)算,因此在靈活性上優(yōu)于 ASIC,具備較低試錯(cuò)成本。
ASIC 是全定制芯片,性能強(qiáng)但是前期開發(fā)久、成本高。是根據(jù)產(chǎn)品的需求進(jìn)行特定設(shè)計(jì)和制造的集成電路,能夠在特定功能上進(jìn)行強(qiáng)化,具有更高的處理速度和更低的能耗。缺點(diǎn)是成本高,且由于定制化,可復(fù)制性一般,因此只有用量足夠大時(shí)才能夠分?jǐn)偳捌谕度?,降低成本?/p>
2、CPU 廣泛應(yīng)用于服務(wù)器、工作站、個(gè)人計(jì)算機(jī)等
CPU 可以應(yīng)用在服務(wù)器、工作站、個(gè)人計(jì)算機(jī)(臺(tái)式機(jī)、筆記本電腦)、移動(dòng)終端和嵌入式設(shè)備等不同設(shè)備上,根據(jù)應(yīng)用領(lǐng)域的不同,其架構(gòu)、功能、性能、可靠性、能效比等技術(shù)指標(biāo)也存在一定差異。
服務(wù)器處理器需長(zhǎng)時(shí)間運(yùn)行,數(shù)據(jù)處理能力最強(qiáng)、設(shè)計(jì)工藝最復(fù)雜、可靠性最高。服務(wù)器具有高速的數(shù)據(jù)處理能力、強(qiáng)大的 I/O 數(shù)據(jù)吞吐能力、良好的可擴(kuò)展性,并需要長(zhǎng)時(shí)間可靠運(yùn)行,其CPU 芯片在性能、可靠性、可擴(kuò)展性和可維護(hù)性等方面要求較為苛刻。因此,服務(wù)器處理器是數(shù)據(jù)處理能力最強(qiáng)、設(shè)計(jì)工藝最復(fù)雜、可靠性最高的處理器。服務(wù)器的應(yīng)用領(lǐng)域包括實(shí)時(shí)分析、5G應(yīng)用、人工智能、機(jī)器學(xué)習(xí)、金融、大數(shù)據(jù)和云計(jì)算等領(lǐng)域。
工作站主要為單用戶提供比個(gè)人計(jì)算機(jī)更強(qiáng)大的性能。工作站是一種高端微型計(jì)算機(jī),主要為單用戶提供比個(gè)人計(jì)算機(jī)更強(qiáng)大的性能,尤其是在數(shù)據(jù)并行處理能力和圖形處理能力等方面。工作站的典型應(yīng)用領(lǐng)域包括科學(xué)和工程計(jì)算、軟件開發(fā)、計(jì)算機(jī)輔助設(shè)計(jì)等。
個(gè)人計(jì)算機(jī)主要滿足個(gè)人需求,核心數(shù)量較少。個(gè)人計(jì)算機(jī)包括臺(tái)式機(jī)和筆記本電腦兩大類,主要用于滿足個(gè)人的工作、學(xué)習(xí)、娛樂需求,以及企業(yè)員工的辦公需求。個(gè)人計(jì)算機(jī)處理器核心數(shù)量較少,具有較少 I/O。
移動(dòng)終端具有低功耗、輕量化等特點(diǎn),關(guān)注對(duì)多媒體功能的增強(qiáng)。移動(dòng)終端包括手機(jī)、筆記本、平板電腦、POS 機(jī)等。隨著集成電路技術(shù)的進(jìn)步和移動(dòng)網(wǎng)絡(luò)向?qū)拵Щl(fā)展,移動(dòng)終端正從簡(jiǎn)單通話工具逐步轉(zhuǎn)變?yōu)榫C合信息處理平臺(tái)。移動(dòng)終端處理器具有低功耗、輕量化等特點(diǎn),關(guān)注對(duì)多媒體功能的增強(qiáng),具有較少 I/O。
嵌入式設(shè)備對(duì)功耗、穩(wěn)定性、可擴(kuò)展能力要求高。嵌入式設(shè)備需要具有高穩(wěn)定性和低功耗,其處理器對(duì)環(huán)境(如溫度、濕度、電磁場(chǎng)、振動(dòng)等)的適應(yīng)能力強(qiáng),體積小,且集成度高,適用于工業(yè)控制、移動(dòng)便攜設(shè)備、物聯(lián)網(wǎng)終端等場(chǎng)合。其中,大多數(shù)物聯(lián)網(wǎng)設(shè)備需要額外的 CPU 處理能力來支持可升級(jí)的額外功能。因此,針對(duì)特定的物聯(lián)網(wǎng)應(yīng)用程序的 CPU 不僅必須支持安全特性,而且必須同時(shí)具有可擴(kuò)展的性能,實(shí)現(xiàn)更高的時(shí)鐘頻率。物聯(lián)網(wǎng)應(yīng)用處理器芯片具有面向高集成度、高抗干擾能力和低功耗的發(fā)展趨勢(shì)。
3、GPU 等 AI 芯片廣泛應(yīng)用于高性能運(yùn)算、深度學(xué)習(xí)等場(chǎng)景
AI 芯片主要指面向人工智能應(yīng)用的芯片。大致包含三類:
1)通用、半定制化芯片:經(jīng)過軟硬件優(yōu)化可以高效支持 AI 應(yīng)用的通用芯片,如 GPU,F(xiàn)PGA;
2)專門為特定的 AI 產(chǎn)品或者服務(wù)而設(shè)計(jì)的芯片:側(cè)重加速機(jī)器學(xué)習(xí)(尤其是神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)),如 ASIC;
3)神經(jīng)形態(tài)計(jì)算芯片:不采用經(jīng)典的馮·諾依曼架構(gòu),而是基于神經(jīng)形態(tài)架構(gòu)設(shè)計(jì),類似人腦,具備較高的集成度和能效比,以 IBM Truenorth 為代表。
國(guó)產(chǎn)算力芯片市占率低,具備廣闊拓展空間。算力芯片目前國(guó)產(chǎn)廠商份額極低。CPU 目前從市場(chǎng)占有率來說,Intel 依靠其強(qiáng)大的 X86 生態(tài)體系,在通用 CPU 市場(chǎng)占據(jù)領(lǐng)先地位,市場(chǎng)份額常年保持在 80%左右,AMD 近期追趕勢(shì)頭明顯,其他廠商整體市場(chǎng)份額不超過 1%。
2022 年,數(shù)據(jù)中心領(lǐng)域 Intel 市場(chǎng)占有率為 71%,較 21年下降 10pcts,AMD 在 22 年市占率快速提升 8pcts 至 20%,亞馬遜、Ampere 等新興玩家份額快速提升,給總計(jì)份額不足 5%的國(guó)產(chǎn)廠商發(fā)展帶來了借鑒意義。在獨(dú)立顯卡市場(chǎng)上,NVIDIA、AMD 和英特爾 2022 年 Q4 全球 GPU 市場(chǎng)占有率分別為82%、9%和 9%。
多數(shù)參數(shù)我國(guó) CPU 具備比肩能力,IPC 性能是最主要差距。目前通過公開信息可以看出,主頻、核心數(shù)、內(nèi)存類型等指標(biāo)我國(guó) CPU 廠商差異不大,具備一定的比肩能力,但落實(shí)到具體性能決定指標(biāo) IPC,僅 Intel 和 AMD 會(huì)公布 IPC“相比上一代提升了多少”,其他國(guó)產(chǎn) CPU 從 IPC 性能來看大致落后于 Intel、AMD 幾年水平。
國(guó)產(chǎn)廠商的機(jī)遇一:數(shù)據(jù)中心帶來新需求。根據(jù)工信部信息通信發(fā)展司數(shù)據(jù),2017年我國(guó)數(shù)據(jù)中心市場(chǎng)總機(jī)架數(shù)量 166 萬架,2022 年預(yù)測(cè)達(dá)到 670 萬架,2017-2022E 復(fù)合增速達(dá) 32.2%。目前東數(shù)西算工程將通過構(gòu)建數(shù)據(jù)中心、云計(jì)算、大數(shù)據(jù)一體化的新型算力網(wǎng)絡(luò)體系,于 2022 年 2 月,在京津冀、長(zhǎng)三角、粵港澳大灣區(qū)等 8 地啟動(dòng)建設(shè)國(guó)家算力樞紐節(jié)點(diǎn),規(guī)劃了 10 個(gè)國(guó)家數(shù)據(jù)中心集群。各地?cái)?shù)據(jù)中心都將集聚大量服務(wù)器,如韶關(guān)數(shù)據(jù)中心預(yù)計(jì)到 2025 年將建成 50 萬架標(biāo)準(zhǔn)機(jī)架、500 萬臺(tái)服務(wù)器規(guī)模,投資超 500 億元(不含服務(wù)器及軟件)。
國(guó)產(chǎn)廠商的機(jī)遇二:國(guó)產(chǎn)化浪潮。政府及國(guó)有企事業(yè)單位為國(guó)產(chǎn) CPU 主陣地。據(jù)測(cè)算,今年 PC 芯片市場(chǎng)規(guī)模在 162-330 億元之間,2022 年服務(wù)器芯片市場(chǎng)規(guī)模則已達(dá) 130 億美元。在企業(yè)級(jí)市場(chǎng)中,也不僅是國(guó)有企業(yè),能源、交通、金融、電信、教育等重要領(lǐng)域或規(guī)模較大的民營(yíng)企業(yè)也存在設(shè)備國(guó)產(chǎn)化需求。消費(fèi)級(jí)市場(chǎng)對(duì)產(chǎn)業(yè)生態(tài)的要求最高,對(duì)性價(jià)比較為敏感,迭代周期短,是國(guó)產(chǎn) CPU 長(zhǎng)期需突破的目標(biāo)市場(chǎng)。
國(guó)產(chǎn)廠商的機(jī)遇三:通過封測(cè)技術(shù)彎道超車。后摩爾時(shí)代的到來,一方面,CPU 制程進(jìn)入后摩爾定律時(shí)期升級(jí)速度趨緩,國(guó)產(chǎn) CPU 性能與國(guó)際主流水平逐步縮小,存在趕超的可能;另一方面,先進(jìn)封裝技術(shù)成為兵家競(jìng)爭(zhēng)新賽道,在封裝方面,我國(guó)封測(cè)廠商長(zhǎng)電科技和通富微電在全球前五中占據(jù)兩席,通富與 AMD 緊密合作,先進(jìn)封裝技術(shù)正成為集成電路產(chǎn)業(yè)發(fā)展的新引擎,我國(guó) CPU 企業(yè)有望通過封測(cè)技術(shù)彎道超車,彌補(bǔ)先進(jìn)制程能力不足的缺陷。目前國(guó)產(chǎn) CPU 已經(jīng)可以通過先進(jìn)封裝技術(shù)實(shí)現(xiàn)性能提升與應(yīng)用場(chǎng)景拓展。
審核編輯:黃飛
?
評(píng)論
查看更多