rm官网怎么登录,如何加入RM新时代

NVIDIA Grace CPU 是 NVIDIA 開發(fā)的第一個數(shù)據(jù)中心 CPU 。它是從頭開始建造的，以創(chuàng)建世界上第一個超級芯片。

旨在提供卓越的性能和能效，以滿足現(xiàn)代數(shù)據(jù)中心工作負載的供電需求數(shù)字孿生，云游戲和圖形，人工智能和高性能計算（ HPC ） NVIDIA Grace CPU 具有 72 個 Armv9 GPU 內(nèi)核，實現(xiàn) Arm 可伸縮向量擴展第二版（ SVE2 ）指令集。核心還包括具有嵌套虛擬化功能和 S-EL2 支持的虛擬化擴展。

NVIDIA Grace CPU 還符合以下 Arm 規(guī)范：

RAS v1.1 通用中斷控制器（ GIC ） v4.1

內(nèi)存分區(qū)和監(jiān)視（ MPAM ）

系統(tǒng)內(nèi)存管理單元（ SMMU ） v3.1

Grace CPU 被構(gòu)建為與 NVIDIA Hopper GPU 創(chuàng)建用于大規(guī)模人工智能訓(xùn)練、推理和高性能計算的 NVIDIA Grace CPU 超級芯片，或與另一個 Grace CPU ，構(gòu)建高性能［Z1K22］，以滿足高性能計算和云計算工作負載的需求。

繼續(xù)閱讀，了解 Grace CPU 的主要功能。

使用 NVLink-C2C 的高速芯片間互連

Grace Hopper 和 Grace 超級芯片均由 NVIDIA NVLink-C2C 高速芯片間互連，用作超級芯片通信的主干。

NVLink-C2C 擴展 NVIDIA NVLink 用于連接服務(wù)器中的多個 GPU ，以及使用 NVLink 交換機系統(tǒng)連接多個 GPU 節(jié)點。

NVLink-C2C 在封裝上的裸片之間具有 900GB / s 的原始雙向帶寬，提供了 PCIe Gen 5 x16 鏈路的 7 倍帶寬（與使用 NVLink 時 NVIDIA Hopper GPU 之間可用的帶寬相同）和更低的延遲。 NVLink-C2C 還只需要傳輸 1.3 微微焦耳/位，這是 PCIe Gen 5 能效的 5 倍以上。

NVLink-C2C 也是一種相干互連，在使用 Grace CPU 超級芯片對標準相干［Z1K22］平臺以及使用 Grace Hopper 超級芯片的異構(gòu)編程模型進行編程時，能夠?qū)崿F(xiàn)一致性。

使用 NVIDIA Grace CPU 的符合標準的平臺

NVIDIA Grace CPU 超級芯片旨在為軟件開發(fā)人員提供符合標準的平臺。 Arm 提供了一套規(guī)范，作為其系統(tǒng)就緒計劃的一部分，旨在為 Arm 生態(tài)系統(tǒng)帶來標準化。

Grace CPU 以 Arm 系統(tǒng)標準為目標，提供與現(xiàn)成操作系統(tǒng)和軟件應(yīng)用程序的兼容性， Grace CPU 將從一開始就利用 NVIDIA Arm 軟件堆棧。

Grace CPU 還符合 Arm 服務(wù)器基礎(chǔ)系統(tǒng)架構(gòu)（ SBSA ），以實現(xiàn)符合標準的硬件和軟件接口。此外，為了在基于 Grace CPU 的系統(tǒng)上啟用標準引導(dǎo)流， Grace CPU 被設(shè)計為支持 Arm 服務(wù)器基本引導(dǎo)要求（ SBBR ）。

對于緩存和帶寬分區(qū)以及帶寬監(jiān)控， Grace CPU 還支持 Arm 內(nèi)存分區(qū)和監(jiān)控（ MPAM ）。

Grace CPU 還包括 Arm 性能監(jiān)控單元，允許對 GPU 內(nèi)核以及片上系統(tǒng)（ SoC ）架構(gòu)中的其他子系統(tǒng)進行性能監(jiān)控。這使得標準工具（如 Linux perf ）可以用于性能調(diào)查。

帶 Grace Hopper 超級芯片的統(tǒng)一內(nèi)存

NVIDIA Grace Hopper 超級芯片將 Grace CPU 與 Hopper GPU 相結(jié)合，擴展了 CUDA 在 CUDA 8.0 中首次引入的統(tǒng)一內(nèi)存編程模型。

NVIDIA Grace Hopper 超級芯片引入了具有共享頁表的統(tǒng)一內(nèi)存，允許 Grace CPU 和 Hopper GPU 與 CUDA 應(yīng)用程序共享地址空間甚至頁表。

Grace Hopper GPU 還可以訪問可分頁內(nèi)存分配。 Grace Hopper 超級芯片允許程序員使用系統(tǒng)分配器分配 GPU 內(nèi)存，包括與 GPU 交換指向malloc內(nèi)存的指針。

NVLink-C2C 支持 Grace CPU 和 Hopper GPU 之間的本機原子支持，釋放了 CUDA 10.2 中首次引入的 C ++原子的全部潛力。

NVIDIA 可伸縮一致性結(jié)構(gòu)

Grace CPU 介紹了 NVIDIA 可伸縮一致性結(jié)構(gòu)（ SCF ）。由 NVIDIA 設(shè)計的 SCF 是一種網(wǎng)格結(jié)構(gòu)和分布式緩存，旨在根據(jù)數(shù)據(jù)中心的需要進行擴展。 SCF 提供 3.2 TB / s 的二等分帶寬，以確保 NVLink-C2C 、 CPU 核心、內(nèi)存和系統(tǒng) IO 之間的數(shù)據(jù)流量。

圖 1.隨 Grace CPU 引入的 NVIDIA 可伸縮一致性結(jié)構(gòu)圖

單個 Grace CPU 包含 72 個 GPU 內(nèi)核和 117MB 緩存，但 SCF 的設(shè)計可擴展性超出此配置。當兩個 Grace CPU 組合形成一個 Grace 超級芯片時，這些數(shù)字分別增加到 144 個 CPU 核和 234MB 的 L3 緩存。

CPU 核心和 SCF 緩存分區(qū)（ SCC ）分布在整個網(wǎng)格中。緩存交換節(jié)點（ CSN ）通過結(jié)構(gòu)路由數(shù)據(jù)，并充當 CPU 核心、緩存內(nèi)存和系統(tǒng)其余部分之間的接口，從而實現(xiàn)整個系統(tǒng)的高帶寬。

內(nèi)存分區(qū)和監(jiān)視

Grace CPU 集成了對內(nèi)存系統(tǒng)資源分區(qū)和監(jiān)控（ MPAM ）功能的支持，這是 Arm 對系統(tǒng)緩存和內(nèi)存資源進行分區(qū)的標準。

MPAM 通過向系統(tǒng)內(nèi)的請求者分配分區(qū) ID （ PartID ）來工作。這種設(shè)計允許基于其各自的分區(qū)對資源（如緩存容量和內(nèi)存帶寬）進行分區(qū)或監(jiān)控。

Grace CPU 中的 SCF 緩存支持使用 MPAM 對緩存容量和內(nèi)存帶寬進行分區(qū)。此外，性能監(jiān)視組（ PMG ）可用于監(jiān)視資源使用情況。

利用內(nèi)存子系統(tǒng)提高帶寬和能效

為了提供卓越的帶寬和能效， Grace CPU 實現(xiàn)了 32 通道 LPDDR5X 內(nèi)存接口。這提供了高達 512GB 的內(nèi)存容量和高達 546GB / s 的內(nèi)存帶寬。

擴展 GPU 存儲器

Grace Hopper 超級芯片的一個關(guān)鍵特征是引入了擴展 GPU 內(nèi)存（ EGM ）。通過允許從更大的 NVLink 網(wǎng)絡(luò)連接的任何漏斗 GPU 訪問連接到 Grace Hopper 超級芯片中 Grace CPU 的 LPDDR5X 內(nèi)存，大大擴展了 GPU 可用的內(nèi)存池。

圖 2.漏斗 GPU 可以使用 NVLink-C2C 訪問遠程 Grace CPU 的存儲器

GPU 到 – GPU NVLink 和 NVLink-C2C 雙向帶寬在超級芯片中匹配，這使得料斗 GPU 能夠以 NVLink 本地速度訪問 Grace CPU 存儲器。

使用 LPDDR5X 平衡帶寬和能效

為 Grace CPU 選擇 LPDDR5X 是因為需要在大規(guī)模 AI 和 HPC 工作負載的帶寬、能效、容量和成本之間取得最佳平衡。

雖然四站點 HBM2e 內(nèi)存子系統(tǒng)將提供大量內(nèi)存帶寬和良好的能效，但其成本將是 DDR5 或 LPDDR5X 每 GB 成本的 3 倍以上。

此外，這種配置將僅限于 64GB 的容量，這是具有 LPDDR5X 的 Grace CPU 可用的最大容量的八分之一。

與更傳統(tǒng)的八通道 DDR5 設(shè)計相比， Grace CPU LPDDR5X 內(nèi)存子系統(tǒng)提供了高達 53% 的帶寬，并大大提高了功率效率，每千兆字節(jié)只需要八分之一的功率。

圖 3.HBM2e （ 4 個站點）、 DDR5 （ 8 通道）和 LPDDR5x （ 32 通道）內(nèi)存選項的容量、帶寬、功率和成本比較

LPDDR5X 卓越的功率效率使得能夠?qū)⒏嗟目偣β暑A(yù)算分配給計算資源，例如 CPU 核或 GPU 流式多處理器（ SMs ）。

NVIDIA Grace CPU 輸入/輸出

Grace CPU 整合了一系列高速 I / O ，以滿足現(xiàn)代數(shù)據(jù)中心的需求。 Grace CPU SoC 提供多達 68 條 PCIe 連接通道和多達 4 條 PCIe Gen 5 x16 鏈路。每個 PCIe Gen 5 x16 鏈路提供高達 128GB / s 的雙向帶寬，并可進一步分叉為兩個 PCIe Gen 5×8 鏈路，以實現(xiàn)額外的連接。

圖 4.Grace I / O 功能多達 68 條 PCIe 通道、 12 條相干 NVLINK 通道和 NVLINK-C2C

這種連接是對片上 NVLink-C2C 鏈路的補充，該鏈路可用于將 Grace CPU 連接到另一個 Grace CPU ，或連接到 NVIDIA Hopper GPU 。

NVLink 、 NVLink-C2C 和 PCIe Gen 5 的組合為 Grace CPU 提供了豐富的連接選項套件和擴展現(xiàn)代數(shù)據(jù)中心性能所需的充足帶寬。

NVIDIA Grace CPU 性能

NVIDIA Grace CPU 設(shè)計用于在單芯片和 Grace 超級芯片配置中提供卓越的計算性能，估計SPECrate2017_int_base得分分別為 370 和 740 。這些預(yù)硅估計基于 GNU 編譯器集合（ GCC ）的使用。

圖 5.單個 Grace CPU （左）和 Grace 超級芯片（右）的規(guī)格速率估計。來源：預(yù)硅估計性能（可能會更改）。

內(nèi)存帶寬對于設(shè)計 Grace CPU 的工作負載至關(guān)重要，在流基準測試中，單個 Grace CPU ，預(yù)計可提供高達 536GB / s 的實際帶寬，占芯片峰值理論帶寬的 98% 以上。

圖 6.MemRead 、 MemSet 、 MemCopy 和 MemTriad 的 Grace CPU 內(nèi)存基準測試結(jié)果（從左到右）

最后，料斗 GPU 和 Grace CPU 之間的帶寬對于最大化 Grace 料斗超級芯片的性能至關(guān)重要。 GPU 對 – CPU 內(nèi)存的讀和寫預(yù)計分別為 429GB / s 和 407GB / s ，分別代表 NVLink-C2C 峰值理論單向傳輸速率的 95% 和 90% 以上。

綜合讀寫性能預(yù)計為 506GB / s ，占單個 NVIDIA Grace CPU SoC 可用峰值理論內(nèi)存帶寬的 92% 以上。

圖 7.Hopper GPU 到 Grace memory 基準測試結(jié)果

NVIDIA Grace CPU 超級芯片的優(yōu)勢

NVIDIA Grace CPU 超級芯片擁有 144 個核心和 1TB / s 的內(nèi)存帶寬，將為基于 CPU 的高性能計算應(yīng)用提供前所未有的性能。 HPC 應(yīng)用程序是計算密集型應(yīng)用程序，需要性能最高的核心、最高的內(nèi)存帶寬和每個核心的正確內(nèi)存容量，以加快結(jié)果。

NVIDIA 正在與領(lǐng)先的 HPC 、超級計算、超尺度和云客戶合作，開發(fā) Grace CPU 超級芯片。 Grace CPU 超級芯片和 Grace Hopper 超級芯片預(yù)計將于 2023 年上半年上市。

關(guān)于作者

Jonathon Evans 是 NVIDIA 杰出工程師，也是 NVIDIA Grace CPU 的架構(gòu)主管。 Jonathon 于 2007 年加入 NVIDIA ，成為 GPU 架構(gòu)團隊的成員。他之前在 GPU 方面的工作包括領(lǐng)導(dǎo) GPU 的上下文管理和調(diào)度硬件團隊，以及對異步計算、統(tǒng)一內(nèi)存、多實例 GPU 和 WDDM 硬件調(diào)度的貢獻。

Ashraf Eassa 是NVIDIA 加速計算集團內(nèi)部的高級產(chǎn)品營銷經(jīng)理。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

控制器

控制器

+關(guān)注

關(guān)注
112

文章
16332

瀏覽量
177803
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10854

瀏覽量
211573
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4978

瀏覽量
102984

NVIDIA 推出高性價比的生成式 AI 超級計算機

Jetson Orin Nano Super 可將生成式 AI 性能提升至1.7 倍，支持科技愛好者、開發(fā)者和學(xué)生使用的主流模型。 ? ? NVIDIA 推出了一款全新的尺寸小巧的生成式 AI

發(fā)表于 12-18 17:01 ?293次閱讀

<b class='flag-5'>NVIDIA</b> 推出高性價比的生成式 <b class='flag-5'>AI</b> <b class='flag-5'>超級</b>計算機

賴耶科技通過NVIDIA AI Enterprise平臺打造超級AI工廠

與 NVIDIA 技術(shù)團隊保持合作。賴耶科技通過NVIDIA AI Enterprise平臺打造的超級 AI 工廠，致力于加速大模型場景應(yīng)用

發(fā)表于 11-19 14:55 ?362次閱讀

NVIDIA助力xAI打造全球最大AI超級計算機

NVIDIA 宣布，xAI 位于田納西州孟菲斯市的Colossus 超級計算機集群達到了 10 萬顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了NVIDIA Spe

發(fā)表于 10-30 11:38 ?354次閱讀

維諦技術(shù)(Vertiv)：未來HPC，你想象不到的酷炫變革！

隨著AI技術(shù)的迅猛發(fā)展，高性能計算（HPC）也迎來了新的變革浪潮。在2024全球超級計算機Green500排行榜上，位列前三的超算都采用了“超智融合”的技術(shù)理念。超級大腦+

發(fā)表于 10-30 11:12 ?239次閱讀

維諦技術(shù)(Vertiv)：未來<b class='flag-5'>HPC</b>，你想象不到的酷炫變革！

NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計算機

市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡(luò)平臺，該平臺是專為多租戶

發(fā)表于 10-30 09:33 ?142次閱讀

<b class='flag-5'>NVIDIA</b> 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 <b class='flag-5'>AI</b> <b class='flag-5'>超級</b>計算機

NVIDIA助力丹麥發(fā)布首臺AI超級計算機

這臺丹麥最大的超級計算機由該國政府與丹麥 AI 創(chuàng)新中心共同建設(shè)，是一臺 NVIDIA DGX SuperPOD 超級計算機。

發(fā)表于 10-27 09:42 ?426次閱讀

NVIDIA攜手Meta推出AI服務(wù)，為企業(yè)提供生成式AI服務(wù)

NVIDIA近日宣布了一項重大舉措，正式推出NVIDIA AI Foundry服務(wù)與NVIDIA NIM（NVIDIA Inference

發(fā)表于 07-25 16:57 ?531次閱讀

NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

借助 NVIDIA AI Foundry，企業(yè)和各國現(xiàn)在能夠使用自有數(shù)據(jù)與 Llama 3.1 405B 和 NVIDIA Nemotron 模型配對，來構(gòu)建“超級模型”

發(fā)表于 07-24 09:39 ?706次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Foundry <b class='flag-5'>為</b>全球企業(yè)打造自定義 Llama 3.1 生成式 <b class='flag-5'>AI</b> 模型

NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業(yè)軟件支持

美敦力、SETI 協(xié)會以及領(lǐng)先制造商正在構(gòu)建 NVIDIA IGX 系統(tǒng)，為 AI 在工業(yè)邊緣賦能。 ? NVIDIA 于6月2日宣布，集成NVID

發(fā)表于 06-04 10:21 ?497次閱讀

NVIDIA AI Enterprise榮獲金獎

NVIDIA AI Enterprise、GH200 Grace Hopper 超級芯片和 Spectrum-X 在 COMPUTEX 2024 獲得認可。

發(fā)表于 05-29 09:27 ?444次閱讀

NVIDIA和Recursion利用AI超級計算機加快新藥研發(fā)

BioHive 由 NVIDIA AI 驅(qū)動，用于加速醫(yī)療領(lǐng)域科學(xué)家的工作。在全球超級計算機 TOP500 榜單中，它的排名上升了 100 多位。

發(fā)表于 05-16 09:46 ?1262次閱讀

助力科學(xué)發(fā)展，NVIDIA AI加速HPC研究

科學(xué)家和研究人員正在利用 NVIDIA 技術(shù)將生成式 AI 應(yīng)用于代碼生成、天氣預(yù)報、遺傳學(xué)和材料科學(xué)領(lǐng)域的 HPC 工作。

發(fā)表于 05-14 09:17 ?407次閱讀

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

2024年3月19日，[英偉達]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構(gòu)BLACKWELL，并推出基于該架構(gòu)的超級芯片GB200，將助推數(shù)據(jù)處理、

發(fā)表于 05-13 17:16

NVIDIA推出搭載GB200 Grace Blackwell超級芯片的NVIDIA DGX SuperPOD?

NVIDIA 于太平洋時間 3 月 18 日發(fā)布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級

發(fā)表于 03-21 09:49 ?692次閱讀

NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD，適用于萬億參數(shù)級的生成式 AI 超級計算

基于先進的 NVIDIA 網(wǎng)絡(luò)、NVIDIA 全棧 AI 軟件和存儲技術(shù)，可將集群中 Grace Blackwell 超級芯片的數(shù)量擴展至數(shù)

發(fā)表于 03-19 10:56 ?420次閱讀