新时代手机平台官网,RM新时代手机版

NVIDIA Grace Hopper 超級芯片架構(gòu) 是高性能計(jì)算（ HPC ）和 AI 工作負(fù)載的第一個真正的異構(gòu)加速平臺。它利用 GPU 和 CPU 的優(yōu)勢加速應(yīng)用程序，同時(shí)提供迄今為止最簡單和最高效的分布式異構(gòu)編程模型?？茖W(xué)家和工程師可以專注于解決世界上最重要的問題。

在這篇文章中，您將了解 Grace Hopper 超級芯片的所有信息，并重點(diǎn)介紹 NVIDIA Grace Hoppper 所帶來的性能突破。有關(guān) Grace Hopper 使用 NVIDIA Hopper H100 GPU 在最強(qiáng)大的基于 PCIe 的加速平臺上實(shí)現(xiàn)的加速的更多信息，請參閱 NVIDIA Grace Hopper Superchip Architecture 白皮書。

高性能計(jì)算和巨大人工智能工作負(fù)載的性能和生產(chǎn)力

NVIDIA Grace Hopper 超級芯片架構(gòu)將 NVIDIA Hopper GPU 的開創(chuàng)性性能與 NVIDIA Grace CPU 的多功能性結(jié)合在一起，在單個超級芯片中連接了高帶寬和內(nèi)存相關(guān) NVIDIA NVLink Chip-2-Chip (C2C) 互連，并支持新的 NVIDIA NVLink Switch System 。

NVIDIA NVLink-C2C 是一種 NVIDIA 內(nèi)存連貫、高帶寬和低延遲超級芯片互連。它是 Grace Hopper 超級芯片的核心，提供敢達(dá) 900 GB / s 的總帶寬。這比通常用于加速系統(tǒng)的 x16 PCIe Gen5 通道高 7 倍的帶寬。

NVLink-C2C 內(nèi)存一致性提高了開發(fā)人員的生產(chǎn)力和性能，并使 GPU 能夠訪問大量內(nèi)存。 CPU 和 GPU 線程現(xiàn)在可以同時(shí)透明地訪問 CPU 和 GPU 駐留內(nèi)存，使您能夠?qū)Ｗ⒂?a target="_blank">算法而不是顯式內(nèi)存管理。

內(nèi)存一致性使您能夠只傳輸所需的數(shù)據(jù)，而不會將整個頁面遷移到 GPU 或從 GPU 遷移。它還通過啟用 CPU 和 GPU 的本機(jī)原子操作，實(shí)現(xiàn) GPU 和 CPU 線程之間的輕量級同步原語。帶地址轉(zhuǎn)換服務(wù)（ ATS ）的 NVLink-C2C 利用 NVIDIA Hopper 直接內(nèi)存訪問（ DMA ）復(fù)制引擎，加快主機(jī)和設(shè)備間可分頁內(nèi)存的批量傳輸。

NVLink-C2C 使應(yīng)用程序能夠超額訂閱 GPU 的內(nèi)存，并以高帶寬直接利用 NVIDIA Grace CPU 的內(nèi)存。每個 Grace Hopper 超級芯片最多 512 GB LPDDR5X CPU 內(nèi)存， GPU 可直接高帶寬訪問比 HBM 多 4 倍的內(nèi)存。結(jié)合 NVIDIA NVLink 交換機(jī)系統(tǒng)，在多達(dá) 256 個 NVLink 連接的 GPU 上運(yùn)行的所有 GPU 線程現(xiàn)在可以以高帶寬訪問多達(dá) 150 TB 的內(nèi)存。第四代 NVLink 支持使用直接加載、存儲和原子操作訪問對等內(nèi)存，使加速應(yīng)用程序比以往任何時(shí)候都更容易解決更大的問題。

與 NVIDIA 網(wǎng)絡(luò)技術(shù)一起， Grace Hopper Superchips 為下一代 HPC 超級計(jì)算機(jī)和 AI 工廠提供了配方?？蛻艨梢越邮芨蟮臄?shù)據(jù)集、更復(fù)雜的模型和新的工作負(fù)載，從而比以前更快地解決這些問題。

NVIDIA Grace Hopper 超級芯片的主要創(chuàng)新如下：

NVIDIA Grace CPU ：

多達(dá) 72x Arm Neoverse V2 內(nèi)核，每個內(nèi)核配備 Armv9.0-A ISA 和 4 × 128 位 SIMD 單元。

高達(dá) 117 MB 的三級緩存。

高達(dá) 512 GB 的 LPDDR5X 內(nèi)存，提供高達(dá) 546 GB / s 的內(nèi)存帶寬。

最多 64x PCIe Gen5 通道。

NVIDIA 可擴(kuò)展一致性結(jié)構(gòu)（ SCF ）網(wǎng)格和分布式緩存，內(nèi)存帶寬高達(dá) 3.2 TB / s 。

具有單個 CPU NUMA 節(jié)點(diǎn)的高開發(fā)人員生產(chǎn)率。

NVIDIA Hopper GPU ：

與 NVIDIA A100 GPU 相比，多達(dá) 144 個 SM ，具有第四代 Tensor 核心、 transformer 引擎、 DPX 和高 3 倍的 FP32 和 FP64 。

高達(dá) 96 GB 的 HBM3 內(nèi)存，傳輸速度高達(dá) 3000 GB / s 。

60 MB 二級緩存。

NVLink 4 和 PCIe 5 。

NVIDIA NVLink-C2C ：

Grace CPU 和 Hopper GPU 之間的硬件相干互連。

總帶寬高達(dá) 900 GB / s ， 450 GB / s / dir 。

擴(kuò)展 GPU 內(nèi)存功能使料斗 GPU 可將所有 CPU 內(nèi)存尋址為 GPU 內(nèi)存。每個 Hopper GPU 可以在超級芯片內(nèi)尋址多達(dá) 608 GB 的內(nèi)存。

NVIDIA NVLink 交換機(jī)系統(tǒng)：

使用 NVLink 4 連接多達(dá) 256 倍 NVIDIA Grace Hopper 超級芯片。

每個 NVLink 連接的 Hopper GPU 可以尋址網(wǎng)絡(luò)中所有超級芯片的所有 HBM3 和 LPDDR5X 內(nèi)存，最多可尋址 150 TB 的 GPU 內(nèi)存。

針對性能、可移植性和生產(chǎn)力的編程模型

具有 PCIe 連接加速器的傳統(tǒng)異構(gòu)平臺要求用戶遵循復(fù)雜的編程模型，該模型涉及手動管理設(shè)備內(nèi)存分配以及與主機(jī)之間的數(shù)據(jù)傳輸。

NVIDIA Grace Hopper Superchip 平臺是異構(gòu)的，易于編程， NVIDIA 致力于讓所有開發(fā)人員和應(yīng)用程序都可以使用它，而不依賴于選擇的編程語言。

Grace Hopper Superchip 和平臺的構(gòu)建都使您能夠?yàn)槭诸^的任務(wù)選擇合適的語言， NVIDIA CUDA LLVM Compiler API 使您能夠?qū)⑹走x的編程語言帶到 CUDA 平臺，其代碼生成質(zhì)量和優(yōu)化水平與 NVIDIA 編譯器和工具相同。

NVIDIA 為 CUDA 平臺提供的語言包括 ISO C ++、 ISO Fortran 和 Python 等加速標(biāo)準(zhǔn)語言。該平臺還支持基于指令的編程模型，如 OpenACC 、 OpenMP 、 CUDA C ++和 CUDA Fortran 。 NVIDIA HPC SDK 支持所有這些方法，以及一組用于評測和調(diào)試的加速庫和工具。

NVIDIA 是 ISO C ++和 ISO Fortran 編程語言社區(qū)的成員，這些社區(qū)使符合 ISO C ++和 ISOFortran 標(biāo)準(zhǔn)的應(yīng)用程序能夠在 NVIDIA CPU 和 NVIDIA GPU 上運(yùn)行，無需任何語言擴(kuò)展。有關(guān)在 GPU 上運(yùn)行符合 ISO 的應(yīng)用程序的更多信息，請參閱 Multi-GPU Programming with Standard Parallel C++ 和 Using Fortran Standard Parallel Programming For GPU Acceleration 。

該技術(shù)嚴(yán)重依賴于 NVIDIA NVLink-C2C 和 NVIDIA 統(tǒng)一虛擬內(nèi)存提供的硬件加速內(nèi)存一致性。如圖 4 所示，在沒有 ATS 的傳統(tǒng) PCIe 連接 x86 + Hopper 系統(tǒng)中， CPU 和 GPU 具有獨(dú)立的每個進(jìn)程頁表，系統(tǒng)分配的內(nèi)存不能直接從 GPU 訪問。當(dāng)程序使用系統(tǒng)分配器分配內(nèi)存，但 GPU 頁面表中的頁面條目不可用時(shí)，從 GPU 線程訪問內(nèi)存失敗。

在基于 NVIDIA Grace Hopper Superchip 的系統(tǒng)中， ATS 使 CPU 和 GPU 能夠共享單個進(jìn)程頁表，使所有 CPU 和 GPU 線程能夠訪問所有系統(tǒng)分配的內(nèi)存，這些內(nèi)存可以駐留在物理 CPU 或 GPU 內(nèi)存上。所有 CPU 和 GPU 線程都可以訪問 CPU heap 、 CPU 線程堆棧、全局變量、內(nèi)存映射文件和進(jìn)程間內(nèi)存。

NVIDIA NVLink-C2C 硬件一致性使 Grace CPU 能夠以緩存線粒度緩存 GPU 內(nèi)存，并使 GPU CPU 能夠訪問彼此的內(nèi)存而無需頁面遷移。

NVLink-C2C 還加速了系統(tǒng)分配內(nèi)存上 CPU 和 GPU 支持的所有原子操作。 Scoped atomic operations 完全受支持，并支持系統(tǒng)中所有線程之間的細(xì)粒度和可擴(kuò)展同步。

根據(jù) CPU 或 GPU 線程是否首先訪問系統(tǒng)分配的內(nèi)存，運(yùn)行時(shí)在 LPDDR5X 或 HBM3 上第一次接觸時(shí)使用物理內(nèi)存?zhèn)浞菹到y(tǒng)分配的存儲器。從操作系統(tǒng)的角度來看， Grace CPU 和 Hopper GPU 只是兩個獨(dú)立的 NUMA 節(jié)點(diǎn)。系統(tǒng)分配的內(nèi)存是可遷移的，因此運(yùn)行時(shí)可以更改其物理內(nèi)存支持，以提高應(yīng)用程序性能或處理內(nèi)存壓力。

對于基于 PCIe 的平臺（如 x86 或 Arm ），您可以使用與 NVIDIA Grace Hopper 模型相同的統(tǒng)一內(nèi)存編程模型。這最終將通過 Heterogeneous Memory Management (HMM) feature 實(shí)現(xiàn)，它是 Linux 內(nèi)核功能和 NVIDIA 驅(qū)動程序功能的組合，使用軟件模擬 CPU 和 GPU 之間的內(nèi)存一致性。

在 NVIDIA Grace Hopper 上，這些應(yīng)用程序可以從 NVLink-C2C 提供的更高帶寬、更低延遲、更高原子吞吐量和硬件加速（無需任何軟件更改）中獲益。

超級芯片架構(gòu)特征

以下是 NVIDIA Grace Hopper 架構(gòu)的主要創(chuàng)新：

NVIDIA Grace CPU

NVIDIA Hopper GPU

NVLink-C2C

NVLink 交換機(jī)系統(tǒng)

擴(kuò)展 GPU 存儲器

NVIDIA Grace CPU

隨著 GPU 的并行計(jì)算能力在每一代中持續(xù)增長三倍，快速高效的 CPU 對于防止現(xiàn)代工作負(fù)載中的串行和僅 CPU 部分主宰性能至關(guān)重要。

NVIDIA Grace CPU 是 first NVIDIA data center CPU ，它是 built from the ground up to create HPC and AI superchips 。 Grace 提供多達(dá) 72 個 Arm Neoverse V2 CPU 內(nèi)核和 Armv9.0-A ISA ，每個內(nèi)核提供 4 × 128 位寬的 SIMD 單元，支持 Arm 的 Scalable Vector Extensions 2 (SVE2) SIMD 指令集。

NVIDIA Grace 提供領(lǐng)先的每線程性能，同時(shí)提供比傳統(tǒng) CPU 更高的能效。 72 個 CPU 內(nèi)核在 SPECrate 2017_int_base 上的得分高達(dá) 370 （估計(jì)），確保高性能以滿足 HPC 和 AI 異構(gòu)工作負(fù)載的需求。

機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中的現(xiàn)代 GPU 工作負(fù)載需要訪問大量內(nèi)存。通常，這些工作負(fù)載必須使用多個 GPU 將數(shù)據(jù)集存儲在 HBM 內(nèi)存中。

NVIDIA Grace CPU 提供高達(dá) 512 GB 的 LPDDR5X 內(nèi)存，可在內(nèi)存容量、能效和性能之間實(shí)現(xiàn)最佳平衡。它提供高達(dá) 546 GB / s 的 LPDDR5X 內(nèi)存帶寬， NVLink-C2C 使 GPU 能夠以 900 GB / s 的總帶寬訪問該內(nèi)存。

單個 NVIDIA Grace Hopper 超級芯片為 Hopper GPU 提供了總計(jì) 608 GB 的快速可訪問內(nèi)存，幾乎是 DGX-A100-80 中可用的慢速內(nèi)存總量；上一代的 8- GPU 系統(tǒng)。

這是通過NVIDIA SCF 實(shí)現(xiàn)的，這是一種網(wǎng)狀結(jié)構(gòu)和分布式緩存，提供高達(dá) 3.2 TB / s 的總二等分帶寬，以實(shí)現(xiàn) CPU 內(nèi)核、內(nèi)存、系統(tǒng) I / O 和 NVLink-C2C 的全部性能。 CPU 核心和 SCF 緩存分區(qū)（ SCC ）分布在整個網(wǎng)格中，而緩存交換節(jié)點(diǎn)（ CSN ）通過結(jié)構(gòu)路由數(shù)據(jù)，并充當(dāng) CPU 核心、緩存存儲器和系統(tǒng)其余部分之間的接口。

NVIDIA Hopper GPU

NVIDIA Hopper GPU 是第九代 NVIDIA 數(shù)據(jù)中心 GPU 。與前幾代 NVIDIA Ampere GPU 相比，它旨在為大規(guī)模 AI 和 HPC 應(yīng)用提供數(shù)量級的改進(jìn)。料斗 GPU 還具有多項(xiàng)創(chuàng)新：

新的第四代 Tensor 核心在更廣泛的 AI 和 HPC 任務(wù)上執(zhí)行比以往更快的矩陣計(jì)算。

與上一代 NVIDIA A100 GPU 相比，新的 transformer 引擎使 H100 在大型語言模型上提供高達(dá) 9 倍的 AI 訓(xùn)練和高達(dá) 30 倍的 AI 推理加速。

改進(jìn)的空間和時(shí)間數(shù)據(jù)位置和異步執(zhí)行功能使應(yīng)用程序能夠始終保持所有單元忙碌，并最大限度地提高能效。

安全 Multi-Instance GPU (MIG ) 將 GPU 劃分為獨(dú)立的、適當(dāng)大小的實(shí)例，以最大限度地提高服務(wù)質(zhì)量（ QoS ），以適應(yīng)較小的工作負(fù)載。

NVIDIA Hopper 是第一款真正的異步 GPU 。它的 Tensor Memory Accelerator （ TMA ）和異步事務(wù)屏障使線程能夠重疊和流水線無關(guān)的數(shù)據(jù)移動和數(shù)據(jù)處理，使應(yīng)用程序能夠充分利用所有單元。

新的空間和時(shí)間局部特性，如線程塊集群、分布式共享內(nèi)存和線程塊重新配置，為應(yīng)用程序提供了對更大量共享內(nèi)存和工具的快速訪問。這使應(yīng)用程序能夠在數(shù)據(jù)在芯片上時(shí)更好地重用數(shù)據(jù)，從而進(jìn)一步提高應(yīng)用程序性能。

有關(guān)詳細(xì)信息，請參見 NVIDIA H100 Tensor Core Architecture Overview 和深入NVIDIA Hopper 架構(gòu)。

NVLink-C2C ：用于超級芯片的高帶寬芯片到芯片互連

NVIDIA Grace Hopper 通過 NVIDIA NVLink-C2C 將 NVIDIA 格雷斯 CPU 和 NVIDIA Hopper GPU 融合到一個超級芯片中， NVIDIA NVLink-C2C 是一個 900 GB / s 芯片到芯片的連貫互連，可以使用統(tǒng)一的編程模型對格雷斯 Hopper 超級芯片進(jìn)行編程。

NVLink 芯片 2 芯片（ C2C ）互連在 Grace CPU 和 Hopper GPU 之間提供了高帶寬的直接連接，以創(chuàng)建 Grace Hopper 超級芯片，該芯片專為 AI 和 HPC 應(yīng)用的降速加速而設(shè)計(jì)。

憑借 900 GB / s 的雙向帶寬， NVLink-C2C 以較低的延遲提供了 x16 PCIe Gen 鏈路的 7 倍帶寬。 NVLink-C2C 也僅使用 1.3 微微焦/比特傳輸，這比 PCIe Gen 5 能效高 5 倍以上。

此外， NVLink-C2C 是一種相干存儲器互連，具有對系統(tǒng)范圍原子操作的本地硬件支持。這提高了對非本地存儲器的內(nèi)存訪問的性能，例如 CPU 和 GPU 線程訪問駐留在其他設(shè)備中的內(nèi)存。硬件一致性還提高了同步原語的性能，減少了 GPU 或 CPU 彼此等待的時(shí)間，提高了系統(tǒng)的總利用率。

最后，硬件一致性還簡化了使用流行編程語言和框架開發(fā)異構(gòu)計(jì)算應(yīng)用程序。有關(guān)更多信息，請參閱 NVIDIA Grace Hopper 編程模型部分。

NVLink 交換機(jī)系統(tǒng)

NVIDIA NVLink 交換機(jī)系統(tǒng)將第四代 NVIDIA NVLink 技術(shù)與新的第三代 NVIDIA NVSwitch 結(jié)合在一起。 NVSwitch 的一級可連接多達(dá)八個 Grace Hopper 超級芯片，而另一級采用胖樹拓?fù)浣Y(jié)構(gòu)，可通過 NVLink 連接多達(dá) 256 個 Grace Hopper 超級芯片。 Grace Hopper 超級芯片對以高達(dá) 900 GB / s 的速度交換數(shù)據(jù)。

憑借多達(dá) 256 個 Grace Hopper 超級芯片，該網(wǎng)絡(luò)可提供高達(dá) 115.2 TB / s 的全天候帶寬。這是 NVIDIA InfiniBand NDR400 全對全帶寬的 9 倍。

第四代 NVIDIA NVLink 技術(shù)使 GPU 線程能夠使用正常內(nèi)存操作、原子操作和批量傳輸來尋址 NVLink 網(wǎng)絡(luò)中所有超級芯片提供的高達(dá) 150 TB 的內(nèi)存。 MPI 、 NCCL 或 NVSHMEM 等通信庫在可用時(shí)透明地利用 NVLink 交換機(jī)系統(tǒng)。

擴(kuò)展 GPU 存儲器

NVIDIA Grace Hopper 超級芯片設(shè)計(jì)用于加速應(yīng)用程序，其內(nèi)存占用量非常大，大于單個超級芯片的 HBM3 和 LPDDR5X 內(nèi)存容量。有關(guān)更多信息，請參閱 NVIDIA Grace Hopper 加速應(yīng)用程序部分。

高帶寬 NVLink-C2C 上的擴(kuò)展 GPU 內(nèi)存（ EGM ）功能使 GPU 能夠高效地訪問所有系統(tǒng)內(nèi)存。 EGM 在多節(jié)點(diǎn) NVSwitch 連接的系統(tǒng)中提供高達(dá) 150 TB 的系統(tǒng)內(nèi)存。使用 EGM ，可以分配物理內(nèi)存，以便從多節(jié)點(diǎn)系統(tǒng)中的任何 GPU 線程訪問。所有 GPU 都可以以 GPU- GPU NVLink 或 NVLink-C2C 的最低速度訪問 EGM 。

Grace Hopper 超級芯片配置中的內(nèi)存訪問通過本地高帶寬 NVLink-C2C ，總速度為 900 GB / s 。遠(yuǎn)程內(nèi)存訪問通過 GPU NVLink 執(zhí)行，根據(jù)訪問的內(nèi)存，還通過 NVLink-C2C 執(zhí)行。使用 EGM ， GPU 線程現(xiàn)在可以以 450 GB / s 的速度訪問 NVSwitch 結(jié)構(gòu)上的所有可用內(nèi)存資源，包括 LPDDR5X 和 HBM3 。

NVIDIA HGX Grace Hopper

NVIDIA HGX Grace Hopper 每個節(jié)點(diǎn)都有一個 Grace Hoppper 超級芯片，與 BlueField-3 NIC 或 OEM 定義的 I / O 和可選的 NVLink 交換機(jī)系統(tǒng)配對。它可以是空氣冷卻或液體冷卻， TDP 高達(dá) 1000W 。

NVIDIA HGX Grace Hopper 與 InfiniBand

具有 Infiniband 的 NVIDIA HGX Grace Hopper 非常適合擴(kuò)展傳統(tǒng)機(jī)器學(xué)習(xí)（ ML ）和 HPC 工作負(fù)載，這些工作負(fù)載不受 Infiniband 網(wǎng)絡(luò)通信開銷的限制， Infiniband 是可用的最快互連之一。

每個節(jié)點(diǎn)包含一個 Grace Hopper 超級芯片和一個或多個 PCIe 設(shè)備，如 NVMe 固態(tài)驅(qū)動器和 BlueField-3 DPU 、 NVIDIA ConnectX-7 NIC 或 OEM 定義的 I / O 。 NDR400 InfiniBand NIC 具有 16x PCIe Gen 5 通道，可在超級芯片上提供高達(dá) 100 GB / s 的總帶寬。結(jié)合 NVIDIA BlueField-3 DPU ，該平臺易于管理和部署，并使用傳統(tǒng)的 HPC 和 AI 集群網(wǎng)絡(luò)架構(gòu)。

帶 NVLink 開關(guān)的 NVIDIA HGX Grace Hopper

配備 NVLink Switch 的 NVIDIA HGX Grace Hopper 非常適合大規(guī)模機(jī)器學(xué)習(xí)和 HPC 工作負(fù)載。它使 NVLink 連接域中的所有 GPU 線程能夠在 256- GPU NVLink 連接系統(tǒng)中以每個超級芯片高達(dá) 900 GB / s 的總帶寬尋址高達(dá) 150 TB 的內(nèi)存。簡單的編程模型使用指針加載、存儲和原子操作。它的 450 GB / s 全部減少了帶寬，最高可達(dá) 115.2 TB / s 的二等分帶寬，使該平臺成為強(qiáng)大擴(kuò)展世界上最大、最具挑戰(zhàn)性的 AI 訓(xùn)練和 HPC 工作負(fù)載的理想平臺。

NVLink 連接的域通過 NVIDIA InfiniBand 網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)連接，例如， NVIDIA ConnectX-7 NIC 或 NVIDIA BlueField-3 數(shù)據(jù)處理器（ DPU ）與 NVIDIA Quantum 2 NDR 交換機(jī)或 OEM 定義的 I / O 解決方案配對。

實(shí)現(xiàn)性能突破

NVIDIA Grace Hopper Superchip Architecture 白皮書詳細(xì)介紹了本文中的內(nèi)容。它將帶您了解 Grace Hopper 是如何實(shí)性能突破的，而目前最強(qiáng)大的基于 PCIe 的加速平臺是由 NVIDIA Hopper H100 PCIe GPU 提供支持的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
455

文章
50714

瀏覽量
423132
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4978

瀏覽量
102984
AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268882

多家領(lǐng)先廠商采用全球首批基于NVIDIA Grace CPU的系統(tǒng)設(shè)計(jì)

? 加利福尼亞州圣克拉拉 —— COMPUTEX?——?太平洋時(shí)間2022年5月23日 —— NVIDIA于今日宣布，多家領(lǐng)先的計(jì)算機(jī)制造商將發(fā)布首批基于 NVIDIA Grace? CPU超級芯片

發(fā)表于 05-24 16:05 ?2266次閱讀

多家領(lǐng)先廠商采用全球首批基于<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b> CPU的系統(tǒng)設(shè)計(jì)

全球領(lǐng)先系統(tǒng)制造商加速采用NVIDIA Grace和Grace Hopper

源訊、戴爾科技，技嘉科技、慧與、浪潮、聯(lián)想和超微成為首批將基于NVIDIA Grace的HGX系統(tǒng)用于HPC和AI的制造商 ? ? ? NVIDIA于今日宣布，多家全球領(lǐng)先的計(jì)算機(jī)制造商正在采用全新

發(fā)表于 05-31 14:46 ?1207次閱讀

全球領(lǐng)先系統(tǒng)制造商加速采用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Grace</b>和<b class='flag-5'>Grace</b> Hopper

Arm Neoverse NVIDIA Grace CPU 超級芯片：為人工智能的未來設(shè)定步伐

供高達(dá) 10 倍的性能飛躍，例如訓(xùn)練具有超過一萬億個參數(shù)的 NLP 模型，同時(shí)顯著提高每瓦性能。NVIDIA Grace CPU Superchip 將包含兩個

發(fā)表于 03-29 14:40

NVIDIA 推出 Grace CPU 超級芯片

NVIDIA Grace? CPU 超級芯片由兩個 CPU 芯片組成，它們之間通過NVLink?-C2C互連在一起。NVLink?-C2C 是一種新型的高速、低延遲、芯片到芯片的互連技術(shù)。

發(fā)表于 03-23 11:25 ?1995次閱讀

<b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Grace</b> CPU 超級芯片

NVIDIA發(fā)布最新Hopper架構(gòu)的H100系列GPU和Grace CPU超級芯片

今日凌晨，NVIDIA(英偉達(dá))發(fā)布了基于最新Hopper架構(gòu)的H100系列GPU和Grace CPU超級芯片!

發(fā)表于 03-26 09:07 ?2879次閱讀

英偉達(dá)推出NVIDIA Grace CPU

NVIDIA Grace CPU是首款面向AI基礎(chǔ)設(shè)施和高性能計(jì)算的基于Arm Neoverse的數(shù)據(jù)中心專屬CPU，是當(dāng)今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的兩倍。

發(fā)表于 03-30 14:11 ?1716次閱讀

工業(yè)富聯(lián)采用基于英偉達(dá)的超級芯片NVIDIA Grace CPU

5月24日，工業(yè)富聯(lián)宣布采用基于英偉達(dá)NVIDIA HGX、OVX和CGX系統(tǒng)設(shè)計(jì)的超級芯片NVIDIA Grace CPU和NVIDIA Grac

發(fā)表于 05-26 15:17 ?3698次閱讀

NVIDIA Grace超級芯片為HPC及AI工作負(fù)載提速

NVIDIA于今日宣布，多家全球領(lǐng)先的計(jì)算機(jī)制造商正在采用全新NVIDIA Grace?超級芯片打造新一代服務(wù)器，為超大規(guī)模時(shí)代的AI和HPC工作負(fù)載提速。

發(fā)表于 05-31 19:28 ?2468次閱讀

深入解讀NVIDIA Grace Hopper Superchip架構(gòu)

NVIDIA NVLink-C2C 是一種 NVIDIA 內(nèi)存一致性、高帶寬和低延遲的超級芯片互連。它是 Grace Hopper Superchip 的核心，提供高達(dá) 900 GB/s 的總帶寬。這比加速系統(tǒng)中常用的 x16

發(fā)表于 11-18 10:15 ?842次閱讀

深入解讀Grace CPU芯片架構(gòu)

NVIDIA Grace CPU 超級芯片是使用兩個通過 NVLink-C2C 連接的 Grace CPU 構(gòu)建的。該超級芯片建立在現(xiàn)有 Arm 生態(tài)系統(tǒng)的基礎(chǔ)上，為 HPC、要求苛刻的云工作負(fù)載以及高

發(fā)表于 02-02 11:47 ?1270次閱讀

COMPUTEX2023 | 為加速生成式 AI 而設(shè)計(jì)的 NVIDIA Grace Hopper 超級芯片全面投產(chǎn)

由 GH200 驅(qū)動的系統(tǒng)將加入到全球系統(tǒng)制造商基于 NVIDIA Grace、Hopper、Ada Lovelace 架構(gòu)的 400 多種系統(tǒng)配置中 COMPUTEX — 2023 年 5 月

發(fā)表于 05-30 01:40 ?800次閱讀

NVIDIA最強(qiáng)CPU芯片架構(gòu)——NVIDIA Grace CPU

NVIDIA Grace Hopper Superchip將節(jié)能、高帶寬的 NVIDIA Grace CPU 與功能強(qiáng)大的 NVIDIA H

發(fā)表于 08-30 10:45 ?1412次閱讀

NVIDIA Grace Hopper 超級芯片橫掃 MLPerf 推理基準(zhǔn)測試

從云端到網(wǎng)絡(luò)邊緣，NVIDIA GH200、H100 和 L4 GPU 以及 Jetson Orin 模組在運(yùn)行生產(chǎn)級 AI 時(shí)均展現(xiàn)出卓越性能。 NVIDIA GH200 Grace

發(fā)表于 09-12 20:40 ?425次閱讀

NVIDIA Grace Hopper超級芯片橫掃M(jìn)LPerf推理基準(zhǔn)測試

從云端到網(wǎng)絡(luò)邊緣，NVIDIA GH200、H100和L4 GPU以及Jetson Orin模組在運(yùn)行生產(chǎn)級 AI 時(shí)均展現(xiàn)出卓越性能。 ? ? ? NVIDIA GH200 Grace

發(fā)表于 09-13 09:45 ?747次閱讀

NVIDIA推出搭載GB200 Grace Blackwell超級芯片的NVIDIA DGX SuperPOD?

NVIDIA 于太平洋時(shí)間 3 月 18 日發(fā)布新一代 AI 超級計(jì)算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX Sup

發(fā)表于 03-21 09:49 ?693次閱讀