NVIDIA A100 80G PCIe、NVIDIA NDR 400G InfiniBand和NVIDIA Magnum IO三箭齊發(fā)!超強(qiáng)HGX助力廣大HPC系統(tǒng)和云服務(wù)
NVIDIA宣布在NVIDIA HGX AI超級(jí)計(jì)算平臺(tái)中加入融合了AI與高性能計(jì)算的新技術(shù),使越來(lái)越多的行業(yè)能夠更加充分地利用超級(jí)計(jì)算的力量。
為了加快產(chǎn)業(yè)AI和HPC新時(shí)代的到來(lái),NVIDIA在HGX平臺(tái)中加入了三項(xiàng)關(guān)鍵技術(shù):NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand網(wǎng)絡(luò)和NVIDIA Magnum IO GPUDirect Storage軟件。三者結(jié)合,提供了卓越的性能,以實(shí)現(xiàn)產(chǎn)業(yè) HPC 的創(chuàng)新。
目前,已有數(shù)十家合作伙伴將NVIDIA HGX平臺(tái)用于新一代系統(tǒng)和解決方案,其中包括源訊(Atos)、戴爾科技(Dell Technologies,)、慧與(Hewlett Packard Enterprise )、聯(lián)想(Lenovo)、Microsoft Azure以及NetApp等。
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛先生表示:“HPC 革命始于學(xué)術(shù)界,并迅速擴(kuò)展到各行各業(yè)。產(chǎn)業(yè)各項(xiàng)關(guān)鍵趨勢(shì)正在推動(dòng)超指數(shù)、超摩爾定律的發(fā)展速度,使HPC變成各行業(yè)都能使用的工具。NVIDIA 的 HGX 平臺(tái)為研究人員提供了卓越的高性能計(jì)算加速能力,以解決行業(yè)面臨的那些最棘手的問題。”
行業(yè)領(lǐng)導(dǎo)者使用 HGX 平臺(tái)推動(dòng)創(chuàng)新突破
高科技產(chǎn)業(yè)先驅(qū)者通用電氣正在使用HGX 平臺(tái),將 HPC 創(chuàng)新應(yīng)用于計(jì)算流體動(dòng)力學(xué)模擬,以指導(dǎo)大型燃?xì)廨啓C(jī)和噴氣發(fā)動(dòng)機(jī)的設(shè)計(jì)創(chuàng)新。HGX平臺(tái)在通用電氣的 GENESIS 代碼中實(shí)現(xiàn)了突破性CFD 方法的數(shù)量級(jí)加速,該代碼采用大渦模擬來(lái)研究渦輪機(jī)內(nèi)部湍流的影響。渦輪機(jī)由數(shù)百個(gè)單獨(dú)的葉片組成,需要獨(dú)特的復(fù)雜幾何形狀。
除了推動(dòng)產(chǎn)業(yè) HPC 轉(zhuǎn)型外,HGX平臺(tái)還在加速世界各地的科學(xué) HPC 系統(tǒng),包括同樣在今日宣布的位于愛丁堡大學(xué)的新一代超級(jí)計(jì)算機(jī)。
NVIDIA A100 80GB PCIe GPU提升AI和HPC性能
NVIDIA A100 TensorCore GPU提供了前所未有的HPC加速能力,解決了與產(chǎn)業(yè)HPC相關(guān)的復(fù)雜AI、數(shù)據(jù)分析、模型訓(xùn)練和計(jì)算模擬等挑戰(zhàn)。與A100 40GB相比,A100 80GB PCIe GPU的內(nèi)存帶寬增加了25%,達(dá)到2TB/s,并且提供80GB的HBM2e高帶寬內(nèi)存。
A100 80GB PCIe的巨大內(nèi)存容量與高內(nèi)存帶寬,可以保存更多的數(shù)據(jù)和更大的神經(jīng)網(wǎng)絡(luò),從而最大限度地減少節(jié)點(diǎn)間通信和能耗。憑借其更快的內(nèi)存帶寬,研究人員能夠獲得更高的吞吐量和更快得到結(jié)果,實(shí)現(xiàn)IT投資價(jià)值的最大化。
A100 80GB PCIe GPU基于NVIDIA Ampere架構(gòu)。該架構(gòu)內(nèi)置Multi-Instance GPU(MIG)功能,可為AI推理等小型工作負(fù)載提供加速。MIG允許HPC系統(tǒng)縮小計(jì)算和內(nèi)存規(guī)模的同時(shí)并保證服務(wù)質(zhì)量。除了PCIe之外,還有四卡和八卡的NVIDIA HGX A100配置。
NVIDIA合作伙伴為A100 80GB PCIe GPU提供了廣泛的支持,包括源訊(Atos)、思科(Cisco)、戴爾科技(Dell Technologies)、富士通(Fujitsu)、新華三(H3C)、慧與(Hewlett Packard Enterprise )、浪潮(Inspur)、聯(lián)想(Lenovo)、PenguinComputing、云達(dá)科技(QCT)以及超微(Supermicro)。通過NVLink 互連的基于 A100 GPU 的HGX 平臺(tái)也可通過來(lái)自 AWS (Amazon Web Services)、Microsoft Azure 和Oracle Cloud Infrastructure 的云服務(wù)獲得。
新一代NDR 400Gb/s InfiniBand交換機(jī)系統(tǒng)
NVIDIA InfiniBand是全球唯一具有完全卸載功能的網(wǎng)絡(luò)計(jì)算的互連系統(tǒng),為那些需要超大數(shù)據(jù)通道的HPC系統(tǒng)提供超強(qiáng)支持。通過NDR InfiniBand網(wǎng)絡(luò)可以輕松擴(kuò)展性能,以應(yīng)對(duì)產(chǎn)業(yè)HPC和科學(xué)HPC系統(tǒng)面臨的大量挑戰(zhàn)?;贜VIDIA Quantum-2單芯片的交換機(jī)系統(tǒng)可提供64個(gè)NDR 400Gb/s InfiniBand端口(或128個(gè)NDR200端口),其端口密度比HDR InfiniBand高出3倍。
NVIDIA Quantum-2模塊化交換機(jī)提供了可擴(kuò)展的端口配置選項(xiàng),最高可提供2048個(gè)NDR400Gb/s InfiniBand端口(或4096個(gè)NDR200端口),雙向總吞吐量達(dá)到1.64Pb/s,是上一代HDR InfiniBand模塊化交換機(jī)系列的5倍。相比上一代,這款2048端口交換機(jī)的擴(kuò)展能力增加了6.5倍,采用DragonFly+網(wǎng)絡(luò)拓?fù)洌恍枞齻€(gè)網(wǎng)絡(luò)Hop就能連接超過一百萬(wàn)個(gè)節(jié)點(diǎn)。第三代 NVIDIA SHARP 網(wǎng)絡(luò)計(jì)算數(shù)據(jù)歸約技術(shù),比上一代的AI 加速能力提高了 32 倍,可大幅提升高性能產(chǎn)業(yè)和科學(xué)應(yīng)用的性能。
此外,NVIDIA UFM Cyber-AI平臺(tái)還提供了先進(jìn)的管理功能,如網(wǎng)絡(luò)自修復(fù)功能等,以及NVIDIA網(wǎng)絡(luò)計(jì)算加速引擎,進(jìn)一步將數(shù)據(jù)中心的停機(jī)時(shí)間降至最低。
基于行業(yè)標(biāo)準(zhǔn)的NVIDIA Quantum-2 交換機(jī)(預(yù)計(jì)在年底前可出樣品)具有向后和向前的兼容性,可以輕松遷移和擴(kuò)展現(xiàn)有系統(tǒng)和軟件。
包括源訊(Atos)、DDN、戴爾科技(DellTechnologies)、Excelero 、技嘉科技(GIGABYTE)、慧與(HPE)、聯(lián)想(Lenovo)、PenguinComputing、云達(dá)科技(QCT)、超微(Supermicro)、VAST以及 WekaIO 在內(nèi)的業(yè)內(nèi)領(lǐng)先基礎(chǔ)設(shè)施制造商等,均計(jì)劃將Quantum-2 NDR 400Gb/s InfiniBand交換機(jī)集成到其企業(yè)級(jí)產(chǎn)品和HPC產(chǎn)品中。另外,包括Azure在內(nèi)的云服務(wù)供應(yīng)商們也正在使用InfiniBand技術(shù)。
Magnum IO GPUDirect Storage介紹
Magnum IO GPUDirect Storage提供GPU內(nèi)存和存儲(chǔ)之間的直接內(nèi)存訪問,實(shí)現(xiàn)了優(yōu)異的復(fù)雜工作負(fù)載處理性能。這條直接的通路讓應(yīng)用程序從低I/O延遲中受益,并能夠充分利用到網(wǎng)卡的全部帶寬,同時(shí)減少CPU在通信中的負(fù)載,并可以管理逐漸增加的數(shù)據(jù)消耗所產(chǎn)生的影響。
支持 Magnum IO GPUDirect Storage(現(xiàn)已上市)的行業(yè)領(lǐng)導(dǎo)者包括 DDN、戴爾科技(Dell Technologies)、Excelero、慧與(HPE)、IBM Storage、Micron、NetApp、Pavilion、ScaleFlux、VAST 和 WekaIO。
想要了解 NVIDIA 的 Marc Hamilton 的最新消息和參與 NVIDIA HPC 專家的現(xiàn)場(chǎng)問答,請(qǐng)?jiān)诒本r(shí)間6月29日中午12點(diǎn)30分收聽 NVIDIA ISC2021 特別演講。
編輯:jq
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886 -
超級(jí)計(jì)算
+關(guān)注
關(guān)注
1文章
39瀏覽量
11275 -
HPC
+關(guān)注
關(guān)注
0文章
315瀏覽量
23753 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1445瀏覽量
34050
原文標(biāo)題:ISC2021 | NVIDIA與全球合作伙伴聯(lián)合發(fā)布全新HGX A100系統(tǒng),為產(chǎn)業(yè)AI和HPC提速
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論