Blackwell 完成的每一項(xiàng)測(cè)試,都為各項(xiàng) AI 應(yīng)用樹立了訓(xùn)練性能新標(biāo)桿。
對(duì)于使用文本、計(jì)算機(jī)代碼、蛋白質(zhì)鏈、摘要、視頻甚至 3D 圖形的生成式 AI 應(yīng)用,它們需要數(shù)據(jù)中心規(guī)模的加速計(jì)算來(lái)高效地訓(xùn)練其背后的大語(yǔ)言模型(LLM)。
在 MLPerf Training 4.1 行業(yè)基準(zhǔn)測(cè)試中,NVIDIA Blackwell 平臺(tái)在所有參與測(cè)試的工作負(fù)載上都取得了令人贊嘆的測(cè)試結(jié)果。在 LLM 基準(zhǔn)測(cè)試中,每塊 GPU 的性能提高了 2.2 倍,其中包括 Llama 2 70B 微調(diào)和 GPT-3 175B 預(yù)訓(xùn)練。
此外,NVIDIA 提交的 NVIDIA Hopper 平臺(tái)測(cè)試結(jié)果繼續(xù)在所有基準(zhǔn)測(cè)試上保持了規(guī)模級(jí)的記錄,包括使用 11,616 塊 Hopper GPU 進(jìn)行的 GPT-3 175B 基準(zhǔn)測(cè)試。
Blackwell 帶來(lái)性能躍升
這是 NVIDIA 首次向 MLCommons 聯(lián)盟提交 Blackwell 的訓(xùn)練測(cè)試結(jié)果,其結(jié)果突顯了該架構(gòu)是如何提高生成式 AI 訓(xùn)練性能的。MLCommons 聯(lián)盟為業(yè)內(nèi)公司創(chuàng)建了標(biāo)準(zhǔn)化、公正且經(jīng)過(guò)嚴(yán)格的同行評(píng)審的測(cè)試。
例如,Blackwell 架構(gòu)包括新的核函數(shù),它們可以更高效地使用 Tensor Core。這些核函數(shù)執(zhí)行優(yōu)化的專用數(shù)學(xué)運(yùn)算,例如矩陣乘,是許多深度學(xué)習(xí)算法的主要計(jì)算。
Blackwell 擁有更高的每塊 GPU 計(jì)算吞吐量以及更大、更快的高帶寬內(nèi)存,使其能夠在更少的 GPU 上運(yùn)行 GPT-3 175B 基準(zhǔn)測(cè)試,同時(shí)實(shí)現(xiàn)出色的每塊 GPU 性能。
通過(guò)利用容量更大、帶寬更高的 HBM3e 內(nèi)存,僅僅 64 塊 Blackwell GPU 就能夠運(yùn)行 GPT-3 LLM 基準(zhǔn)測(cè)試,并且不損失每塊 GPU 性能。使用 Hopper 進(jìn)行相同的基準(zhǔn)測(cè)試時(shí)則需要 256 塊 GPU。
在提交 Blackwell 的訓(xùn)練測(cè)試結(jié)果之前,NVIDIA 還提交了 MLPerf Inference 4.1 推理測(cè)試結(jié)果。在該測(cè)試中,Blackwell 的 LLM 推理性能比 Hopper 高出 4 倍。測(cè)試結(jié)果顯示,通過(guò)利用 Blackwell 架構(gòu)的 FP4 精度以及 NVIDIA QUASAR 量化系統(tǒng),Blackwell 在滿足基準(zhǔn)測(cè)試的精度要求的同時(shí)展現(xiàn)出了強(qiáng)大的性能。
持續(xù)優(yōu)化
經(jīng)過(guò)持續(xù)的軟件開發(fā),NVIDIA 平臺(tái)在各種框架、模型和應(yīng)用的訓(xùn)練和推理方面獲得了性能提升和功能改進(jìn)。
在本輪提交的 MLPerf 訓(xùn)練測(cè)試結(jié)果中,當(dāng)使用 GPT-3 175B 進(jìn)行訓(xùn)練時(shí),Hopper 的每塊 GPU 訓(xùn)練性能比上次提交該基準(zhǔn)測(cè)試時(shí)提高了 1.3 倍。
NVIDIA 還提交了 GPT-3 175B 基準(zhǔn)測(cè)試的大規(guī)模測(cè)試結(jié)果,該測(cè)試使用了 11,616 塊 Hopper GPU,這些 GPU 通過(guò) NVIDIA NVLink 和 NVSwitch 高帶寬 GPU 間通信以及 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)連接在一起。
自去年以來(lái),NVIDIA Hopper GPU 在 GPT-3 175B 基準(zhǔn)測(cè)試中的規(guī)模和性能提升了三倍多。此外,在 Llama 2 70B LoRA 微調(diào)基準(zhǔn)測(cè)試中,NVIDIA 在使用相同數(shù)量的 Hopper GPU 的情況下將性能提高了 26%,這體現(xiàn)了軟件方面的持續(xù)優(yōu)化。
NVIDIA 持續(xù)優(yōu)化加速計(jì)算平臺(tái)的努力,使其 MLPerf 測(cè)試結(jié)果得以不斷提升——提高了容器化軟件的性能,為使用現(xiàn)有平臺(tái)的合作伙伴和客戶帶來(lái)更強(qiáng)大的算力,并讓他們從平臺(tái)投資中獲得更高的回報(bào)。
攜手合作
NVIDIA 的合作伙伴——包括華碩、Azure、思科、戴爾、富士通、Giga Computing、Lambda Labs、聯(lián)想、Oracle Cloud、云達(dá)科技和超微等系統(tǒng)制造商和云服務(wù)提供商——也在最新一輪 MLPerf 測(cè)試中提交了令人印象深刻的測(cè)試結(jié)果。
作為 MLCommons 的創(chuàng)始成員,NVIDIA 認(rèn)為,行業(yè)標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試和基準(zhǔn)測(cè)試最佳實(shí)踐對(duì)于 AI 計(jì)算而言至關(guān)重要。通過(guò)獲取經(jīng)過(guò)同行評(píng)審、精簡(jiǎn)的 AI 和 HPC 各個(gè)平臺(tái)的對(duì)比信息,企業(yè)可以跟上最新的 AI 計(jì)算創(chuàng)新步伐,并獲得有助于指導(dǎo)其重大平臺(tái)投資決策的關(guān)鍵數(shù)據(jù)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4978瀏覽量
102987 -
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128890 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7488瀏覽量
87849 -
LLM
+關(guān)注
關(guān)注
0文章
286瀏覽量
327
原文標(biāo)題:巔峰的訓(xùn)練性能:Blackwell 在 MLPerf 測(cè)試中將訓(xùn)練性能帶到新高度
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論