電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)日前,英特爾、谷歌、微軟、Meta以及其他科技巨頭宣布成立一個(gè)新的行業(yè)組織——“Ultra Accelerator Link (UALink) 推廣組”。目前,UALink推廣組正在抓緊制定一項(xiàng)新的行業(yè)標(biāo)準(zhǔn),用于推進(jìn)數(shù)據(jù)中心內(nèi)連接的大規(guī)模AI系統(tǒng)的高速和低延遲通信,擺脫英偉達(dá)NVLink在AI加速器連接方面的統(tǒng)治。
對于這項(xiàng)新的行業(yè)標(biāo)準(zhǔn),AMD數(shù)據(jù)中心解決方案總經(jīng)理Forrest Norrod表示,“行業(yè)需要一個(gè)可以快速推進(jìn)的開放標(biāo)準(zhǔn),這種標(biāo)準(zhǔn)允許多家公司為整個(gè)生態(tài)系統(tǒng)增加價(jià)值?!?br />
英偉達(dá)統(tǒng)治AI加速器市場
有分析觀點(diǎn)認(rèn)為,英偉達(dá)在AI加速器方面的統(tǒng)治力,已經(jīng)超過了當(dāng)年英特爾對于PC處理器的統(tǒng)治,這讓英偉達(dá)享受到了AI時(shí)代巨大的產(chǎn)業(yè)紅利。根據(jù)英偉達(dá)2025財(cái)年第一財(cái)季財(cái)報(bào),該公司營收達(dá)到260億美元,同比增長262%;凈利潤高達(dá)148.1億美元,同比上升628%。
那么,英偉達(dá)為什么能夠在AI加速器領(lǐng)域體現(xiàn)出如此強(qiáng)悍的統(tǒng)治力呢?筆者認(rèn)為主要源于三點(diǎn):核心芯片、軟件生態(tài)和連接技術(shù)。
在核心芯片方面,時(shí)間回溯到2020年,在GTC 2020上,英偉達(dá)推出了基于Ampere架構(gòu)的新一代GPU——NVIDIA A100,這顆芯片作為通用型工作負(fù)載加速器,成為國內(nèi)外AI科技巨頭爭搶購買的芯片,此后甚至被禁止出口到中國市場。NVIDIA A100展現(xiàn)了AI加速器發(fā)展的“暴力美學(xué)”,以英偉達(dá)的數(shù)據(jù)來說,NVIDIA A100相較于前一代性能暴漲了20倍。在GTC 2024上,英偉達(dá)又推出了B100芯片,架構(gòu)代號為Blackwell,顯存達(dá)192GB。在AI加速器芯片方面,英偉達(dá)并不是單單某一顆產(chǎn)品強(qiáng),而是擁有一個(gè)強(qiáng)大的產(chǎn)品矩陣。在架構(gòu)方面,英偉達(dá)陸續(xù)推出了Volta架構(gòu)、Turing架構(gòu)、Ampere架構(gòu)、Hopper架構(gòu)和Blackwell架構(gòu),提供B100、H200、L40S、A100、A800、H100、H800、V100等眾多的芯片產(chǎn)品組合。
同時(shí),針對這些產(chǎn)品,英偉達(dá)提供強(qiáng)大的軟件支持。就以英偉達(dá)的CUDA生態(tài)來說,無論是通用加速,還是計(jì)算加速,CUDA生態(tài)都能夠提供充足的支持。英偉達(dá)自2006年推出CUDA以來,CUDA和GPU的并行計(jì)算能力使英偉達(dá)收獲了龐大的用戶群。CUDA 平臺(tái)包括硬件架構(gòu)和編程模型,為開發(fā)人員提供了更直接、高效地利用 GPU 進(jìn)行并行計(jì)算的方式。在COMPUTEX 2023 大會(huì)期間,英偉達(dá)方面透露的數(shù)據(jù)顯示,目前CUDA擁有超過400萬開發(fā)人員,超過 3000個(gè)應(yīng)用程序,歷史上CUDA下載量達(dá)到驚人的4000萬。更讓當(dāng)前階段CUDA顯得炙手可熱的是,僅僅是在2022年,CUDA下載量就有驚人的2500萬,目前依然在高速增長的狀態(tài)。
英偉達(dá)在AI加速器方面,第三個(gè)顯著的優(yōu)勢就是連接技術(shù)。AI算力集群是人工智能發(fā)展的重要基礎(chǔ)設(shè)施,就以當(dāng)前最火熱的AI大模型來說,單卡是無法支撐的,需要一個(gè)強(qiáng)大的AI算力集群。如果是基于英偉達(dá)算力卡的集群,那么主要的連接技術(shù)是NVLink和InfiniBand技術(shù),分別負(fù)責(zé)近距離并行計(jì)算和擴(kuò)大集群規(guī)模。NVLink可以直接完成GPU之間內(nèi)存的互相訪問,無需CPU的干預(yù)。目前英偉達(dá)NVLink已經(jīng)更新到了第五代,第五代NVLink大幅提高了大型多GPU系統(tǒng)的可擴(kuò)展性。單個(gè)NVIDIA Blackwell Tensor Core GPU支持多達(dá)18個(gè)NVLink 100 GB/s連接,總帶寬可達(dá)1.8 TB/s,比上一代產(chǎn)品提高了兩倍,是PCIe 5.0帶寬的14倍之多。72-GB200 GPU NVLink域(NVL72)等服務(wù)器平臺(tái)利用該技術(shù)為當(dāng)今異常復(fù)雜的大型模型提供更高的可擴(kuò)展性。
同時(shí),英偉達(dá)還有NVSwitch。NVSwitch芯片是一種類似交換機(jī)ASIC的物理芯片,通過NVLink接口可以將多個(gè)GPU高速互聯(lián)到一起,從而提升服務(wù)器內(nèi)部多個(gè)GPU之間的通訊效率和帶寬。比如,NVIDIA A100 Tensor Core GPU引入了第三代 NVLink和第二代 NVSwitch,使每CPU帶寬和減少帶寬都增加了一倍。如果是通過第四代 NVLink和第三代NVSwitch,可以連接八個(gè)NVIDIA H100 Tensor Core GPU的系統(tǒng),具有3.6 TB / s的二等分帶寬和450 GB / s的縮減操作帶寬,與上一代相比,這兩個(gè)數(shù)字分別增加了1.5倍和3倍。
綜上所述,英偉達(dá)在AI加速器方面擁有非常全面的布局,且這種系統(tǒng)性方案是目前最好的AI加速方式,沒有之一。統(tǒng)計(jì)數(shù)據(jù)顯示,目前英偉達(dá)在AI加速器芯片市場的占比超過了九成,被稱為人工智能領(lǐng)域“無可爭議的領(lǐng)導(dǎo)者”。當(dāng)然,這也就意味著,除英偉達(dá)AI加速器芯片外,其他廠商的芯片很難捕捉到市場機(jī)會(huì),即便是國際大廠推出的相關(guān)芯片。一個(gè)重要的原因在于,英偉達(dá)這套圍繞AI加速器布局的系統(tǒng),不僅強(qiáng)大而且封閉,對非英偉達(dá)芯片的兼容性很差,這也被稱為AI芯片發(fā)展的“英偉達(dá)路徑”。讓廠商很絕望的是,如果選擇順從這條路徑,其產(chǎn)品也無法對英偉達(dá)芯片造成很大的沖擊,除非是面向某些特殊的用途。
因此,英特爾、谷歌等科技巨頭現(xiàn)在希望從連接入手,在英偉達(dá)AI加速器生態(tài)圈上撕開一個(gè)口子,以獲取更多的市場份額。
UALink野心勃勃但也有隱憂
除了英特爾、谷歌、微軟、Meta這四家,UALink聯(lián)盟成員還包括AMD、惠普企業(yè)、博通和思科等,不過作為主要的核心供應(yīng)商,Arm公司尚未參加。UALink聯(lián)盟的主要職責(zé)是監(jiān)督UALink規(guī)范未來的發(fā)展。
UALink聯(lián)盟認(rèn)為,UALink和行業(yè)規(guī)范對于標(biāo)準(zhǔn)化下一代AI數(shù)據(jù)中心和實(shí)現(xiàn)的 AI 和機(jī)器學(xué)習(xí)、HPC 和云應(yīng)用程序接口至關(guān)重要,該小組將制定一項(xiàng)規(guī)范,定義AI計(jì)算艙中加速器和交換機(jī)之間擴(kuò)展通信的高速、低延遲互連。
目前,UALink聯(lián)盟提議的第一個(gè)版本UALink 1.0連接多達(dá)1024個(gè)AI加速器,UALink 1.0基于包括AMD的Infinity Fabric在內(nèi)的開放標(biāo)準(zhǔn)。AMD的Infinity Fabric采用了一種分布式架構(gòu),其中包含多個(gè)獨(dú)立的通道,每個(gè)通道都可以進(jìn)行雙向數(shù)據(jù)傳輸。這種設(shè)計(jì)使得不同核心之間可以直接進(jìn)行快速而低延遲的通信,從而提高了整體性能。Infinity Fabric分為SCF和SDF。SDF負(fù)責(zé)數(shù)據(jù)傳輸,而SCF則負(fù)責(zé)控制傳輸命令。
從技術(shù)演進(jìn)來看,如果Infinity Fabric技術(shù)成為UALink規(guī)范的主要組成部分,那么用戶可能會(huì)擔(dān)心UALink 1.0最終的連接效率問題。據(jù)悉,Infinity Fabric中的SDF部分基本是HT總線衍生的產(chǎn)物,這個(gè)總線原本是用于CPU的串聯(lián),而UALink 1.0的使用場景是GPGPU,兩者之間在并行數(shù)據(jù)量要求方面差異巨大。因此,有業(yè)者認(rèn)為,UALink 1.0規(guī)范預(yù)計(jì)不會(huì)規(guī)模性進(jìn)入市場,只是奠定UALink規(guī)范的基礎(chǔ)框架,但很難對NVLink+NVSwitch這套體系造成很大的挑戰(zhàn)。
當(dāng)然,博通和思科會(huì)積極地完善UALink 1.0以及后續(xù)的標(biāo)準(zhǔn),博通可能會(huì)在800Gbps的 Thor產(chǎn)品中推出一款早期的Ultra Ethernet NIC,思科則預(yù)計(jì)將研發(fā)對標(biāo)NVSwitch的相關(guān)產(chǎn)品。另外,目前已經(jīng)加入的各家巨頭,也都是各自有自己的小算盤:谷歌擁有用于訓(xùn)練和運(yùn)行 AI 模型的定制芯片、TPU和Axion;微軟Maia 100新芯片已經(jīng)在Bing和Office AI產(chǎn)品上測試,急于進(jìn)入市場;Meta此前公布了自主研發(fā)芯片MTIA的最新版本,這是專門為AI訓(xùn)練和推理工作設(shè)計(jì)的定制芯片系列。因此,有觀點(diǎn)認(rèn)為,一旦UALink成事,那么這些擁有自研芯片的公司將成為最大的受益者。但是,由于各自研芯片公司在芯片、架構(gòu)、集群層面的理解不一,這也可能拖累UALink的發(fā)展,使得UALink雖然看上去有大批的創(chuàng)新力量,但是創(chuàng)新效率卻不足。
結(jié)語
據(jù)悉,UALink 1.0將在同一時(shí)間向加入該聯(lián)盟的公司提供,另外帶寬更高的更新規(guī)范UALink 1.1將于2024年第四季度推出。由于英偉達(dá)不在這個(gè)聯(lián)盟,也不必參加這個(gè)聯(lián)盟,預(yù)計(jì)UALink 1.1推出時(shí)可能會(huì)選擇直接對標(biāo)某一代的NVLink。不過,在UALink能夠全面對抗NVLink之前,包括微軟和Meta在內(nèi)的公司依然是大規(guī)模哄搶英偉達(dá)的AI加速器芯片。
-
英特爾
+關(guān)注
關(guān)注
61文章
9949瀏覽量
171692 -
谷歌
+關(guān)注
關(guān)注
27文章
6161瀏覽量
105299 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3770瀏覽量
90982
發(fā)布評論請先 登錄
相關(guān)推薦
評論