1997年,IBM的“深藍(lán)”超級(jí)計(jì)算機(jī)打敗了國際象棋世界冠軍加里?卡斯帕羅夫。這是超級(jí)計(jì)算機(jī)技術(shù)的一次突破性展示,也首次讓人們看到了高性能計(jì)算有一天可能超越人類智能。在接下來的十年里,我們開始將人工智能用于許多實(shí)際任務(wù),如面部識(shí)別、語言翻譯以及電影和商品推薦。
又過了15年,人工智能已經(jīng)發(fā)展到可以“結(jié)合知識(shí)”的地步。ChatGPT和Stable Diffusion等生成式人工智能可以寫詩、創(chuàng)作藝術(shù)作品、診斷疾病、編寫總結(jié)報(bào)告和計(jì)算機(jī)代碼,甚至可以設(shè)計(jì)出與人類設(shè)計(jì)相媲美的集成電路。
人工智能很有可能成為未來所有人類活動(dòng)的數(shù)字助手。ChatGPT就是一個(gè)很好的例子,它展示了人工智能有助于推動(dòng)高性能計(jì)算的普及性應(yīng)用,為社會(huì)中的每一個(gè)人帶來益處。
所有這些奇妙的人工智能應(yīng)用都?xì)w功于3個(gè)因素:高效機(jī)器學(xué)習(xí)算法的創(chuàng)新、可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的海量數(shù)據(jù),以及通過半導(dǎo)體技術(shù)發(fā)展實(shí)現(xiàn)的節(jié)能計(jì)算進(jìn)步。雖然最后這一項(xiàng)貢獻(xiàn)無處不在,但它在生成式人工智能革命中的重要性卻未得到應(yīng)有的重視。
在過去30年里,人工智能的重要里程碑都是通過當(dāng)時(shí)最先進(jìn)的半導(dǎo)體技術(shù)實(shí)現(xiàn)的,沒有它們,這些里程碑就不可能實(shí)現(xiàn)。深藍(lán)計(jì)算機(jī)是通過結(jié)合0.6微米和0.35微米節(jié)點(diǎn)的芯片制造技術(shù)實(shí)現(xiàn)的;贏得ImageNet競賽并開啟當(dāng)前機(jī)器學(xué)習(xí)時(shí)代的深度神經(jīng)網(wǎng)絡(luò)是用40納米技術(shù)實(shí)現(xiàn)的;AlphaGo使用28納米技術(shù)征服了圍棋世界,初版ChatGPT是在采用5納米技術(shù)的計(jì)算機(jī)上訓(xùn)練的。而最新版的ChatGPT則依靠使用了更先進(jìn)的4納米技術(shù)的服務(wù)器提供支持。從軟件和算法到架構(gòu)、電路設(shè)計(jì)和設(shè)備技術(shù),人工智能所涉及的每一層計(jì)算機(jī)系統(tǒng)都是提高人工智能性能的倍增器。但公平地說,基礎(chǔ)晶體管技術(shù)是實(shí)現(xiàn)上層進(jìn)步的關(guān)鍵。
如果人工智能革命要繼續(xù)按照當(dāng)前的速度發(fā)展下去,將需要半導(dǎo)體行業(yè)提供更多的支持。10年內(nèi),它將需要擁有1萬億個(gè)晶體管的GPU,是目前常見GPU所擁有的晶體管數(shù)量的10倍。
人工智能模型規(guī)模的持續(xù)增長
過去5年里,人工智能訓(xùn)練所需的計(jì)算能力和內(nèi)存訪問量提高了幾個(gè)數(shù)量級(jí)。例如,訓(xùn)練GPT-3需要相當(dāng)于每秒超過5000千萬億次的運(yùn)算持續(xù)一整天,并需要3萬億字節(jié)(3TB)的內(nèi)存容量。
新的生成式人工智能應(yīng)用所需的計(jì)算能力和內(nèi)存訪問量還在繼續(xù)快速增長?,F(xiàn)在,我們需要回答一個(gè)緊迫的問題:半導(dǎo)體技術(shù)如何才能跟上這一步伐?
從集成器件到集成芯粒
自集成電路發(fā)明以來,半導(dǎo)體技術(shù)一直致力于縮小特征尺寸,以便將更多的晶體管塞進(jìn)極小的芯片中。今天,集成已經(jīng)上升到了一個(gè)更高的層次;我們將超越二維縮放,進(jìn)入三維系統(tǒng)集成。我們正在將許多芯片組裝成一個(gè)緊密集成的大規(guī)模互連系統(tǒng)。這是半導(dǎo)體技術(shù)集成的范式轉(zhuǎn)變。
在人工智能時(shí)代,系統(tǒng)能力直接與系統(tǒng)集成的晶體管數(shù)量成正比。限制晶體管集成數(shù)量的主要因素之一是光刻芯片制造工具被設(shè)計(jì)成只能制造不超過約800平方毫米的集成電路,這被稱為“光罩限制”。但現(xiàn)在,我們可以將集成系統(tǒng)的尺寸擴(kuò)展到光刻技術(shù)的光罩限制之外。通過將幾塊芯片連接到一個(gè)更大的中介層(一塊內(nèi)置互連的硅片)上,我們可以集成一個(gè)能夠比單芯片包含更多器件的系統(tǒng)。例如,臺(tái)積電的基板上晶圓芯片(CoWoS)技術(shù)可以容納多達(dá)6個(gè)光罩范圍的計(jì)算芯片,以及十幾個(gè)高帶寬存儲(chǔ)器(HBM)芯片。
高帶寬存儲(chǔ)器是另一種對(duì)人工智能而言越來越重要的關(guān)鍵半導(dǎo)體技術(shù):該技術(shù)可將芯片堆疊在一起進(jìn)行系統(tǒng)集成,臺(tái)積電稱之為“集成片上系統(tǒng)”(SoIC)。高帶寬存儲(chǔ)器由一堆動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)垂直互連芯片組成,位于控制邏輯集成電路之上。它使用了稱為“硅通孔”的垂直互連來讓信號(hào)通過每塊芯片,并使用了焊錫球連接內(nèi)存芯片。如今,高性能圖形處理器(GPU)廣泛使用了高帶寬存儲(chǔ)器。
未來,3D 系統(tǒng)級(jí)集成單芯片技術(shù)可以為目前的常規(guī)高帶寬存儲(chǔ)器技術(shù)提供替代方案,在堆疊芯片之間實(shí)現(xiàn)更密集的垂直互連。最新進(jìn)展顯示,高帶寬存儲(chǔ)器測試結(jié)構(gòu)使用混合鍵合堆疊了12層芯片,相較于目前使用的焊錫球,這種銅對(duì)銅連接實(shí)現(xiàn)了更高的密度。這種內(nèi)存系統(tǒng)在低溫下在較大的基礎(chǔ)邏輯芯片之上進(jìn)行鍵合,總厚度僅為600微米。
隨著由大量芯片組成的高性能計(jì)算系統(tǒng)運(yùn)行大型人工智能模型,高速有線通信可能很快會(huì)限制計(jì)算速度。如今,數(shù)據(jù)中心已經(jīng)在使用光互連來連接服務(wù)器機(jī)架。很快,我們將需要基于硅光子技術(shù)與GPU和中央處理器(CPU)一起封裝的光學(xué)接口。它們將提高帶寬的能源效率和面積效率,實(shí)現(xiàn)直接的GPU到GPU光學(xué)通信,使成百上千臺(tái)服務(wù)器像一個(gè)具有統(tǒng)一內(nèi)存的巨型GPU一樣工作。人工智能應(yīng)用的需求將讓硅光子技術(shù)將成為半導(dǎo)體行業(yè)最重要的使能技術(shù)之一。
邁向萬億晶體管GPU
如前所述,用于人工智能訓(xùn)練的典型GPU芯片已經(jīng)達(dá)到了光罩范圍限制,其晶體管數(shù)量約為1000億個(gè)。要持續(xù)晶體管數(shù)量增多的趨勢,將需要用2.5D或3D集成互連的多芯片來執(zhí)行計(jì)算。通過基板上晶圓芯片、集成片上系統(tǒng)或相關(guān)的先進(jìn)封裝技術(shù)集成多個(gè)芯片,可以使每個(gè)系統(tǒng)的總晶體管數(shù)量遠(yuǎn)遠(yuǎn)超過單塊芯片所能容納芯片的數(shù)量。我們預(yù)測,在10年內(nèi),一個(gè)多芯粒GPU將擁有超過1萬億個(gè)晶體管。
我們需要在一個(gè)3D堆棧中將所有這些芯粒連接起來,不過幸運(yùn)的是,業(yè)界已經(jīng)能夠迅速縮小垂直互連的間距,從而提高連接的密度,而且還有很大的進(jìn)步空間。我們認(rèn)為互連密度完全可以提高一個(gè)數(shù)量級(jí),甚至更多。
GPU的能效性能趨勢
那么,這些硬件創(chuàng)新技術(shù)將如何提升系統(tǒng)性能?
如果關(guān)注能效性能(EEP)這一指標(biāo)的穩(wěn)步提升,我們便可以從服務(wù)器GPU中看到這一趨勢。能效性能是系統(tǒng)能源效率和速度的綜合衡量指標(biāo)。在過去15年里,半導(dǎo)體行業(yè)的能效性能每兩年提高大約3倍。我們相信這一趨勢將按照歷史速度繼續(xù)。它將受到來自多方面創(chuàng)新的推動(dòng),包括新材料、設(shè)備和集成技術(shù)、極紫外光刻、電路設(shè)計(jì)、系統(tǒng)架構(gòu)設(shè)計(jì)以及所有這些技術(shù)元素的協(xié)同優(yōu)化等。
特別是我們?cè)诖擞懻摰南冗M(jìn)封裝技術(shù),它將推動(dòng)能效性能的提高。此外,系統(tǒng)技術(shù)協(xié)同優(yōu)化等概念也會(huì)越來越重要,系統(tǒng)技術(shù)協(xié)同優(yōu)化是將GPU的不同功能部分分散到各自的芯粒上,并使用性能最佳、最經(jīng)濟(jì)的技術(shù)來構(gòu)建每個(gè)部分。
3D集成電路的米德-康維時(shí)刻
1978年,加州理工學(xué)院教授卡沃?米德(Carver Mead)和施樂帕洛阿爾托研究中心的琳?康維(Lynn Conway)發(fā)明了一種用于集成電路的計(jì)算機(jī)輔助設(shè)計(jì)方法。他們使用了一套設(shè)計(jì)規(guī)則來描述芯片尺寸,使工程師無須深入了解工藝技術(shù)就能輕松設(shè)計(jì)超大規(guī)模集成電路。
現(xiàn)在,3D芯片設(shè)計(jì)也需要類似的能力。如今的設(shè)計(jì)師需要了解芯片設(shè)計(jì)、系統(tǒng)架構(gòu)設(shè)計(jì)以及軟硬件優(yōu)化。制造商需要了解芯片技術(shù)、3D集成電路技術(shù)和先進(jìn)封裝技術(shù)。正如1978年那樣,我們?cè)俅涡枰环N描述這些技術(shù)的通用語言,讓電子設(shè)計(jì)工具能夠理解這些技術(shù)。這種硬件描述語言可以讓設(shè)計(jì)師自由地進(jìn)行3D集成電路系統(tǒng)設(shè)計(jì),而不必考慮底層技術(shù)。這種語言已經(jīng)在發(fā)展之中了,一種名為3Dblox的開源標(biāo)準(zhǔn)已經(jīng)被當(dāng)今大多數(shù)技術(shù)公司和電子設(shè)計(jì)自動(dòng)化公司接受。
隧道盡頭的未來
在人工智能時(shí)代,半導(dǎo)體技術(shù)是推動(dòng)新的人工智能能力和應(yīng)用發(fā)展的關(guān)鍵因素。新的GPU不再受制于過去的標(biāo)準(zhǔn)尺寸和形式因素。新的半導(dǎo)體技術(shù)不再局限于在二維平面上來縮小下一代晶體管。人工智能集成系統(tǒng)可以由盡可能多的節(jié)能晶體管、專用計(jì)算工作負(fù)載的高效系統(tǒng)架構(gòu)以及軟硬件優(yōu)化關(guān)系組成。
在過去50年里,半導(dǎo)體技術(shù)的發(fā)展就像在隧道中行走。前方的道路是清晰的,因?yàn)橛幸粭l明確的路徑,而且大家都知道需要縮小晶體管。
現(xiàn)在,我們已經(jīng)走到了隧道的盡頭,之后的半導(dǎo)體技術(shù)將越來越難開發(fā)。然而在隧道之外,還有更多的可能性在等待著我們。
-
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128888 -
晶體管
+關(guān)注
關(guān)注
77文章
9682瀏覽量
138077 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238209
原文標(biāo)題:通往萬億晶體管GPU之路
文章出處:【微信號(hào):bdtdsj,微信公眾號(hào):中科院半導(dǎo)體所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論