隨著人工智能(AI)技術(shù)的迅猛發(fā)展,我們正站在第四次工業(yè)革命的風(fēng)暴中, 這場(chǎng)風(fēng)暴也將席卷我們整個(gè)芯片行業(yè),特別是先進(jìn)封裝領(lǐng)域。Chiplet是實(shí)現(xiàn)單個(gè)芯片算力提升的重要技術(shù),也是AI網(wǎng)絡(luò)片內(nèi)互聯(lián)的基礎(chǔ)。而Chiplet先進(jìn)封裝技術(shù)讓AI訓(xùn)練/推理芯片的量產(chǎn)成為可能,所以AI網(wǎng)絡(luò)的物理層底座即芯片先進(jìn)封裝技術(shù)。“
AI技術(shù)的發(fā)展極大地推動(dòng)了對(duì)先進(jìn)封裝技術(shù)的需求,在高密度,高速度,高帶寬這“三高”方面提出了嚴(yán)苛的要求。
高密度:?AI芯片通常包含大量的計(jì)算核心,這需要封裝技術(shù)能夠在有限的空間內(nèi)提供高密度的互聯(lián)方案,以實(shí)現(xiàn)核心間的高效通信。同時(shí),又要保證封裝的散熱、結(jié)構(gòu)、可靠性和可制造性等諸多方面的苛刻挑戰(zhàn)。
高速度:AI處理單元(如GPU、TPU等)之間需要高速的數(shù)據(jù)交換,這要求封裝技術(shù)能夠支持高速信號(hào)傳輸,并且減少信號(hào)通路的衰減和串?dāng)_。
高帶寬:AI處理單元之間在高速傳輸?shù)耐瑫r(shí),如何保證在有效的面積內(nèi)有更高的傳輸帶寬,這就需要從封裝層面、從接口層面一同來(lái)考慮的問題,在有效的面積內(nèi)增加互聯(lián)數(shù)量,提高帶寬。
結(jié)合“三高”提出的要求, 封裝行業(yè)也八仙過(guò)海,各盡所能,紛紛開發(fā)出不同的Chiplet結(jié)構(gòu)及工藝路線??傮w上, 我們從空間維度上劃分,分為:2.xD,2.5D和3D三個(gè),也有一說(shuō)法有3.5D,但在空間維度上最高就是3D。大致上,各個(gè)維度分別對(duì)應(yīng)的技術(shù)如下圖所示,這些技術(shù)往往是由某一家FAB或OSAT獨(dú)家掌握,對(duì)應(yīng)的技術(shù)路線網(wǎng)上也有很多資料,在本文就不詳細(xì)敘述。當(dāng)然,2D封裝可列為是一種傳統(tǒng)的封裝工藝方式,由于沒有用到芯片級(jí)別的曝光、顯影、電鍍等工藝,我們?nèi)匀粚⑵鋭澐值絺鹘y(tǒng)封裝領(lǐng)域,未將其列入 Chiplet層面的封裝。
Chiplet的主要優(yōu)勢(shì)
Chiplet作為AI技術(shù)發(fā)展的一種基礎(chǔ)應(yīng)用技術(shù),其主要優(yōu)勢(shì)在以下幾個(gè)方面。
突破摩爾定律,大幅提升系統(tǒng)集成度和性能
傳統(tǒng)的SoC芯片,把諸多功能模塊都集中在一個(gè)芯片體中,所選Fab工藝節(jié)點(diǎn)需要向上兼容,比如CPU模塊需要7nm, 而Serdes只需要22nm, 為完成整個(gè)SOC,不得不采用7nm工藝進(jìn)行加工,無(wú)形中大幅增加了Fab的工藝難度及成本。而Chiplet將諸多模塊一分為多,各個(gè)模塊選用不同的工藝節(jié)點(diǎn)分別加工流片,最后通過(guò)先進(jìn)封裝組裝在一起,降低了成本也節(jié)約了Fab先進(jìn)制成的產(chǎn)能。
高端SiP技術(shù),各個(gè)芯片可獨(dú)立設(shè)計(jì)/可復(fù)用
SiP(系統(tǒng)級(jí)封裝)面很廣,嚴(yán)格意義上講Chiplet也屬于SiP。由于采用了Chiplet,SoC就可以拆分成多個(gè)芯片,可以彼此獨(dú)立進(jìn)行設(shè)計(jì)流片,分擔(dān)了一家公司全包的運(yùn)營(yíng)及研發(fā)壓力。各個(gè)芯片模塊如標(biāo)準(zhǔn)零件一般,可以復(fù)用在各個(gè)系統(tǒng)中,彼此運(yùn)營(yíng)及研發(fā)的成本也大大降低。
異構(gòu)異質(zhì)集成,突破性能極限
SoC芯片分拆后, 各個(gè)芯片模塊彼此流片,就無(wú)需采用同一種工藝節(jié)點(diǎn)。同時(shí),最關(guān)鍵的,針對(duì)特別模塊,我們可以發(fā)揮更多的想象空間,突破硅基的限制,采用第二、第三代等芯片材料,提高整體系統(tǒng)性能。
減少傳輸路徑,增加系統(tǒng)帶寬,提高整體性能
SoC集成了多個(gè)模塊,且芯片面積較大, 模塊與模塊之間的互聯(lián)往往要跨越整個(gè)芯片,傳輸路徑較大,無(wú)形中降低了系統(tǒng)的整體性能。Chiplet,各個(gè)模塊彼此獨(dú)立,通過(guò)前期架構(gòu)的合理設(shè)計(jì),可以有效的減少傳輸路徑,提高系統(tǒng)帶寬和性能。
各個(gè)模塊獨(dú)立,大幅減小芯片面積并提升良率
Fab廠中, 受限于工藝能力及空氣中的顆粒因素,芯片面積越大,對(duì)應(yīng)的良率越低,SoC芯片拆分為獨(dú)立芯片模塊后,單顆芯片的面積變小,可以有效的提高整體良率,降低成本。
突破光照尺寸限制,增加系統(tǒng)集成
光刻機(jī)的光照Image尺寸一般在33X26=858mm2, SoC芯片也要受光照尺寸的限制,不可能無(wú)限變大,超過(guò)光照尺寸后,工藝及設(shè)備難度都非常大,成本也會(huì)成指數(shù)增長(zhǎng)。Chiplet芯片分叉后,有效的減小了芯片面積,從而降低了光照限制要求。
Chiplet的封裝挑戰(zhàn)
相較于傳統(tǒng)的封裝,封裝處于整個(gè)芯片行業(yè)的末流,在進(jìn)行芯片設(shè)計(jì)的時(shí)候封裝端需要考慮的因素不多,整體重要性不高。Chiplet的誕生與快速發(fā)展,將封裝人員推到了“芯片封裝架構(gòu)師“這一重要的職能。
“封裝架構(gòu)師”,需要從總體上綜合考量諸多因素,包括:
應(yīng)用層次:系統(tǒng)應(yīng)用,帶寬,IP接口等
系統(tǒng)層次:互聯(lián)方式,速度,EDA軟件等
封裝層次:封裝結(jié)構(gòu),散熱,可靠性等
工藝層次:工藝路線,供應(yīng)鏈,材料,設(shè)備等
這些因素彼此之間互為因果,牽一發(fā)而動(dòng)全身給Chiplet帶來(lái)了巨大的挑戰(zhàn)。針對(duì)以往經(jīng)驗(yàn),我們?cè)谶@兒歸納幾點(diǎn)挑戰(zhàn)及相應(yīng)分析:
從系統(tǒng)架構(gòu)到底層工藝
系統(tǒng)架構(gòu)和工藝實(shí)現(xiàn),在芯片行業(yè)里面,貌似一個(gè)是芯片最前端的崗位,而一個(gè)是最后端的職位,在傳統(tǒng)封裝領(lǐng)域,兩者之間的交集不多。但是,在Chiplet時(shí)代這兩者有著密切的聯(lián)系。
我們?cè)诙ㄒ粋€(gè)系統(tǒng)架構(gòu)時(shí),需要考慮到系統(tǒng)的帶寬、速度,功耗等因素, 而這些與我們所選的芯片間互聯(lián)(D2D) IP強(qiáng)相關(guān)。
我們拿UCIe舉例, UCIe作為一種國(guó)際D2D互聯(lián)協(xié)議,它一些主要參數(shù)如下表:
UCIe有S(Standard)、A(Advanced)和3D三種標(biāo)準(zhǔn), 分別用傳統(tǒng)Flipchip封裝、2.5D封裝和3D封裝形式, 三種標(biāo)準(zhǔn)的帶寬密度從UCIe-S的22(GB/s/mm2)到UCIe-3D的4000(GB/s/mm2),差不錯(cuò)相差了181倍之多。即便我們注意到UCIe-3D的速率只有4(GT/s)而UCIe-S的最高速率是32(GT/s),為什么還是有這么大的差距呢?答案就在先進(jìn)封裝工藝上。UCIe-S采用的是傳統(tǒng)Filpchip封裝工藝, bump pitch在130um。而UCIE 3D采用先進(jìn)的Hybrid Bonding(HB)封裝工藝,其bump pitch只有9um, 折算到面積的話相差了208倍,這就解釋了為什么UCIe-3D在速率較低的情況下,整體帶寬密度還是比UCIe-S高了181倍。
基于上面的例子, 先進(jìn)封裝實(shí)現(xiàn)了高密度互聯(lián),而實(shí)現(xiàn)高密度的方法就是HB這種先進(jìn)封裝工藝,系統(tǒng)架構(gòu)通過(guò)先進(jìn)封裝和工藝緊密的聯(lián)系在了一起。而先進(jìn)封裝,如我們之前所舉例,有很多的封裝形式及實(shí)現(xiàn)方式,不同的封裝形式有不同的優(yōu)點(diǎn)和缺點(diǎn),我們?nèi)绾芜x擇合適的封裝形式,從而選擇具體封裝工藝,需要從一開始的架構(gòu)層面就考慮清楚。
穩(wěn)定的供應(yīng)鏈資源
不管選擇那種封裝形式, 都需要在系統(tǒng)及運(yùn)營(yíng)的架構(gòu)層面去考慮整個(gè)供應(yīng)鏈問題,包括:EDA,IP,F(xiàn)AB,OSAT等,如下圖。
AI網(wǎng)絡(luò)構(gòu)建一套高性能芯片系統(tǒng)的時(shí)候,需要考慮很多因素:首先需要考慮的是使用的應(yīng)用場(chǎng)景,滿足哪些協(xié)議標(biāo)準(zhǔn),采用什么EDA工具進(jìn)行設(shè)計(jì)實(shí)現(xiàn),選用的IP種類以及使用哪種D2D PHY來(lái)實(shí)現(xiàn);再者,從選擇什么Fab及工藝方式,采用何種封裝形式、工藝再到選擇OSAT公司,考慮選用的材料及設(shè)備等。這一系列需要考慮的因素,沒有哪家公司可以完全囊括住。這些因素所牽涉的供應(yīng)商類型眾多且不同供應(yīng)商提出的方案也各有千秋,從而形成完整的供應(yīng)鏈體系。
穩(wěn)定可靠的供應(yīng)商資源是整個(gè)先進(jìn)封裝行業(yè)最大的挑戰(zhàn),包括壟斷技術(shù)、產(chǎn)能短缺以及價(jià)格大幅波動(dòng)等。比如說(shuō)COWOS 2.5封裝, TSMC一家獨(dú)大,產(chǎn)能吃緊;又比如之前基板ABF廠家味之素的產(chǎn)能短缺,導(dǎo)致基板交期普遍拉到半年及以上的情況;再到最近AI芯片大火,導(dǎo)致HBM的供不應(yīng)求,一天一價(jià)的狀況;以上無(wú)不說(shuō)明供應(yīng)鏈資源的重要性。AI算力系統(tǒng)商身處芯片及Chiplet這個(gè)大行業(yè)中, 如何保證穩(wěn)定且可靠的供應(yīng)鏈資源也是各家企業(yè)遇到的重點(diǎn)挑戰(zhàn)之一。
從全局考慮問題
Chiplet先進(jìn)封裝使得整個(gè)供應(yīng)鏈變得如此緊密,密不可分。某種意義上來(lái)說(shuō),各個(gè)因素不是單方面影響的,而是互為因果,互相制約的,需要我們從辯證思維的方法來(lái)考量整個(gè)系統(tǒng)。
還是拿UCIe做對(duì)比, 系統(tǒng)商為了滿足系統(tǒng)大帶寬的要求,選擇了UCIe-A作為芯片之間的互聯(lián)標(biāo)準(zhǔn),從而你就選擇了芯片互聯(lián)IP的方式,也選擇了D2D PHY的互聯(lián)形式,進(jìn)而選擇了2.5D這種先進(jìn)封裝形式?;?.5D封裝, 你就基本確定了芯片、Interposer及基板設(shè)計(jì)的團(tuán)隊(duì)及EDA工具,也確定了FAB及OSAT的供貨范圍, 從而有了設(shè)備及材料的范圍。
相反的, 由于材料的限制,比如基板ABF材料,有一系列的物理屬性:熱膨脹性(CTE),會(huì)產(chǎn)生翹曲及應(yīng)力集中,影響到整個(gè)封裝結(jié)構(gòu),影響到FAB及OSAT封裝工藝的實(shí)現(xiàn);導(dǎo)熱性,導(dǎo)熱性能的高低 會(huì)影響到整個(gè)系統(tǒng)的散熱性能及整體結(jié)構(gòu)設(shè)計(jì),影響系統(tǒng)端;電性能(介電常數(shù)Dk&損耗角DF), 基板速度上不去或存在嚴(yán)重串?dāng)_,影響整個(gè)D2D PHY的性能,從而影響一開始的系統(tǒng)帶寬的要求。
綜上,從最上面的帶寬要求,到最下面的材料,彼此是互為因果,相輔相成的。這也要求Chiplet在設(shè)計(jì)的時(shí)候需要總體上綜合考慮,也是設(shè)計(jì)的難點(diǎn),需要豐富的設(shè)計(jì)和實(shí)踐經(jīng)驗(yàn)。
項(xiàng)目經(jīng)驗(yàn)的積累與創(chuàng)新
Chiplet先進(jìn)封裝作為這幾年興起的領(lǐng)域,不管是設(shè)計(jì)公司還是FAB&OSAT都沒有非常豐富的經(jīng)驗(yàn),在這個(gè)過(guò)程中,很多問題可能之前是完全沒有預(yù)料到的。特別是涉及到材料的問題,材料的選擇方面相對(duì)復(fù)雜,很難用某種理論或某個(gè)實(shí)驗(yàn)來(lái)說(shuō)明。
比如說(shuō),最近NVIDA Blackwell良率過(guò)低的問題,其很大一個(gè)原因在于COWOS-L這種工藝上,而TSMC大家都知道之前走的是COWOS-S的工藝,這是一種量產(chǎn)工藝。那大家就要問了, 為什么不繼續(xù)用COWOS-S工藝呢?非得用一種沒有量產(chǎn)經(jīng)驗(yàn)的COWOS-L來(lái)做?主要是因?yàn)椋琒這種工藝是基于硅基Interposer上實(shí)現(xiàn)的, 最后將Interposer及上面的芯片焊接在有機(jī)基板上。一個(gè)硅基,一個(gè)有機(jī),材料不同,彼此的熱膨脹系統(tǒng)(CTE)相差甚多。在Interposer處于小尺寸范圍內(nèi)的時(shí)候,CTE的差距或許不足以在封裝上產(chǎn)生足夠大的應(yīng)力及形變。但是, 隨著系統(tǒng)帶寬的要求越來(lái)越大, Interposer上面需要的HBM及芯片數(shù)量越來(lái)越多,當(dāng)HBM到8個(gè)及以上的時(shí)候,中間的Interposer就需要3.3個(gè)Reticle(3.3x33x26=2831.4mm2)尺寸的時(shí)候,這個(gè)CTE差距就沒法覆蓋了。需要我們創(chuàng)新新的封裝技術(shù)及結(jié)構(gòu), COWOS-L就來(lái)了。
COWOS-L,本質(zhì)上是利用局部Si Bridge的方式替代COWOS-S整體Si Interposer的設(shè)計(jì)。最后的封裝整體還是有機(jī)材料為主,與基板的有機(jī)材料在CTE上做匹配, 降低整個(gè)封裝的翹曲及應(yīng)力集中現(xiàn)象。但是畢竟是新技術(shù),需要時(shí)間的積累;通過(guò)工程師不斷的嘗試,才能保證有穩(wěn)定可靠的封裝量產(chǎn)能力 。
解決這些工程實(shí)際問題,光靠理論及仿真是遠(yuǎn)遠(yuǎn)不夠的。合格的先進(jìn)封裝技術(shù)需要項(xiàng)目經(jīng)驗(yàn)的積累,需要工程實(shí)踐的運(yùn)作,更加需要工程人員的不斷突破創(chuàng)新。
總述
如上面我們所分析的,AI算力芯片必須使用Chiplet先進(jìn)封裝,而先進(jìn)封裝又與系統(tǒng)架構(gòu),設(shè)計(jì)經(jīng)驗(yàn)及供應(yīng)鏈息息相關(guān)。從片內(nèi)互聯(lián)到片間互聯(lián)再到服務(wù)器集群互聯(lián),這些互聯(lián)層面環(huán)環(huán)相扣,Chiplet先進(jìn)封裝技術(shù)的迭代與創(chuàng)新將對(duì)未來(lái)AI芯片的性能產(chǎn)生長(zhǎng)遠(yuǎn)的影響,也可以說(shuō)先進(jìn)封裝技術(shù)是實(shí)現(xiàn)AI高性能計(jì)算/網(wǎng)絡(luò)的物理層底座。任何將產(chǎn)業(yè)鏈上下游生態(tài)剝離的想法都是不切實(shí)際的。
奇異摩爾作為AI網(wǎng)絡(luò)產(chǎn)業(yè)鏈的一環(huán)也是國(guó)內(nèi)Chiplet互聯(lián)領(lǐng)域的先行者。我們的團(tuán)隊(duì)擁有超過(guò)50+高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn),將不斷踐行新質(zhì)生產(chǎn)力,為我國(guó)智算中心的建設(shè)以及國(guó)產(chǎn)大算力芯片的性能突破貢獻(xiàn)技術(shù)力量。
評(píng)論
查看更多