Chiplet 概述
過去幾十年來,半導(dǎo)體行業(yè)一直按照摩爾定律的規(guī)律發(fā)展,憑借著芯片制造工藝的迭代,使得每18個月芯片性能提升一倍。但是當(dāng)工藝演進(jìn)到5nm,3nm節(jié)點(diǎn),提升晶體管密度越來越難,同時由于集成度過高,功耗密度越來越大,供電和散熱也面臨著巨大的挑戰(zhàn)。Chiplet(芯粒)技術(shù)是SoC集成發(fā)展到當(dāng)今時代,摩爾定律逐漸放緩情況下,持續(xù)提高集成度和芯片算力的重要途徑。工業(yè)界近期已經(jīng)有多個基于Chiplet的產(chǎn)品面市,Intel甚至發(fā)布了集成47顆芯片的Ponte Vecchio系列,Chiplet技術(shù)已經(jīng)是芯片廠商比較依賴的技術(shù)手段了。
相比傳統(tǒng)Monolithic芯片技術(shù),Chiplet技術(shù)背景下,可以將大型單片芯片劃分為多個相同或者不同的小芯片,這些小芯片可以使用相同或者不同的工藝節(jié)點(diǎn)制造,再通過跨芯片互聯(lián)和封裝技術(shù)進(jìn)行封裝級別集成,降低成本的同時獲得更高的集成度。通常來說,由于光刻掩膜版的尺寸限定在33mm * 26mm,單個芯片的面積一般不超過800mm^2,通過多個芯片的片間集成,可以在封裝層面突破單芯片上限,進(jìn)一步提高集成度。而且從工藝制造良率的Bose-Einstein模型:
其中A代表芯片面積,D0代表缺陷密度,n代表掩膜版層數(shù)相關(guān)系數(shù)。單芯片的面積越大,良率越低,對應(yīng)制造成本也越高。同時,在當(dāng)前主流芯片架構(gòu)中,信號處理部分通常為數(shù)字邏輯,隨著工藝演進(jìn)相同功能情況下面積也會進(jìn)一步縮小,但是各類接口部分通常為模擬電路,隨著工藝演進(jìn)相同功能情況下面積幾乎不會縮小,因此合理地將不用功能有效劃分到不同工藝節(jié)點(diǎn)的芯片上,可以更高效利用現(xiàn)有制造工藝,有效降低成本。
Chiplet技術(shù)帶來上述高集成度和低成本等優(yōu)勢的同時,也面臨著諸多技術(shù)挑戰(zhàn),總體來說可以概括為:物理上如何拼接多個芯片;設(shè)計(jì)上如何將大芯片劃分為多個小芯片;以及如何標(biāo)準(zhǔn)化接口協(xié)議做到不同芯片產(chǎn)品標(biāo)準(zhǔn)化拼接。具體來說可以分為幾個不同的方面:
超高速、超高密度和超低延時的封裝技術(shù),用來解決Chiplet之間遠(yuǎn)低于單芯片內(nèi)部的布線密度、高速可靠的信號傳輸帶寬和超低延時的信號交互。目前主流的封裝技術(shù)包括但不限于MCM、CoWoS、EMIB等。
基于Chiplet的架構(gòu)設(shè)計(jì),一方面考慮不同Chiplets之間如何進(jìn)行功能劃分和架構(gòu)定義,另一方面考慮多個Chiplets如何進(jìn)行有效互聯(lián)和擴(kuò)展,實(shí)現(xiàn)高效靈活可擴(kuò)展的架構(gòu),避免多Chiplets之間出現(xiàn)信號死鎖、流量擁塞等功能和性能問題。
標(biāo)準(zhǔn)化的多Chiplets之間交互的通信互聯(lián)協(xié)議,用于指導(dǎo)和約束不同芯片的接口設(shè)計(jì)和標(biāo)準(zhǔn)化對接。目前由Intel、AMD、ARM、ASE、Google、 Meta、Microsoft、Qualcomm、Samsung和TSMC共同開發(fā)和制定的UCIe(Universal Chiplet Interconnect Express)已經(jīng)發(fā)布第一版標(biāo)準(zhǔn)。
由于篇幅限制,本文基于上述三個方面,簡單介紹下當(dāng)前業(yè)界主流實(shí)現(xiàn)方式,探討不同解決方法的優(yōu)缺點(diǎn)和設(shè)計(jì)考量,后續(xù)會附上各個部分的詳細(xì)介紹。
支持Chiplet的底層封裝技術(shù)
封裝技術(shù)目前主要由TSMC、ASE、Intel等公司來主導(dǎo),包含從2D MCM到2.5D CoWoS、EMIB和3D Hybrid Bonding。本文主要介紹目前工業(yè)界主流的2D和2.5D封裝技術(shù)和其優(yōu)缺點(diǎn)。
1. MCM(Multi-Chip Module)
Multi-chip Module
MCM一般是指通過Substrate(封裝基板)走線將多個芯片互聯(lián)的技術(shù)。通常來說走線的距離和范圍可以在10mm~25mm,線距線寬大約10mm量級,單條走線帶寬大約10Gbit/s量級。由于MCM可以通過基板直接連接各個芯片,通常封裝的成本會相對較低,但是由于走線的線距線寬比較大,封裝密度相對較低,接口速率相對較低,延時相對較大。
2. CoWoS(Chip-on-Wafer-on-Substrate)
CoWoS是TSMC主導(dǎo)的,基于interposer(中間介質(zhì)層)實(shí)現(xiàn)的2.5D封裝技術(shù),其中interposer采用成熟制程的芯片制造工藝,可以提供相比MCM更高密度和更大速率的接口。目前TSMC主流的CoWoS技術(shù)包括:
CoWoS-S:基礎(chǔ)CoWoS技術(shù),可以支持超高集成密度,提供不超過兩倍掩膜版尺寸的interposer層,通常用于集成HBM等高速高帶寬內(nèi)存芯片。
CoWoS
CoWoS-R:基于前述CoWoS-S技術(shù),引入InFO技術(shù)中的RDL(Redistribution Layer),RDL 中介層由聚合物和銅跡線組成,具有相對機(jī)械柔韌性,而這種靈活性增強(qiáng)了封裝連接的可靠性,并允許新封裝可以擴(kuò)大其尺寸以滿足更復(fù)雜的功能需求,從而有效支持多個Chiplets之間進(jìn)行高速可靠互聯(lián)。
CoWoS-R
CoWoS-L:在上述CoWoS-S和InFO技術(shù)的基礎(chǔ)上,引入LSI(Local Silicon Interconnect)技術(shù),LSI 芯片在每個產(chǎn)品中可以具有多種連接架構(gòu)(例如 SoC 到 SoC、SoC 到小芯片、SoC 到 HBM 等),也可以重復(fù)用于多個產(chǎn)品,提供更靈活和可復(fù)用的多芯片互聯(lián)架構(gòu)。
CoWoS-L
相比于MCM,CoWoS技術(shù)可以提供更高的互聯(lián)帶寬和更低的互聯(lián)延時,從而獲得更高的性能。同時,受限于interposer的尺寸(通常為2倍掩膜版最大尺寸),可以提供的封裝密度上限相對比較有限,并且由于interposer的引入,需要付出額外的制造成本和更高的技術(shù)復(fù)雜度,以及隨之而來的整體良率的降低。
3. EMIB(Embedded Multi-die Interconnect Bridge)
EMIB
EMIB是Intel主導(dǎo)的2.5D封裝技術(shù),使用多個嵌入式包含多個路由層的橋接芯片,同時內(nèi)嵌至封裝基板,達(dá)到高效和高密度的封裝。由于不再使用interposer作為中間介質(zhì),可以去掉原有連接至interposer所需要的TSVs,以及由于interposer尺寸所帶來的封裝尺寸的限制,可以獲得更好的靈活性和更高的集成度。
總體而言,相比于前述介紹的MCM、CoWoS和InFO/LSI技術(shù),EMIB技術(shù)要更為優(yōu)雅和經(jīng)濟(jì)高效,獲得更高的集成度和制造良率。但是EMIB需要封裝工藝配合橋接芯片,技術(shù)門檻和復(fù)雜度較高。
Chiplet架構(gòu)挑戰(zhàn)和洞察
基于Chiplet的架構(gòu)設(shè)計(jì),首先要考慮不同Chiplets之間如何進(jìn)行功能劃分和架構(gòu)定義,目前主流的設(shè)計(jì)思路大致可以分為兩類:
第一類
基于功能劃分到多個Chiplets,單個Chiplet不包含完整功能集合,通過不同Chiplets組合封裝實(shí)現(xiàn)不同類型的產(chǎn)品,典型代表為Huawei Lego架構(gòu)(Kunpeng & Ascend)、AMD Zen2/3架構(gòu)。
Huawei Lego架構(gòu):采用compute die(compute + memory interface)和I/O die組合的形式進(jìn)行不同Chiplets功能拆解。在compute die(CPU/AI)設(shè)計(jì)時采用先進(jìn)的工藝,獲得頂級的算力和能效,在I/O die設(shè)計(jì)時采用成熟工藝,在面積與先進(jìn)工藝差別不大的情況下獲得成本收益。并且不同的Chiplets的數(shù)量和組合形式都可以靈活搭配,從而組合出多種不同規(guī)格的云端高性能處理器產(chǎn)品。
Huawei Lego
AMD Zen3架構(gòu):采用CCD(compute)和CIOD(memory interface + I/O)組合的形式進(jìn)行不同Chiplets功能拆解。在CCD設(shè)計(jì)時采用最先進(jìn)的工藝,獲得頂級的算力和能效,在CIOD設(shè)計(jì)時采用成熟工藝,在面積與先進(jìn)工藝差別不大的情況下獲得成本收益。并且CCD本身按照兩個4C8T cluster組合的形式設(shè)計(jì),可以適應(yīng)AMD從Desktop到Server的架構(gòu)需求,根據(jù)場景選擇CCD數(shù)量和設(shè)計(jì)對應(yīng)的CIOD即可,靈活度非常高。
AMD Zen3
第二類
單個Chiplet包含較為獨(dú)立完整的功能集合,通過多個Chiplets級聯(lián)獲得性能的線性增長,典型代表為Apple M1 Ultra、Intel Sapphire rapids系列。
Apple M1 Ultra:通過Apple自研的封裝技術(shù)UltraFusion來堆疊兩顆M1 Max芯片,使得兩顆芯片之間擁有超過2.5TB/s帶寬且極低延時的互聯(lián)能力?;谶@個互聯(lián)的延時帶寬能力,可以使得M1 Ultra直接獲得兩倍M1 Max的算力,同時在軟件層面依然可以將M1 Ultra當(dāng)做一個完整芯片對待,而不會增加額外的軟件修改和調(diào)試的負(fù)擔(dān)。
Apple M1 Ultra
Intel Sapphire Rapids:通過兩組鏡像對稱的相同架構(gòu)的building blocks,組合4個Chiplets,獲得4倍的性能和互聯(lián)帶寬。每個基本模塊包含計(jì)算部分(CHA & LLC & Cores mesh, Accelerators)、memory interface部分(controller, Ch0/1)、I/O部分(UPI,PCIe)。通過將上述高性能組件組成基本的building block,再通過EMIB技術(shù)進(jìn)行Chiplet互聯(lián),可以獲得線性性能提升和成本收益。
Intel Sapphire Rapids
基于Chiplet的架構(gòu)設(shè)計(jì),同時要考慮多個Chiplets如何進(jìn)行有效互聯(lián)和擴(kuò)展,實(shí)現(xiàn)高效靈活可擴(kuò)展的架構(gòu),避免多Chiplets之間出現(xiàn)信號死鎖、流量擁塞等功能和性能問題。由于芯片內(nèi)部互聯(lián)通常為可靠連接假設(shè)下的并行數(shù)據(jù)傳輸,而芯片之間的互聯(lián)通常為不可靠連接假設(shè)下的串行數(shù)據(jù)傳輸,根據(jù)芯片片上和片間互聯(lián)架構(gòu)的組合和流量收斂情況,目前主流的設(shè)計(jì)思路和應(yīng)用場景大致分為兩大類:
第一類
片上片間相同架構(gòu),流量全打平或基本打平。典型代表如Cerebras,采用從tile到single die到wafer scale engine完全相同的互聯(lián)架構(gòu)。另一個典型代表是Tesla DoJo,采用InFO-SoW的封裝和芯片四邊全部放置I/O接口的方式實(shí)現(xiàn)片內(nèi)每個方向10TBps帶寬,跨片每邊4TBps,SoW集成后單邊帶寬9TBps。
CS-1 Wafer Scale Engine
DoJo D1 Chip
第二類
片上片間架構(gòu)相似,片間流量按照一定比例收斂。典型代表一個是前述的Huawei Bufferless Multi-Ring架構(gòu),片上流量會收斂到分布式的各個跨片接口;另一個典型代表是前述的Apple M1 Ultra,片上流量收斂到UltraFusion集中交換部分。
Bufferless Multi-Ring
從計(jì)算負(fù)載的角度,當(dāng)單個計(jì)算任務(wù)計(jì)算密度較高,超出單芯片算力范圍的時候,需要多個芯片協(xié)同來完成,此時跨片數(shù)據(jù)交互也需要提供和片上數(shù)量級相當(dāng)?shù)膸捄脱訒r,才能更有效利用算力,提高計(jì)算效率。典型的任務(wù)類型是AI的訓(xùn)練任務(wù),前述Cerebras和DoJo的互聯(lián)架構(gòu)對這類場景有較強(qiáng)優(yōu)勢。當(dāng)計(jì)算任務(wù)數(shù)量龐大,單個任務(wù)負(fù)載較小,跨片流量通常是要遠(yuǎn)小于片上流量的,此時采用流量收斂策略更為合適。
從互聯(lián)架構(gòu)的實(shí)現(xiàn)方式和實(shí)現(xiàn)策略角度,通常根據(jù)網(wǎng)絡(luò)的拓?fù)?、路由策略、防死鎖機(jī)制等又可進(jìn)一步細(xì)分,本文由于篇幅限制不再詳細(xì)介紹。
Chiplet協(xié)議介紹
工業(yè)界大約從2016年開始就在逐步嘗試基于Chiplet的芯片設(shè)計(jì),經(jīng)過長時間的摸索,已經(jīng)在封裝工藝、架構(gòu)設(shè)計(jì)上有了深厚的積累和長足的進(jìn)步,在這樣的背景和契機(jī)之下,由Intel、AMD、ARM、ASE、Google、 Meta、Microsoft、Qualcomm、Samsung和TSMC共同開發(fā)和制定的UCIe 1.0在2022年3月正式推出。
UCIe標(biāo)準(zhǔn)的初衷和目標(biāo),是建立一套Chiplet技術(shù)相關(guān)的設(shè)計(jì)和制造等各個環(huán)節(jié)的參考標(biāo)準(zhǔn),從而使得不同設(shè)計(jì)和制造廠商的芯片可以無縫集成,從而打造封裝層級的完整靈活的芯片開發(fā)生態(tài)系統(tǒng)。基于Chiplet技術(shù)和UCIe標(biāo)準(zhǔn),可以實(shí)現(xiàn)超過單個掩膜版尺寸的芯片面積,獲得更大尺寸、更高集成度的高性能芯片。同時基于標(biāo)準(zhǔn)的UCIe,可以使能各類不同工藝和不同大小的芯片和IP在封裝層面進(jìn)行集成,有效降低開發(fā)成本,同時減少開發(fā)周期。
Figure. Initial motivation of UCIe
UCIe主要規(guī)定的規(guī)格和標(biāo)準(zhǔn)包含以下幾個層面(具體內(nèi)容本文不再贅述):
協(xié)議層:定義了高層級通信協(xié)議標(biāo)準(zhǔn),初始版本采用成熟的PCIe加CXL協(xié)議。
中間層:定義了Chiplets之間的適配標(biāo)準(zhǔn),包括Link狀態(tài)管理,參數(shù)對齊,信號的選擇校驗(yàn),以及可能的重傳機(jī)制。
物理層:定義了電氣信號連接的標(biāo)準(zhǔn)、物理鏈路設(shè)計(jì)標(biāo)準(zhǔn),包括電氣信號定義,時鐘定義,Link和Sideband訓(xùn)練。
Figure. Layering with UCIe
總結(jié)
綜上所述,經(jīng)過數(shù)年的發(fā)展,Chiplet技術(shù)已經(jīng)逐漸走向成熟和商用,成為芯片廠商比較依賴的技術(shù)手段,也被認(rèn)為是未來芯片行業(yè)發(fā)展的重要方向。目前在底層封裝層面, 已經(jīng)有TSMC、Intel等廠商提供CoWOS、EMIB等先進(jìn)封裝,可以提供超高速、超高密度和超低延時的Chiplet互聯(lián);在標(biāo)準(zhǔn)協(xié)議層面,也有眾多大廠領(lǐng)銜發(fā)布的UCIe 1.0版本,提供了跨片接口設(shè)計(jì)的指導(dǎo)和約束。而在架構(gòu)設(shè)計(jì)層面,如何基于Chiplet設(shè)計(jì)高性能、高效率、靈活可擴(kuò)展的互聯(lián)架構(gòu),如何基于實(shí)現(xiàn)和商業(yè)視角進(jìn)行芯片間的功能劃分仍然是Chiplet技術(shù)中最大的挑戰(zhàn)。
審核編輯:湯梓紅
評論
查看更多