從賦能聊天機器人快速生成回答的生成式人工智能工具,到支持金融預(yù)測和天氣建模的高性能計算(HPC)應(yīng)用,我們對處理能力的需求顯然達(dá)到了新的高度。面對這些計算密集型工作負(fù)載,單片SoC已不再能夠滿足當(dāng)今的處理需求。為此,我們不斷創(chuàng)新工程技術(shù),Multi-Die系統(tǒng)也應(yīng)運而生。這種在單一封裝中實現(xiàn)異構(gòu)集成的技術(shù)突破,不僅帶來了更優(yōu)越的系統(tǒng)功耗和性能,還提高了產(chǎn)品良率,加速了更多系統(tǒng)功能的整合。
Multi-Die系統(tǒng)承擔(dān)著如此重要的角色,那開發(fā)者又該如何確保它們在整個生命周期內(nèi)穩(wěn)健可靠呢?
芯片測試對于任何芯片設(shè)計而言都至關(guān)重要。Multi-Die系統(tǒng)更是如此,需要對裸片到系統(tǒng)級執(zhí)行全面測試,其中包括將各組件連接在一起的所有互連技術(shù),例如通用芯?;ミB技術(shù)(UCIe)。在這篇文章中,我們將深入探討Multi-Die系統(tǒng)的獨特問題,以及如何通過測試和芯片生命周期管理來確保這些復(fù)雜的設(shè)計能夠按預(yù)期可靠地工作。開發(fā)者如需獲得更多見解,還可以觀看我們的網(wǎng)絡(luò)研討會系列:“成功實現(xiàn)Multi-Die系統(tǒng)所需具備的條件”(共六個部分)。該系列網(wǎng)絡(luò)研討會介紹了Multi-Die系統(tǒng)的趨勢和挑戰(zhàn)、早期架構(gòu)設(shè)計、協(xié)同設(shè)計和系統(tǒng)分析、Die-to-Die連接、驗證及系統(tǒng)健康狀況等等。
從裸片到系統(tǒng)的全面芯片測試
許多因素都會影響芯片的性能,溫度、老化和退化只是其中的一部分。對于Multi-Die系統(tǒng)來說,老化風(fēng)險甚至更高,因為一個裸片發(fā)生故障可能會導(dǎo)致整個系統(tǒng)失效,造成巨大的經(jīng)濟損失。在裸片層面排除缺陷是一個很好的開始。每個生產(chǎn)的裸片都將經(jīng)歷專門的測試流程,以確保百萬分比缺陷率(DPPM)非常低。測試自動化流程負(fù)責(zé)測試和診斷器件的數(shù)字、內(nèi)存和模擬部分。這其中的挑戰(zhàn)在于找到所需測試向量數(shù)量和相關(guān)成本之間的平衡點,以期獲得理想結(jié)果。
檢查每個裸片很重要,在系統(tǒng)層面評估整個系統(tǒng)也很重要。Multi-Die系統(tǒng)可以將不同工藝節(jié)點、不同用途的裸片或芯粒組合在一起。因此,一個系統(tǒng)可能包含運行溫度或散熱水平不同的多個裸片。此外,裸片之間的電磁干擾以及電遷移也可能造成問題。
對于Multi-Die系統(tǒng),全面而徹底的預(yù)組裝測試環(huán)節(jié),可以篩選出已知良好裸片(KGD)。設(shè)計模塊內(nèi)置的高級可測性設(shè)計(DFT)功能可以評估裸片。對各個裸片進行測試,并在必要時進行修復(fù)后,設(shè)計就進入了組裝和鍵合階段。部分或全部鍵合內(nèi)存和邏輯芯片之后,就可以測試互連了。
降低芯粒互連的功耗并提升其性能
Die-to-Die接口使裸片可以并排放置,為了進一步提高密度,還可以堆疊在2.5D或3D封裝中。如果兩個裸片之間提供數(shù)據(jù)接口的功能塊(即接口),可以兼具高帶寬、低功耗和低延遲特性,系統(tǒng)性能就能得到提升。
Die-to-Die連接通?;诟咚俳涌?,例如UCIe,該接口有望成為Multi-Die系統(tǒng)的優(yōu)選互連標(biāo)準(zhǔn),也是行業(yè)唯一具有完整的Die-to-Die接口工具套件的標(biāo)準(zhǔn)。UCIe適用于2D、2.5D未來的3D封裝,支持目前每引腳8 Gbps到16 Gbps的大部分設(shè)計,非常適合從網(wǎng)絡(luò)連接到超大規(guī)模數(shù)據(jù)中心的高帶寬應(yīng)用。對于3D設(shè)計,由于互連更短,使得硅通孔(TSV)更加脆弱,因此互連級風(fēng)險更高。
Multi-Die系統(tǒng)開發(fā)者需要避免互連中的固定型故障、開路或短路,同時確保時序和電壓方面的行為正確。由于涉及超高速信號,信號完整性成為了指示裸片間數(shù)據(jù)共享有效性的重要參數(shù),所以通過測量和監(jiān)控來檢測信號衰減水平非常重要。UCIe要求在PHY的兩側(cè)之間提供冗余通道,從而支持通過這些額外的通道實現(xiàn)故障修復(fù)?;赨CIe系統(tǒng)中的所有裸片都必須通過UCIe通道進行訪問、測試和修復(fù),以便能夠監(jiān)控裸片中正在發(fā)生的問題。
鍵合后測試可以解決一些要求切換互連通道的互連層面問題,還可以通過算法測試來評估互連缺陷。2.5D和3D互連有不同的算法集,而且測試是基于互連的缺陷。故障模型將決定所要應(yīng)用的算法測試。
貫穿系統(tǒng)生命周期的智能監(jiān)控和分析
Multi-Die系統(tǒng)具有微小的微凸塊,這些微凸塊彼此非常靠近,因此無法通過物理探測進行測試。例如,對于UCIe,微凸塊的間距為25至55微米,而探測距離通常為90微米。更好的辦法是通過內(nèi)置自測(BIST)進行電子探測,從而檢測那些需要采取糾正措施的軟錯誤或硬錯誤?;蛘咭部梢允褂迷陬A(yù)組裝階段集成的專用晶圓測試焊盤。
當(dāng)系統(tǒng)處于開發(fā)階段以及在現(xiàn)場使用時,芯片生命周期管理(SLM)方法就很有用。這種方法通過在芯片上集成傳感器和監(jiān)控器來評估各種參數(shù),例如溫度、電壓、老化和退化程度。集成SLM IP技術(shù)與分析智能后,可以將從器件傳感器和監(jiān)控器收集的大量數(shù)據(jù)轉(zhuǎn)化為可操作的系統(tǒng)優(yōu)化洞察。
那么SLM技術(shù)如何識別熱問題呢?無論是單個裸片還是Multi-Die系統(tǒng),熱管理問題都不容忽視。在設(shè)計階段,由于沒有實際工作負(fù)載,開發(fā)者很難評估這些問題。再加上2.5D或3D架構(gòu)的復(fù)雜性后,更是很難得到最終設(shè)計的熱曲線。以下是SLM能發(fā)揮作用的情況。布置在裸片重點位置的片上監(jiān)控器讓開發(fā)者有機會深入了解和分析裸片的熱特性,并且可以在需要調(diào)整布局以解決散熱問題時提供指示信號。同樣,深入了解熱效應(yīng)還可能促使開發(fā)者做出降低系統(tǒng)高帶寬內(nèi)存(HBM)組件數(shù)據(jù)速率的決策?;蛘?,可能還可以通過軟件來緩解散熱問題。借助監(jiān)控器提供的數(shù)據(jù),開發(fā)者可以分析并確定更優(yōu)糾正方案。
SLM技術(shù)還提供可追溯性,即無論最終產(chǎn)品在生命周期中何時出現(xiàn)問題,它都能追溯到問題的根源。例如,假設(shè)在試制過程的某個環(huán)節(jié)發(fā)現(xiàn)良率異常,此時準(zhǔn)確定位問題來源至關(guān)重要。我們需要判斷問題是出在某個特定晶圓或裸片上,還是影響了某一時期內(nèi)生產(chǎn)的所有晶圓或裸片,抑或是源于晶圓廠本身。這種追溯能力在Multi-Die系統(tǒng)中尤為重要,因為此類系統(tǒng)的封裝成本可能非常高。越快發(fā)現(xiàn)問題,開發(fā)者就能越快讓產(chǎn)品進入市場并降低成本。良好的SLM解決方案應(yīng)該能夠在幾分鐘內(nèi)識別根本原因,而手動方法可能需要花費幾天或幾周時間。
可追溯性還適用于以下情況:最終產(chǎn)品已部署到現(xiàn)場,但開始出現(xiàn)意外甚至災(zāi)難性的故障,可能需要召回。這種退貨授權(quán)(RMA)情況可以利用SLM和整個測試生態(tài)體系,追溯制造過程,找出根本原因。同時,還能找出現(xiàn)場中可能存在相同問題的同類器件,以便在故障發(fā)生前主動召回,或者通過調(diào)整器件的電壓或頻率來延長其使用壽命。
測試的最后階段針對堆疊本身進行?!耙阎己孟到y(tǒng)”是此階段的核心,因為測試團隊的目標(biāo)是確定其Multi-Die系統(tǒng)能否穩(wěn)定可靠地運行,并在需要時找到監(jiān)控、分析和解決問題的方法。IEEE Std 1838-2019提供了一種模塊化測試訪問架構(gòu),可支持測試裸片以及相鄰堆疊裸片之間的互連層。
對于堆疊架構(gòu),有些測試需要在下游進行,而更智能的測試仍然留在流程的上游。例如,在裸片層面評估高溫性能是不可行的。相反,在堆疊后進行Multi-Die系統(tǒng)的溫度測試最有效,此時發(fā)現(xiàn)的故障可以根據(jù)其位置進行修復(fù)。在晶圓層面進行溫度測試也是可行的,不過這可能相當(dāng)昂貴。高端系統(tǒng)的開發(fā)者可能會選擇執(zhí)行這些測試。監(jiān)控和收集這些重要數(shù)據(jù),能夠讓設(shè)計、制造和測試團隊確定如何提高結(jié)果質(zhì)量。
自動化和智能化進一步提高Multi-Die系統(tǒng)的質(zhì)量
為了滿足我們所討論的需求并推動下一波半導(dǎo)體創(chuàng)新,新思科技推出了Multi-Die解決方案,以加速單一封裝中的異構(gòu)集成。這套全面的解決方案涵蓋了系統(tǒng)全生命周期的各個關(guān)鍵環(huán)節(jié),包括測試、診斷、修復(fù)、校準(zhǔn)以及持續(xù)優(yōu)化各項性能指標(biāo)。針對設(shè)計、試制、生產(chǎn)和現(xiàn)場優(yōu)化的可追溯性和分析能力可以提高良率、質(zhì)量和可靠性,并降低成本。此外,我們的AI驅(qū)動芯片設(shè)計套件Synopsys.ai具備業(yè)界少有的半導(dǎo)體測試自主AI應(yīng)用程序。新思科技TSO.ai優(yōu)化了復(fù)雜設(shè)計中的測試程序生成過程,能以更少的測試向量實現(xiàn)盡可能高的缺陷覆蓋率。
為了滿足計算密集型工作負(fù)載對高帶寬和高性能的需求,Multi-Die系統(tǒng)正迅速成為芯片設(shè)計的主流。自動化測試流程和分析智能有助于提高上述系統(tǒng)的質(zhì)量和可靠性水平,而這更是為生成式人工智能和高性能計算(HPC)等造福全世界的應(yīng)用帶來了曙光。
-
芯片測試
+關(guān)注
關(guān)注
6文章
131瀏覽量
20099 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238235 -
新思科技
+關(guān)注
關(guān)注
5文章
796瀏覽量
50334 -
HPC
+關(guān)注
關(guān)注
0文章
315瀏覽量
23753
原文標(biāo)題:從GenAI到HPC,Multi-Die系統(tǒng)如何滿足現(xiàn)代計算需求?
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論