英特爾如何玩轉(zhuǎn)Chiplet？

在英特爾最近的 DC AI 網(wǎng)絡(luò)研討會上，公司執(zhí)行副總裁 Sandra Rivera 透露了英特爾第五代至強(qiáng)可擴(kuò)展處理器 Emerald Rapids 的外觀。英特爾已決定通過僅使用 2 個大die設(shè)計 Emerald Rapids (EMR) 來回溯一代小芯片（chiplet）。

它的前一代產(chǎn)品 Sapphire Rapids (SPR) 有 4 個較小的die。與直覺相反，英特爾將其最高核心數(shù)配置中的小芯片數(shù)量從 4 個減少到 2 個。這會讓大多數(shù)人摸不著頭腦，因為包括英特爾在內(nèi)的每個人都在談?wù)撌褂酶〉膁ie來分解小芯片以提高產(chǎn)量和擴(kuò)展性能。

本文中，我們將更深入地了解英特爾對 Emerald Rapids (EMR) 所做的具體更改。我們將查看我們創(chuàng)建的平面圖，詳細(xì)說明工作負(fù)載性能、成本比較以及與 AMD 的競爭環(huán)境。此外，我們將詳細(xì)介紹 Sapphire Rapids 發(fā)生的巨大變化，但大多數(shù)人都忽視了這一變化。

Emerald Rapids的變化

英特爾這一代產(chǎn)品最大的變體 EMR-XCC，將核心數(shù)從 SPR 上的 60 個增加到 64 個。然而，封裝上共有 66 個物理內(nèi)核，它們被分類以提高良率。英特爾并不打算像他們對 60 核 SPR 所做的那樣，將完全啟用的 66 核 EMR SKU 產(chǎn)品化。EMR 結(jié)合了兩個 33 核die，而 SPR 使用四個 15 核die。

另一個主要變化是英特爾顯著增加了共享 L3 緩存，從 SPR 上的每個內(nèi)核 1.875MB 到 EMR 上高達(dá) 5MB 的每個內(nèi)核！這意味著高端 SKU 在所有內(nèi)核中都配備了 320MB 的共享 L3 緩存，是 SPR 提供的最大值的 2.84 倍。Local Snoop Filte rs 和 Remote Snoop Filters 也相應(yīng)增加，以適應(yīng)大型 L3 緩存的增加（LSF – 3.75MB/核心，RSF – 1MB/核心）。

DDR5 內(nèi)存支持已從 4800 MT/s 增加到 5600 MT/s。插槽間通信（inter-socket）的 UPI 速度已從 16 GT/s 升級到 20 GT/s。奇怪的是，盡管插槽間速度更高，但支持的插槽總數(shù)從 8 個減少到 2 個。這樣做可能是為了加快上市時間，因為它只影響 AMD 無論如何都沒有參與競爭的一小部分市場。所有這些都與同一 LGA 4677 Socket E1 上的現(xiàn)有“Eagle Stream”平臺直接兼容。PCIe 通道數(shù)保持不變，盡管最終添加了 CXL 分叉支持，這對 Sapphire Rapids 來說是一個痛處。

仔細(xì)觀察封裝，我們注意到英特爾能夠?qū)⒏鄡?nèi)核和更多緩存塞入比 SPR 更小的區(qū)域！包括劃線（scribe lines）在內(nèi)，兩個 763.03 平方毫米的裸片總面積為 1,526.05 平方毫米，而 SPR 使用四個 393.88 平方毫米的裸片，總面積為 1,575.52 平方毫米。EMR 縮小了 3.14%，但印刷內(nèi)核（printed cores ）增加了 10%，L3 緩存增加了 2.84 倍。這一令人印象深刻的壯舉部分是通過減少小芯片的數(shù)量實現(xiàn)的。當(dāng)然，還有其他因素在起作用，有助于減少 EMR 的面積。

在為 EMR 畫平面圖模型時，我們發(fā)現(xiàn)不可能將必要的功能塞進(jìn)一個足夠小的區(qū)域以匹配 Intel 所揭示的內(nèi)容。我們使用 SPR 中的組件作為參考，但它最終變得太大了。這是因為英特爾優(yōu)化了其物理設(shè)計，使一些功能更加緊湊和面積效率更高，從而進(jìn)一步縮小面積。更重要的是，這不是英特爾第一次改變物理設(shè)計以節(jié)省面積。

Sapphire Rapids的die微縮

盡管沒有太多公開討論，英特爾還在生產(chǎn) E5 步進(jìn)過程中最黑暗的日子里對 Sapphire Rapids 進(jìn)行了徹底的重新設(shè)計。信不信由你，Sapphire Rapids 小芯片有兩種不同的物理設(shè)計和芯片尺寸。

Raja Koduri 在 2021 年架構(gòu)日展示了更大、更早的 SPR 版本，并且還出現(xiàn)在第三方拆解的早期工程樣本的第中。更小、更新的SPR變體在 Vision 2022 上展示，它被最終生產(chǎn) SKU 使用。

英特爾展示了兩個版本的 SPR 的晶圓。較早的修訂版每個晶圓有 137 個裸片，而最終版本有 148 個。這需要一直回到芯片的平面規(guī)劃和物理設(shè)計。一個主要的好處是，它通過在每個晶圓上多制造 8% 的裸片，改善了 Sapphire Rapids 的成本結(jié)構(gòu)。

在長期提出期間所做的大量硅修改中，我們發(fā)現(xiàn)英特爾改變了核心和外圍的物理設(shè)計和布局，以實現(xiàn) 5.7% 的面積減少。I/O 區(qū)域（North Cap）已重新實現(xiàn)，die高度減少了 0.46 毫米。I/O 塊之間的水平間距也得到了優(yōu)化，die寬度節(jié)省了 0.46 毫米。容納 CPU 核心、高速緩存和內(nèi)存控制器的網(wǎng)狀區(qū)塊區(qū)域也必須縮小 3.43% 的面積以適應(yīng)更緊湊的布局規(guī)劃，同時調(diào)整減少 CPU 核心寬度和tile間距。

一般來說，設(shè)計團(tuán)隊在發(fā)布前為同一產(chǎn)品制作 2 種不同布局和裸片尺寸的情況很少見，因為上市時間至關(guān)重要。也許 Sapphire Rapids 的多次延誤給了他們足夠的時間來尋求額外的面積節(jié)省。如果它是按照最初的 2021 年目標(biāo)推出的，我們可能不會看到這個較小的修訂版，至少在最初是這樣。

同樣，英特爾對 EMR 應(yīng)用了相同的布局優(yōu)化原則，特別是在容納巨大的 L3 時。在這里，我們展示了對核心和mesh tile進(jìn)行更改的模型，包括在核心上方明顯更高的 SRAM 部分，以容納額外的 L3 緩存和 Snoop Filters。這樣一來，每個核心tile的面積增加了 11.8%。得益于 SRAM 物理設(shè)計的優(yōu)化，英特爾能夠容納 3200 KB 以上的 L3 緩存以及更大的 LSF，并通過僅增加 1.41 mm2 來將 RSF 翻倍。

Emerald Rapids 的平面圖

以下是 EMR-XCC 的平面布置圖。在兩個die中，66 核加上 I/O 部分在 7x14 網(wǎng)狀互連網(wǎng)絡(luò)上捆綁在一起。

在中間，網(wǎng)狀網(wǎng)絡(luò)在 EMIB 上跨越片外邊界（off-chip boundary） 7 次。這與 SPR 上跨四個芯片的 8x12 網(wǎng)格和 20 個芯片外交叉點(diǎn)形成對比。此拓?fù)涓牡挠绊憣⒃谙旅娴男阅懿糠种薪榻B。

從上面顯示的布局中，我們可以看出，盡管這兩個小芯片非常相似，但它們實際上使用了不同的流片和掩模組，英特爾再次像 SPR 那樣使用鏡像芯片。使用旋轉(zhuǎn) 180 度的相同裸片將使掩模組要求減半，但會使跨 EMIB 的多裸片結(jié)構(gòu) IO 復(fù)雜化。

說到 EMIB，硅橋（ silicon bridges）的數(shù)量從 10 個大幅減少到 3 個，中間的硅橋更寬以適應(yīng) 3 個網(wǎng)格柱。奇數(shù)個網(wǎng)格列也出現(xiàn)在單片版本的 SPR上，這也可能是他們必須對die進(jìn)行鏡像的部分原因，因為旋轉(zhuǎn)會干擾對齊并使導(dǎo)線交叉復(fù)雜化。

通過這種新布局，我們可以看到小芯片重新聚合的真正好處。用于小芯片接口的總面積百分比從 SPR 上的總die面積的 16.2% 變?yōu)?EMR 上的僅 5.8%。或者，我們可以查看核心區(qū)域利用率，即總die面積中有多少用于計算核心和緩存。這從 SPR 的50.67% 上升到 EMR 的好得多的 62.65%。這一收益的部分原因還在于 EMR 上較少的物理 IO，因為 SPR 具有更多的 PCIe 通道，這些通道僅在單插槽工作站段上啟用。

如果您的良率很好，為什么在可以使用更少、更大的裸片時浪費(fèi)冗余 IO 和小芯片互連的面積？英特爾傳奇的 10nm 工藝從 2017 年的以來已經(jīng)走了很長一段路，現(xiàn)在在其更名后的intel 7 形式中取得了相當(dāng)不錯的成績。

成本，不是你想的那樣

所有這些關(guān)于布局優(yōu)化和在更小的總硅面積中塞入更多內(nèi)核和緩存的討論會讓您相信 EMR 的制造成本低于 SPR。事實并非如此。

從根本上說，大矩形不能整齊地放在圓形晶圓上?；氐矫總€晶圓的裸片總數(shù)，我們估計 EMR-XCC 晶圓布局與 SPR-MCC 相匹配，這意味著每個晶圓有 68 個裸片。假設(shè)完美的良率和芯片可回收性，EMR 只能在每個晶圓上制造 34 個 CPU，低于每個 SPR 晶圓上的 37 個 CPU。一旦將完美良率以外的任何因素考慮在內(nèi)，EMR 的情況就會變得更糟，這表明使用更大die的劣勢。

盡管每個 CPU 使用的硅面積較少，但 EMR 實際上的生產(chǎn)成本高于 SPR。

公平地說，如果我們要將布局更改的好處與成本隔離開來，我們應(yīng)該將 EMR 與每核 5MB L3 的假設(shè) SPR 進(jìn)行比較。對于這個 4 小芯片變體，根據(jù)這個更高的理論芯片的面積估計導(dǎo)致每個晶圓有 136 個總die或每個晶圓有 34 個 CPU，使其與實際的 2 小芯片設(shè)計相同。此外，將 EMIB 芯片的數(shù)量從 10 個減少到 3 個肯定會提高 2-chiplet 解決方案的封裝成本和產(chǎn)量。