RM新时代app官方版下载,新时代RM|APP官网网址

Nvidia剛剛發(fā)布的最強(qiáng)“GPU”DGX-2，由16顆V100+12顆NVSwitch芯片組成，能夠提供2PFLOPS。而單顆V100的Deep Learning處理能力是120TFLOPS。如果我們要設(shè)計(jì)一顆能夠?qū)崿F(xiàn)40PFLOPS處理能力的AI芯片，該怎么操作？其實(shí)挺“簡(jiǎn)單”，把芯片面積盡可能做大。那么單個(gè)裸片（Die），最大能做多大呢？當(dāng)然就是占滿一片晶圓（Wafer）的面積。這就是今天要討論的話題，Wafer Scale Integration（WSI）。

這不是一個(gè)憑空想像的話題，傳說(shuō)有人正在嘗試一個(gè)8英寸x 8英寸的WSI。而它實(shí)現(xiàn)的指標(biāo)就是40PFLOPS，能耗17KW（16nm工藝）。本文并不是為了討論這個(gè)傳聞，而是為了探討WSI的可能性，畢竟之前的嘗試都失敗了。有個(gè)形象的感覺(jué)，我在A4紙上按照1：1的比例畫了一下這個(gè)芯片的裸片（Die）想象圖（面積41290.24mm2）。大家可以感受一下，差一點(diǎn)A4紙就放不下了。作為對(duì)比也畫出了Nvidia的P100芯片的Die

（假設(shè)是正方形）（面積是610mm2）。這里用P100對(duì)比，是因?yàn)樗彩怯玫?6nm工藝。

做芯片的同學(xué)應(yīng)該都了解一片晶圓只產(chǎn)出一個(gè)裸片意味著什么，所以當(dāng)我把這張圖貼到朋友圈的時(shí)候也引來(lái)了激烈的評(píng)論。除了問(wèn)這是誰(shuí)家的之外，問(wèn)題主要圍繞在良率，容錯(cuò)，封裝，散熱等話題上。當(dāng)然，大家的問(wèn)題都問(wèn)到了點(diǎn)子上。

和我們之前討論過(guò)的脈動(dòng)陣列（脈動(dòng)陣列 - 因Google TPU獲得新生），異步電路（“傳說(shuō)中”的異步電路是否能在AI芯片中異軍突起？）技術(shù)一樣，WSI并不是什么新技術(shù)。從Wikipedia的“Wafer-scale integration”詞條就可以看出它的歷史。在上個(gè)世紀(jì)70和80年代，就開(kāi)始有很多這方面的嘗試，其目標(biāo)主要是服務(wù)于超算領(lǐng)域（massively parallel supercomputers）。如果能夠?qū)崿F(xiàn)，好處是顯而易見(jiàn)的，可以在一顆芯片上實(shí)現(xiàn)大量的運(yùn)算和存儲(chǔ)資源，而它們之間的通信可以使用芯片上相對(duì)“物美價(jià)廉”的連線資源。但是，當(dāng)時(shí)的所有嘗試都失敗了。

在1984年的ISSCC會(huì)議上，有個(gè)關(guān)于WSI的討論，組織者之一是David A. Patterson。在會(huì)議紀(jì)要中可以看到如下對(duì)問(wèn)題的描述：

the 60s, various approaches were tried, primarily to reduce system cost. Then, the scale of integration was too low and the ratio of redundant circuits to active circuits was too high to be cost-effective compared to more direct means of improving yield.

Today, there are several additional motivations for wafer scale integration/redundancy including: system reliability; high performance through the use of very wide, fast data busses for array/systolic processors and CPUs; and system flexibility and reconfigurability.

The major issues for application of WSI include generality; technical problems such as testing and yield statistics; and practical problems such as packaging, ruggedness, repairability, and system partitioning.

而在后面的討論中，既有樂(lè)觀的看法，即未來(lái)5年內(nèi)隨著相關(guān)芯片技術(shù)的進(jìn)步，就可以實(shí)現(xiàn)實(shí)用的WSI系統(tǒng)；也有悲觀的論點(diǎn)，即它永遠(yuǎn)不可能成為主流的芯片技術(shù)。雖然我們很難預(yù)測(cè)未來(lái)，但至少到目前為止，后者更為準(zhǔn)確。

雖然是冷門技術(shù)，但相信大家在看到40PFLOPS這樣的指標(biāo)時(shí)，還是會(huì)有興趣再做一點(diǎn)深入的分析。其實(shí)我第一次聽(tīng)說(shuō)有公司在做這東西的時(shí)候，基本是不相信的，直到從很多側(cè)面得到了印證，才開(kāi)始認(rèn)真的思考它的可能性。

如前面所說(shuō)，WSI最大挑戰(zhàn)主要包括兩個(gè)方面。首先是和硅片生產(chǎn)引入的缺陷相關(guān)的技術(shù)問(wèn)題。然后是集成中面對(duì)的實(shí)際問(wèn)題，包括封裝，散熱，供電等。我們先看看前者。

如何設(shè)計(jì)一顆40PFLOPS量級(jí)AI芯片_操作過(guò)程詳解

芯片生產(chǎn)過(guò)程中一定會(huì)產(chǎn)生缺陷，缺陷應(yīng)該是以工藝復(fù)雜度不同而以不同概率出現(xiàn)在wafer上。以平均缺陷密度D0表征。一般的芯片生產(chǎn)中，一片晶圓都會(huì)切割出很多裸片。對(duì)于有缺陷且無(wú)法“修復(fù)”的芯片，剔除就可以了。在同樣的缺陷分布情況下，晶圓上的裸片越大（分割的數(shù)量越少），缺陷的影響就越大（剔除的面積就約大）。上圖就是反映良率（yield）的和裸片面積的關(guān)系。對(duì)于WSI這種一片晶圓一顆裸片的極端情況，如果剔除就是整個(gè)晶圓都浪費(fèi)了。所以，如果只看一片Wafer，我們可以說(shuō)它的良率是‘0%’。WSI的良率應(yīng)該看所有Wafer中能夠正常（或者基本正常）工作的裸片的比例。不難看出，WSI的挑戰(zhàn)主要就是在一定會(huì)有錯(cuò)誤的情況下，如何盡量減少錯(cuò)誤的影響，即容錯(cuò)設(shè)計(jì)的問(wèn)題。

對(duì)于容錯(cuò)設(shè)計(jì)，其實(shí)在芯片設(shè)計(jì)中是有過(guò)大量的探索和經(jīng)驗(yàn)的，有的也相當(dāng)成熟。對(duì)于運(yùn)算，存儲(chǔ)和互連中可能出現(xiàn)的錯(cuò)誤及修復(fù)方法（包括硬件和軟件的修復(fù)），我們可以找到很多參考。而考慮到AI芯片的一些特點(diǎn)，容錯(cuò)設(shè)計(jì)可能會(huì)相對(duì)容易處理一些。第一，AI芯片中，存儲(chǔ)器所占比例很高，而存儲(chǔ)器的容錯(cuò)設(shè)計(jì)是比較成熟的技術(shù)。第二，考慮到AI算法的特點(diǎn)，不論是DNN還是類腦計(jì)算（SNN），都有可能在算法層面做一些容錯(cuò)設(shè)計(jì)。（[2]中也可以看到對(duì)此的描述）第三，AI芯片一般采用比較規(guī)則的多核架構(gòu)（以NoC連接），在WSI中可以比較自然的分成不同的區(qū)域（類似于一個(gè)Wafer上虛擬的“分割”成很多裸片）。這樣，即使出現(xiàn)無(wú)法通過(guò)軟件修復(fù)的缺陷，還可以通過(guò)犧牲性能，關(guān)閉某個(gè)獨(dú)立內(nèi)核的方法來(lái)部分解決。

在各種缺陷當(dāng)中，最為頭疼的是短路問(wèn)題，一旦電源地短路，整個(gè)域都會(huì)掛掉。電源地短路的可能性很多，還是相當(dāng)麻煩的。這一點(diǎn)還不知道是否有好的辦法。另一個(gè)問(wèn)題是制程均一性問(wèn)題，高端制程很難保證整片wafer這么大區(qū)域內(nèi)器件性能一致，可能導(dǎo)致不同區(qū)域性能不一致，wafer中心和邊緣的核心速度不一致。在這種情況下，芯片間互連需要特別處理，而系統(tǒng)運(yùn)行和調(diào)度也很有挑戰(zhàn)。

一些容錯(cuò)設(shè)計(jì)需要建立在定位缺陷的基礎(chǔ)上，只有準(zhǔn)確定位了缺陷的位置，才有可能實(shí)現(xiàn)修復(fù)。如果是同步設(shè)計(jì)，基本上現(xiàn)有的DFT方法問(wèn)題不大，主要是測(cè)試規(guī)模的問(wèn)題。另外，時(shí)間中應(yīng)該會(huì)進(jìn)行大量的功能測(cè)試，需要比較長(zhǎng)的時(shí)間來(lái)進(jìn)行測(cè)試，修復(fù)和調(diào)試。不過(guò)，這種規(guī)模的芯片肯定是以系統(tǒng)的方式銷售，即使需要更多的調(diào)試時(shí)間也問(wèn)題不大。

當(dāng)然我們?cè)趯?shí)踐中不可能做到100%容錯(cuò)，而最終的考量還是經(jīng)濟(jì)性，即付出多少代價(jià)（比如冗余的芯片面積，性能損失等等）來(lái)預(yù)防，測(cè)試和修復(fù)缺陷在經(jīng)濟(jì)上是可以接受的。這一部分話題挺多，以后有機(jī)會(huì)可以深入探討一下。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴