RM新时代登录网址,RM新时代平台靠谱平台入口-百度知道

在CPU 芯片領(lǐng)域，延續(xù)至今的“摩爾定律”正在隨著制程工藝逼近物理極限而有了延緩的趨勢，甚至失效的可能。就在摩爾定律的增長放緩腳步的同時，半導體芯片的計算也正在從通用走向?qū)Ｓ茫渲?a href="http://hljzzgx.com/tags/ai/" target="_blank">AI 計算正是其中增長最快的一種專用計算。

現(xiàn)在，AI 計算正在接棒摩爾定律，延續(xù)并超越其倍增神話。2019 年，OpenAI 發(fā)布了 AI 算力的增長情況，結(jié)果顯示 AI 算力以 3.4 個月的倍增時間實現(xiàn)了指數(shù)增長，從 2012 年起，該指標已經(jīng)增長了 30 萬倍。

在 AI 算力爆炸式增長的過程中，英偉達的 GPU 功不可沒。廣為人知的一個故事就是 2012 年，來自多倫多大學的 Alex 和他的團隊設(shè)計了 AlexNet 的深度學習算法，并用了 2 個英偉達的 GTX580 GPU 進行訓練后，打敗了其他所有計算機視覺團隊開發(fā)的算法，成為那一屆 ImageNet 的冠軍。

此后，在計算機視覺和自然語言處理領(lǐng)域，GPU 的高并行計算能力得到了充分的發(fā)揮，英偉達的 GPU 也隨著 AI 第三次浪潮的崛起而迎來井噴發(fā)展。與此同時，更多為機器學習而專門定制的專用芯片開始出現(xiàn)，比如專用集成電路（ASIC）的張量處理單元 TPU、神經(jīng)網(wǎng)絡(luò)單元 NPU 以及半定制芯片 FPGA 等等。

2018 年底，英國一家名為 Graphcore 的創(chuàng)業(yè)公司推出了一種專門用于 AI 計算的處理器芯片IPU（Intelligence Processing Unit）。一經(jīng)問世，IPU就受到 AI 界越來越多的關(guān)注。

ARM 創(chuàng)始人，被稱為英國半導體之父的赫曼·豪瑟曾為 Graphcore 的IPU給出很高評價，將其譽為“計算機史上三次革命中，繼 CPU 和 GPU 之后的第三次革命”。赫曼在芯片產(chǎn)業(yè)的地位自然不容置疑，但由于 Graphcore 是英國芯片產(chǎn)業(yè)中為數(shù)不多的新生力量，難免赫曼有“護犢子”的打廣告之嫌。

IPU 出道 2 年時間，現(xiàn)已推出了量產(chǎn)第二代型號為 GC2 的 IPU。那么，IPU 的表現(xiàn)如何，與 GPU 相比有哪些優(yōu)勢之處，這是本文要重點探討的問題。

GPU 所開啟的深度學習

一個廣為人們熟知的例子就是，在計算機視覺發(fā)展初期的 2011 年，谷歌大腦想要在 YouTube 的視頻中識別人類和貓，當時這樣一個簡單的任務(wù)，谷歌要動用一家大型數(shù)據(jù)中心內(nèi)的 2，000 顆服務(wù)器 CPU，這些 CPU 的運行會產(chǎn)生大量的熱量和能耗，關(guān)鍵是代價不菲，很少能有研究人員可以用得起這種規(guī)模的服務(wù)器。

不過在當時，研究人員注意到了英偉達的 GPU，斯坦福大學的吳恩達團隊開始和英偉達合作，將 GPU 應(yīng)用于深度學習。后來證明，只需要 12 顆英偉達 GPU 就可以達到相當于 2000 顆 CPU 提供的深度學習性能。此后越來越多的 AI 研究人員開始在 GPU 上加速其深度神經(jīng)網(wǎng)絡(luò) （DNN）的訓練。

現(xiàn)在我們都知道，GPU 能夠在深度學習的訓練中大顯身手，正是源于 GPU 的計算架構(gòu)正好適用于深度學習的計算模式。深度學習是一種全新的計算模式，其采用的 DNN 算法包含數(shù)十億個網(wǎng)絡(luò)神經(jīng)元和數(shù)萬億個連接來進行并行訓練，并從實例中自己學習規(guī)律。

深度學習算法主要依賴的基本運算方法有矩陣相稱和卷積浮點運算，而 GPU 多核架構(gòu)在原本圖像渲染中可以大規(guī)模處理矩陣乘法運算和浮點運算，很好地可以處理并行計算任務(wù)，使得 DNN 訓練速度大幅提升。

此后，GPU 成為輔助完成深度學習算法的主流計算工具，大放異彩。但 GPU 本身并非是專門為 AI 計算而設(shè)計的芯片，其中有大量的邏輯計算對于 AI 算法來說毫無用處，所以行業(yè)自然也需要專門針對 AI 算法的專用 AI 芯片。

近幾年，全球已經(jīng)有上百家公司投入到新型 AI 芯片的研發(fā)和設(shè)計當中，當然最終能夠成功流片并推出商用的仍然是幾家巨頭公司和少數(shù)實力雄厚的獨角獸公司。

這其中，2017 年初創(chuàng)成立的 Graphcore 所研發(fā)的 AI 芯片 IPU，則成為這些 AI 芯片當中的另類代表，因其不同于 GPU 架構(gòu)的創(chuàng)新得到了業(yè)內(nèi)的關(guān)注。而這正是我們要著重介紹的部分。

更適合 AI 計算的 IPU 芯片

近兩年，AI 芯片出現(xiàn)了各種品類的井噴，其中甚至出現(xiàn)一些堪稱瘋狂的另類產(chǎn)品。

比如一家同樣創(chuàng)立四年的 AI 芯片創(chuàng)業(yè)公司 Cerebras Systems 就發(fā)布了史上最大的半導體芯片 Wafer Scale Engine（WSE），號稱“晶圓級發(fā)動機”，擁有 1.2 萬億個晶體管，比英偉達最大的 GPU 要大出 56.7 倍。這塊芯片主要瞄準的是超級計算和和大型云計算中心市場，其創(chuàng)新之處在于一體化的芯片設(shè)計大幅提高了內(nèi)部的數(shù)據(jù)通信數(shù)據(jù)，但其架構(gòu)仍然類似于 GPU 的計算架構(gòu)。

而 Graphcore 的 IPU 與 GPU 的架構(gòu)差異非常大，代表的是一種新的技術(shù)架構(gòu)，可以說是專門為解決 CPU 和 GPU 在 AI 計算中難以解決的問題而設(shè)計的。

IPU 為 AI 計算提供了全新的技術(shù)架構(gòu)，同時將訓練和推理合二為一，兼具處理二者工作的能力。

我們以目前已經(jīng)量產(chǎn)的 IPU 的 GC2 處理器來看，IPU GC2 采用臺積電的 16nm 工藝，擁有 236 億個晶體管，在 120 瓦的功耗下有 125TFlops 的混合精度，另外有 45TB/s 內(nèi)存的帶寬、8TB/s 片上多對多交換總線，2.5 TB/s 的片間 IPU-Links。

其中，片內(nèi)有 1216 個 IPU-Tiles 獨立處理器核心，每個 Tile 中有獨立的 IPU 核，作為計算以及 In-Processor-Memory（處理器內(nèi)的內(nèi)存）。對整個 GC2 來說共有 7296 個線程（每個核心最多可以跑 6 個線程），能夠支持 7296 個程序并行運行，處理器內(nèi)的內(nèi)存總共可以達到 300MB，其設(shè)計思路就是要把所有模型放在片內(nèi)處理。

首先，IPU 作為一個標準的神經(jīng)網(wǎng)絡(luò)處理芯片，可以支持多種神經(jīng)網(wǎng)絡(luò)模型，因其具備數(shù)以千計到數(shù)百萬計的頂點數(shù)量，遠遠超過 GPU 的頂點規(guī)模，可以進行更高潛力的并行計算工作。此外，IPU 的頂點的稀疏特性，令其也可以高效處理 GPU 不擅長的稀疏的卷積計算。其次，IPU 也支持了模型參數(shù)的復用，這些復用特性可以獲取數(shù)據(jù)中的空間或時間不變性，對于訓練與推理的性能會有明顯幫助。

其次，為解決芯片內(nèi)存的寬帶限制，IPU 采用了大規(guī)模并行 MIMD（多指令流多數(shù)據(jù)流）眾核架構(gòu)，同時，IPU 架構(gòu)做了大規(guī)模分布式的片上 SRAM。片內(nèi) 300MB 的 SRAM，相對于 GPU 的 GDDR、HBM 來說，可以做到數(shù)十倍的性能提升，而且與訪問外存相比，SRAM 的片內(nèi)時延基本可以忽略不計。

第三，IPU 采用了高效的多核通信技術(shù) BSP（Bulk Synchronous Parallel）。IPU 是目前世界上第一款采用 BSP 通信的處理器，支持內(nèi)部 1216 個核心之間的通信以及跨不同的 IPU 之間的通信。通過硬件支持 BSP 協(xié)議，并通過 BSP 協(xié)議把整個計算邏輯分成了計算、同步、交換，能極大方便工程師們的開發(fā)工作。

基于以上 IPU 的差異化特點，IPU 在某些批量訓練和推理中能夠獲得更好的性能、更低延時和更快網(wǎng)絡(luò)收斂。片內(nèi)的 SRAM 相對于片外存儲，也有高帶寬和低延時的優(yōu)勢。

今年 7 月，Graphcore 發(fā)布了二代的 Colossus MK2 IPU （MK2），以及包含四顆 MK2 芯片系統(tǒng)方案的 IPU-Machine：M2000 （IPU-M2000），其核心數(shù)增加了 20%，達到 1472 個，8832 個可并行執(zhí)行的線程。片內(nèi) SRAM 則多出 3 倍，增加到 900MB，互聯(lián)擴展性能是上一代的 16 倍。顯然在計算、數(shù)據(jù)和通信擴展層面，MK2 都算是延續(xù)了第一代 IPU 堆料狂魔的作風。

由 4 個 IPU 芯片構(gòu)成的 IPU-M2000 系統(tǒng)，可以提供大約 1 PetaFLOPs 的算力?；?IPU 的多層級存儲結(jié)構(gòu)，與 IPU Exchange Memory 等技術(shù)優(yōu)化，整體與 GPU 的 HBM2 存儲比較，可以提供超過 100 倍的帶寬以及大約 10 倍的容量，可以適用于更復雜的 AI 模型和程序。

計算加上數(shù)據(jù)的突破可以讓 IPU 在原生稀疏計算中展現(xiàn)出領(lǐng)先 GPU 10-50 倍的性能優(yōu)勢，在通信上，Graphcore 專為為 AI 橫向擴展設(shè)計了 IPU-Fabric，解決數(shù)據(jù)中心大規(guī)模計算橫向擴展的關(guān)鍵問題。Graphcore 將計算、數(shù)據(jù)、通信三者的突破技術(shù)結(jié)合，構(gòu)建了大規(guī)?？蓴U展的 IPU-POD 系統(tǒng)，最終可以提供一個 AI 計算和邏輯進行解耦、系統(tǒng)易于部署、超低網(wǎng)絡(luò)延時、高可靠的 AI 超算集群。

可以預計，未來 IPU 在各類 AI 應(yīng)用中將具有更大的優(yōu)勢，而這也必然會引起英偉達的注意。那么，相較于英偉達 GPU 所占據(jù)的 AI 行業(yè)生態(tài)位的霸主地位，IPU 會有哪些前景，也會遭遇哪些困境呢？

走向通用 AI 計算的“另辟蹊徑”

如果回顧下 AI 芯片的發(fā)展經(jīng)歷，我們看到在經(jīng)過這幾年專用 AI 芯片的井噴之后，也開始面臨一個尷尬困境，那就是 ASIC 芯片的靈活性或者說可編程性很差，對應(yīng)的專用 AI 芯片只能應(yīng)對一種算法應(yīng)用，而算法本身則在 3-6 個月的時間就有可能變化一次，或許出現(xiàn)很多 AI 芯片還未上市，算法就已經(jīng)發(fā)生進化的問題，一些 AI 芯片注定無法生產(chǎn)。當然，專用 AI 芯片的優(yōu)勢也很明顯，在性能、功耗和效率上遠勝更加通用的 GPU，對于一些非常具體的 AI 應(yīng)用場景，這些專用芯片就具有了巨大的收益。

從專注圖像渲染崛起的英偉達的 GPU，走的也是相當于 ASIC 的技術(shù)路線，但隨著游戲、視頻渲染以及 AI 加速需要的出現(xiàn)，英偉達的 GPU 也在向著 GPGPU（General Purpose GPU）的方向演進。為保持其在 GPU 領(lǐng)域的寡頭地位，使得英偉達必須一直保持先進的制程工藝，保持其通用性，但是要犧牲一定的效能優(yōu)勢。

這給后來者一定的啟發(fā)，那就是 AI 芯片既要具備一定的靈活的可編程性（通用性），又要具備專用的高效性能優(yōu)勢。這為 IPU 找到了一個新的細分市場，也就是介入 GPU 不能很好發(fā)揮效能的神經(jīng)網(wǎng)絡(luò)模型，比如強化學習等類型，同時又避免的專用 AI 芯片的不可擴展性，能夠部署在更大規(guī)模的云計算中心或超算中心，對新算法模型保持足夠的彈性計算空間。

目前來看，IPU 正在成為僅次于 GPU 和谷歌 TPU 的第三大部署平臺，基于 IPU 的應(yīng)用已經(jīng)覆蓋包括自然語言處理、圖像 / 視頻處理、時序分析、推薦 / 排名及概率模型等機器學習的各個應(yīng)用場景。

典型的如通過 IPU 可以訓練胸片，幫助醫(yī)學人員快速進行新冠肺炎的診斷；如在金融領(lǐng)域，對涉及算法交易、投資管理、風險管理及詐騙識別的場景進行更快的分析和判斷；此外在生命科學領(lǐng)域、通信網(wǎng)絡(luò)等方面，都可以同 IPU 實

當然，IPU 想要在 AI 計算中擁有挑戰(zhàn) GPU 地位的資格，除了在性能和價格上面證明自己的優(yōu)勢之外，還需要在為機器學習框架提供的軟件棧上提供更多選擇，獲得主流 AI 算法廠商的支持，在標準生態(tài)、操作系統(tǒng)上也需要有廣泛的支持，對于開發(fā)者有更方便的開發(fā)工具和社區(qū)內(nèi)容的支持，才能從實際應(yīng)用中壯大 IPU 的開發(fā)生態(tài)。

今年， AI 芯片產(chǎn)業(yè)正在遭遇洗牌期，一些 AI 芯片企業(yè)黯然退場，但這并不意味著 AI 計算遭遇寒冬，反而 AI 算力正在得到大幅提升，以今年數(shù)量級提升 GPT-3 的出場就可以看出這樣的趨勢。

一個 AI 芯片從產(chǎn)出到大規(guī)模應(yīng)用必須要經(jīng)過一系列的中間環(huán)節(jié)，包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態(tài)等等，打通這樣一條鏈條都會面臨一個巨大挑戰(zhàn)。

現(xiàn)在，GPU 已經(jīng)形成一個非常完整的 AI 算力生態(tài)鏈路，而 IPU 則仍然在路上，是否能真正崛起，還需要整個 AI 產(chǎn)業(yè)和開發(fā)者用實際行動來投票。
責任編輯:tzh

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
455

文章
50714

瀏覽量
423137
半導體

半導體

+關(guān)注

關(guān)注
334

文章
27286

瀏覽量
218071
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4729

瀏覽量
128890
AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268886

GPU在深度學習中的應(yīng)用 GPUs在圖形設(shè)計中的作用

隨著人工智能技術(shù)的飛速發(fā)展，深度學習作為其核心部分，已經(jīng)成為推動技術(shù)進步的重要力量。GPU（圖形處理單元）在深度

發(fā)表于 11-19 10:55 ?429次閱讀

NPU在深度學習中的應(yīng)用

設(shè)計的硬件加速器，它在深度學習中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優(yōu)化的處理器，它與傳統(tǒng)的CPU和

發(fā)表于 11-14 15:17 ?503次閱讀

PyTorch GPU 加速訓練模型方法

在深度學習領(lǐng)域，GPU加速訓練模型已經(jīng)成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度

發(fā)表于 11-05 17:43 ?543次閱讀

GPU深度學習應(yīng)用案例

GPU在深度學習中的應(yīng)用廣泛且重要，以下是一些GPU深度學習應(yīng)用案例：一、圖像識別圖像識別是

發(fā)表于 10-27 11:13 ?381次閱讀

深度學習GPU加速效果如何

圖形處理器（GPU）憑借其強大的并行計算能力，成為加速深度學習任務(wù)的理想選擇。

發(fā)表于 10-17 10:07 ?184次閱讀

FPGA做深度學習能走多遠？

。例如，在數(shù)據(jù)中心中，可以將 FPGA 與 CPU 或 GPU 結(jié)合使用，根據(jù)不同的任務(wù)需求進行靈活的資源分配和協(xié)同計算，提高整個系統(tǒng)的性能和效率。 ? 算法優(yōu)化和創(chuàng)新：隨著深度

發(fā)表于 09-27 20:53

深度學習算法在嵌入式平臺上的部署

隨著人工智能技術(shù)的飛速發(fā)展，深度學習算法在各個領(lǐng)域的應(yīng)用日益廣泛。然而，將深度學習算法部署到資源

發(fā)表于 07-15 10:03 ?1329次閱讀

深度學習算法在集成電路測試中的應(yīng)用

隨著半導體技術(shù)的快速發(fā)展，集成電路（IC）的復雜性和集成度不斷提高，對測試技術(shù)的要求也日益增加。深度學習算法作為一種強大的數(shù)據(jù)處理和模式識別工具，在集成電路測試領(lǐng)域展現(xiàn)出了巨大的應(yīng)用潛

發(fā)表于 07-15 09:48 ?955次閱讀

新手小白怎么學GPU云服務(wù)器跑深度學習?

新手小白想用GPU云服務(wù)器跑深度學習應(yīng)該怎么做? 用個人主機通常pytorch可以跑但是LexNet，AlexNet可能就直接就跑不動,如何實現(xiàn)更經(jīng)濟便捷的實現(xiàn)GPU云服務(wù)器

發(fā)表于 06-11 17:09

深度學習編譯工具鏈中的核心——圖優(yōu)化

等，需要調(diào)整優(yōu)化網(wǎng)絡(luò)中使用的算子或算子組合，這就是深度學習編譯工具鏈中的核心——圖優(yōu)化。圖優(yōu)化是指對深度學習模型的

發(fā)表于 05-16 14:24 ?919次閱讀

<b class='flag-5'>深度</b><b class='flag-5'>學習</b>編譯<b class='flag-5'>工具</b>鏈中的核心——圖優(yōu)化

深度解析深度學習下的語義SLAM

隨著深度學習技術(shù)的興起，計算機視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進展，例如目標的檢測、識別和分類等領(lǐng)域。近年來，研究人員開始在視覺SLAM算法中引入深

發(fā)表于 04-23 17:18 ?1284次閱讀

FPGA在深度學習應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

基礎(chǔ)設(shè)施，人們?nèi)匀粵]有定論。如果 Mipsology 成功完成了研究實驗，許多正受 GPU 折磨的 AI 開發(fā)者將從中受益。 GPU 深度學習

發(fā)表于 03-21 15:19

為什么深度學習的效果更好？

導讀深度學習是機器學習的一個子集，已成為人工智能領(lǐng)域的一項變革性技術(shù)，在從計算機視覺、自然語言處理到自動駕駛汽車等廣泛的應(yīng)用中取得了顯著的成

發(fā)表于 03-09 08:26 ?618次閱讀

【技術(shù)科普】主流的深度學習模型有哪些？AI開發(fā)工程師必備！

深度學習在科學計算中獲得了廣泛的普及，其算法被廣泛用于解決復雜問題的行業(yè)。所有深度學習

發(fā)表于 01-30 15:26 ?620次閱讀

目前主流的深度學習算法模型和應(yīng)用案例

深度學習在科學計算中獲得了廣泛的普及，其算法被廣泛用于解決復雜問題的行業(yè)。所有深度學習

發(fā)表于 01-03 10:28 ?1925次閱讀