RM新时代|官方理财平台,RM新时代是骗人的吗

在深度神經(jīng)網(wǎng)絡(luò)(DNN)發(fā)展的簡(jiǎn)短歷史中，業(yè)界不斷嘗試各種可提升性能的硬件架構(gòu)。通用CPU最容易編程，但每瓦特性能的效率最低。GPU針對(duì)平行浮點(diǎn)運(yùn)算進(jìn)行了優(yōu)化，性能也比CPU更高幾倍。因此，當(dāng)GPU供貨商有了一大批新客戶，他們開始增強(qiáng)設(shè)計(jì)，以進(jìn)一步提高DNN效率。例如，Nvidia新的Volta架構(gòu)增加專用矩陣乘法單元，加速了常見的DNN運(yùn)算。

即使是增強(qiáng)型的GPU，仍然受其圖形專用邏輯的拖累。此外，盡管大多數(shù)的訓(xùn)練仍然使用浮點(diǎn)運(yùn)算，但近來(lái)的趨勢(shì)是使用整數(shù)運(yùn)算進(jìn)行DNN推論。例如Nvidia Volta的整數(shù)性能，但仍然建議使用浮點(diǎn)運(yùn)算進(jìn)行推論。芯片設(shè)計(jì)人員很清楚，整數(shù)單元比浮點(diǎn)單元更小且功效更高得多；當(dāng)使用8位(或更小)整數(shù)而非16位或32位浮點(diǎn)數(shù)時(shí)，其優(yōu)勢(shì)更加明顯。

相較于GPU，DSP則是針對(duì)整數(shù)數(shù)學(xué)而設(shè)計(jì)的，特別適用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的卷積函數(shù)。向量DSP使用寬SIMD單元進(jìn)一步加速推論計(jì)算，例如，Cadence的C5 DSP核心包括四個(gè)2048位寬度的SIMD單元；因此，核心在每個(gè)周期內(nèi)可以完成1,024個(gè)8位整數(shù)乘法累加(MAC)作業(yè)。在16nm設(shè)計(jì)中，它能每秒處理超過(guò)1兆個(gè)MAC運(yùn)算。聯(lián)發(fā)科技(MediaTek)即取得了Cadence的DSP IP授權(quán)，用于其最新智能手機(jī)處理器的DNN加速器。

新架構(gòu)的機(jī)會(huì)

最有效率的架構(gòu)是從頭開始設(shè)計(jì)DNN，消除其它應(yīng)用的特性，并針對(duì)DNN需要的特定計(jì)算進(jìn)行優(yōu)化。這些架構(gòu)能建置于專用ASIC或銷售至系統(tǒng)制造商的芯片(這些芯片稱為專用標(biāo)準(zhǔn)產(chǎn)品或ASSP)中。最顯著的DNN ASIC是Google的TPU，它為推論任務(wù)進(jìn)行了優(yōu)化，主要包括65,536個(gè)MAC單元的脈動(dòng)數(shù)組和28MB內(nèi)存，以容納DNN權(quán)重和累加器。TPU使用一個(gè)簡(jiǎn)單的四階流水線，而且只執(zhí)行少數(shù)指令。

多家新創(chuàng)公司也在為DNN開發(fā)客制架構(gòu)。英特爾(Intel)去年收購(gòu)了其中的一家(Nervana)，并計(jì)劃在今年年底前出樣其第一款A(yù)SSP；但該公司尚未透露該架構(gòu)的任何細(xì)節(jié)。Wave Computing為DNN開發(fā)了數(shù)據(jù)流處理器。其它為此獲得眾多資金的新創(chuàng)公司包括Cerebras、Graphcore和Groq。我們預(yù)計(jì)這些公司至少有幾家會(huì)在2018年投產(chǎn)組件。

另一種建置優(yōu)化架構(gòu)的方法是利用FPGA。微軟(Microsoft)廣泛采用FPGA作為其Catapult和Brainwave計(jì)劃的一部份；百度(Baidu)、Facebook以及其它云端服務(wù)器供貨商(CSP)也使用FPGA加速DNN。這種方法避免了數(shù)百萬(wàn)美元的ASIC和ASSP投片費(fèi)用，并提供了更快的產(chǎn)品驗(yàn)證時(shí)程；只要設(shè)計(jì)改動(dòng)，F(xiàn)PGA就能在幾分鐘內(nèi)重新編程和設(shè)計(jì)。但它們作業(yè)于較低的時(shí)鐘速率，并且比ASIC所能容納的邏輯塊更少得多。圖1總結(jié)了我們對(duì)這些解決方案之間相對(duì)效率的看法。

許多不同的硬件架構(gòu)在深度學(xué)習(xí)市場(chǎng)中共存
圖1：根據(jù)不同的硬件設(shè)計(jì)，各種深度學(xué)習(xí)加速器之間的性能/功耗比至少存在兩個(gè)數(shù)量級(jí)的差異

有些公司藉由客制程度更高的加速器來(lái)強(qiáng)化現(xiàn)有設(shè)計(jì)，從而提供了一定的空間與彈性，例如，Nvidia專為自動(dòng)駕駛車設(shè)計(jì)的Xavier芯片增加了一個(gè)整數(shù)數(shù)學(xué)模塊以加速DNN推論。Ceva和新思科技(Synopsys)設(shè)計(jì)了類似的單元，以便增強(qiáng)其SIMD DSP核心。這些模塊只包含大量的整數(shù)MAC單元，從而提高了數(shù)學(xué)運(yùn)算效率。然而，由于他們并未置換底層的GPU或DSP架構(gòu)，所以也不像從頭設(shè)計(jì)那么有效率。

客制設(shè)計(jì)的挑戰(zhàn)之一在于深度學(xué)習(xí)算法持續(xù)迅速發(fā)展中。時(shí)下最流行的DNN開發(fā)工具TensorFlow兩年前才出現(xiàn)，數(shù)據(jù)科學(xué)家們已經(jīng)在評(píng)估新的DNN結(jié)構(gòu)、卷積函數(shù)和數(shù)據(jù)格式了。對(duì)于兩年后的DNN來(lái)說(shuō)，如今為現(xiàn)有工作負(fù)載客制的設(shè)計(jì)可能不再是理想的選擇，或甚至無(wú)法發(fā)揮作用。為了解決這個(gè)問(wèn)題，大多數(shù)的ASIC和ASSP設(shè)計(jì)都是可編程且靈活的，但是FPGA提供了最大靈活度。例如，微軟已經(jīng)將專有的9位浮點(diǎn)格式定義為其Brainwave深度學(xué)習(xí)平臺(tái)的一部份。

融會(huì)貫通各種選擇

縱觀深度學(xué)習(xí)發(fā)展史，半導(dǎo)體產(chǎn)業(yè)通常首先在通用CPU中實(shí)現(xiàn)新應(yīng)用。如果應(yīng)用適用于現(xiàn)有的專用芯片，如GPU和DSP，那么接下來(lái)可能會(huì)轉(zhuǎn)移到這兩者。隨著時(shí)間的推移，如果新應(yīng)用發(fā)展成一個(gè)規(guī)模市場(chǎng)，業(yè)界公司就會(huì)開始開發(fā)ASIC和ASSP，雖然這些組件可能保留一定的可編程性。只有當(dāng)算法變得極其穩(wěn)定時(shí)(例如MPEG)，才能真的看到以固定功能邏輯的應(yīng)用建置。

深度學(xué)習(xí)目前也正按這一發(fā)展路線展開。GPU和DSP顯然是適用的，而且因需求夠高，所以ASIC開始出現(xiàn)。幾家新創(chuàng)公司和其它公司正在開發(fā)即將在2018年及其后出貨的ASSP。至于少量或利基應(yīng)用，F(xiàn)PGA通常更受歡迎；深度學(xué)習(xí)已經(jīng)顯示出足以為ASIC投片帶來(lái)的前景了。

然而，哪一種DNN架構(gòu)將會(huì)勝出？如今看來(lái)還不夠明朗。盡管深度學(xué)習(xí)市場(chǎng)正迅速成長(zhǎng)，但仍遠(yuǎn)低于PC、智能手機(jī)和汽車市場(chǎng)。因此，ASIC和ASSP的商業(yè)案例看起來(lái)還微不足道。相形之下，像英特爾和Nvidia這樣的公司可以采用來(lái)自其它市場(chǎng)的高性能處理器，并增強(qiáng)其深度學(xué)習(xí)，透過(guò)大量的軟件支持和持續(xù)的更新以提供具競(jìng)爭(zhēng)力的產(chǎn)品。未來(lái)幾年，我們將會(huì)看到許多不同的硬件架構(gòu)在深度學(xué)習(xí)市場(chǎng)中共存。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5500

瀏覽量
121111
硬件架構(gòu)

硬件架構(gòu)

+關(guān)注

關(guān)注
0

文章
29

瀏覽量
9063
dnn

dnn

+關(guān)注

關(guān)注
0

文章
60

瀏覽量
9051

原文標(biāo)題：誰(shuí)才是深度學(xué)習(xí)架構(gòu)之王？

文章出處：【微信號(hào)：eet-china，微信公眾號(hào)：電子工程專輯】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

GPU在深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計(jì)中的作用

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)作為其核心部分，已經(jīng)成為推動(dòng)技術(shù)進(jìn)步的重要力量。GPU（圖形處理單元）在深度學(xué)習(xí)中扮演著至關(guān)重要的角色，

發(fā)表于 11-19 10:55 ?427次閱讀

NPU在深度學(xué)習(xí)中的應(yīng)用

設(shè)計(jì)的硬件加速器，它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對(duì)深度學(xué)習(xí)算法優(yōu)化的處理器，它與傳統(tǒng)的CPU和G

發(fā)表于 11-14 15:17 ?503次閱讀

pcie在深度學(xué)習(xí)中的應(yīng)用

深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算能力來(lái)訓(xùn)練。傳統(tǒng)的CPU計(jì)算資源有限，難以滿足深度學(xué)習(xí)的需求。因此，GPU（圖形處理單元）和TPU（張量處理單元）等專用

發(fā)表于 11-13 10:39 ?374次閱讀

GPU深度學(xué)習(xí)應(yīng)用案例

GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要，以下是一些GPU深度學(xué)習(xí)應(yīng)用案例：一、圖像識(shí)別圖像識(shí)別是深度

發(fā)表于 10-27 11:13 ?381次閱讀

FPGA加速深度學(xué)習(xí)模型的案例

FPGA（現(xiàn)場(chǎng)可編程門陣列）加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例：一、基于FPG

發(fā)表于 10-25 09:22 ?214次閱讀

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

的發(fā)展前景較為廣闊，但也面臨一些挑戰(zhàn)。以下是一些關(guān)于 FPGA 在深度學(xué)習(xí)中應(yīng)用前景的觀點(diǎn)，僅供參考： ? 優(yōu)勢(shì)方面： ? 高度定制化的計(jì)算架構(gòu)：FPGA 可以根據(jù)

發(fā)表于 09-27 20:53

深度學(xué)習(xí)算法在嵌入式平臺(tái)上的部署

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)算法在各個(gè)領(lǐng)域的應(yīng)用日益廣泛。然而，將深度學(xué)習(xí)算法部署到資源受限的嵌入式平臺(tái)上，仍然是一個(gè)具有挑戰(zhàn)性的任

發(fā)表于 07-15 10:03 ?1328次閱讀

深度學(xué)習(xí)中的時(shí)間序列分類方法

的發(fā)展，基于深度學(xué)習(xí)的TSC方法逐漸展現(xiàn)出其強(qiáng)大的自動(dòng)特征提取和分類能力。本文將從多個(gè)角度對(duì)深度學(xué)習(xí)在時(shí)間序列分類中的應(yīng)用進(jìn)行綜述，探討常用

發(fā)表于 07-09 15:54 ?875次閱讀

深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支，近年來(lái)在多個(gè)領(lǐng)域取得了顯著的成果，特別是在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。然而，

發(fā)表于 07-09 10:50 ?672次閱讀

深度學(xué)習(xí)在視覺檢測(cè)中的應(yīng)用

能力，還使得機(jī)器能夠模仿人類的某些智能行為，如識(shí)別文字、圖像和聲音等。深度學(xué)習(xí)的引入，極大地推動(dòng)了人工智能技術(shù)的發(fā)展，特別是在圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域取得了顯著成果。

發(fā)表于 07-08 10:27 ?699次閱讀

深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

在人工智能的浪潮中，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無(wú)疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步，為眾多領(lǐng)域帶來(lái)了革命性的變化。然而，盡管它們都屬于機(jī)器

發(fā)表于 07-01 11:40 ?1323次閱讀

深度學(xué)習(xí)在自動(dòng)駕駛中的關(guān)鍵技術(shù)

隨著人工智能技術(shù)的飛速發(fā)展，自動(dòng)駕駛技術(shù)作為其中的重要分支，正逐漸走向成熟。在自動(dòng)駕駛系統(tǒng)中，深度學(xué)習(xí)技術(shù)發(fā)揮著至關(guān)重要的作用。它通過(guò)模擬人腦的學(xué)習(xí)過(guò)程，實(shí)現(xiàn)對(duì)車輛周圍環(huán)境的感知、理解

發(fā)表于 07-01 11:40 ?753次閱讀

深度解析深度學(xué)習(xí)下的語(yǔ)義SLAM

隨著深度學(xué)習(xí)技術(shù)的興起，計(jì)算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展，例如目標(biāo)的檢測(cè)、識(shí)別和分類等領(lǐng)域。近年來(lái)，研究人員開始在視覺SLAM算法中引入深

發(fā)表于 04-23 17:18 ?1283次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

硬件公司供貨的不斷增加，GPU 在深度學(xué)習(xí)中的市場(chǎng)需求還催生了大量公共云服務(wù)，這些服務(wù)為深度

發(fā)表于 03-21 15:19

什么是深度學(xué)習(xí)？機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的主要差異

2016年AlphaGo 擊敗韓國(guó)圍棋冠軍李世石，在媒體報(bào)道中，曾多次提及“深度學(xué)習(xí)”這個(gè)概念。

發(fā)表于 01-15 10:31 ?1068次閱讀

RM新时代网站-首页

搜索歷史

許多不同的硬件架構(gòu)在深度學(xué)習(xí)市場(chǎng)中共存

評(píng)論

GPU在深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計(jì)中的作用

NPU在深度學(xué)習(xí)中的應(yīng)用

pcie在深度學(xué)習(xí)中的應(yīng)用

GPU深度學(xué)習(xí)應(yīng)用案例

FPGA加速深度學(xué)習(xí)模型的案例

FPGA做深度學(xué)習(xí)能走多遠(yuǎn)？

深度學(xué)習(xí)算法在嵌入式平臺(tái)上的部署

深度學(xué)習(xí)中的時(shí)間序列分類方法

深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

深度學(xué)習(xí)在視覺檢測(cè)中的應(yīng)用

深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

深度學(xué)習(xí)在自動(dòng)駕駛中的關(guān)鍵技術(shù)

深度解析深度學(xué)習(xí)下的語(yǔ)義SLAM

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

什么是深度學(xué)習(xí)？機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的主要差異