RM新时代资金盘,RM新时代|首入球时间

前兩天成立僅兩年國內專做人工智能 FPGA加速算法的初創(chuàng)公司深鑒科技被國際巨頭賽靈思收購了，在業(yè)界引起不小的震動。目前國內做AI 芯片的公司可謂不少了，AI芯片已然成為了當下芯片行業(yè)最熱領域。但是大部分人對AI芯片的架構應該都不是太了解。那么AI 芯片和傳統芯片有何區(qū)別？AI芯片的架構到底是怎么樣的？帶著這個疑問小編搜集到了來自知乎上的一些業(yè)內行家的觀點，現在整理轉發(fā)給大家。

（1）性能與傳統芯片，比如CPU、GPU有很大的區(qū)別。在執(zhí)行AI算法時，更快、更節(jié)能。

（2）工藝沒有區(qū)別，大家都一樣。至少目前來看，都一樣。

所謂的AI芯片，一般是指針對AI算法的ASIC（專用芯片）。

傳統的CPU、GPU都可以拿來執(zhí)行AI算法，但是速度慢，性能低，無法實際商用。

比如，自動駕駛需要識別道路行人紅綠燈等狀況，但是如果是當前的CPU去算，那么估計車翻到河里了還沒發(fā)現前方是河，這是速度慢，時間就是生命。如果用GPU，的確速度要快得多，但是，功耗大，汽車的電池估計無法長時間支撐正常使用，而且，老黃家的GPU巨貴，經常單塊上萬，普通消費者也用不起，還經常缺貨。另外，GPU因為不是專門針對AI算法開發(fā)的ASIC，所以，說到底，速度還沒到極限，還有提升空間。而類似智能駕駛這樣的領域，必須快！在手機終端，可以自行人臉識別、語音識別等AI應用，這個必須功耗低，所以GPU OUT！

所以，開發(fā)ASIC就成了必然。

說說，為什么需要AI芯片。

AI算法，在圖像識別等領域，常用的是CNN卷積網絡，語音識別、自然語言處理等領域，主要是RNN，這是兩類有區(qū)別的算法。但是，他們本質上，都是矩陣或vector的乘法、加法，然后配合一些除法、指數等算法。

一個成熟的AI算法，比如YOLO-V3，就是大量的卷積、殘差網絡、全連接等類型的計算，本質是乘法和加法。對于YOLO-V3來說，如果確定了具體的輸入圖形尺寸，那么總的乘法加法計算次數是確定的。比如一萬億次。（真實的情況比這個大得多的多）

那么要快速執(zhí)行一次YOLO-V3，就必須執(zhí)行完一萬億次的加法乘法次數。

這個時候就來看了，比如IBM的POWER8，最先進的服務器用超標量CPU之一，4GHz，SIMD，128bit，假設是處理16bit的數據，那就是8個數，那么一個周期，最多執(zhí)行8個乘加計算。一次最多執(zhí)行16個操作。這還是理論上，其實是不大可能的。

那么CPU一秒鐘的巔峰計算次數=16X4Gops=64Gops。

這樣，可以算算CPU計算一次的時間了。

同樣的，換成GPU算算，也能知道執(zhí)行時間。因為對GPU內部結構不熟，所以不做具體分析。

再來說說AI芯片。比如大名鼎鼎的谷歌的TPU1.

TPU1，大約700M Hz，有256X256尺寸的脈動陣列，如下圖所示。一共256X256=64K個乘加單元，每個單元一次可執(zhí)行一個乘法和一個加法。那就是128K個操作。（乘法算一個，加法再算一個）

另外，除了脈動陣列，還有其他模塊，比如激活等，這些里面也有乘法、加法等。

所以，看看TPU1一秒鐘的巔峰計算次數至少是=128K X 700MHz=89600Gops=大約90Tops。

對比一下CPU與TPU1，會發(fā)現計算能力有幾個數量級的差距，這就是為啥說CPU慢。

當然，以上的數據都是完全最理想的理論值，實際情況，能夠達到5%吧。因為，芯片上的存儲不夠大，所以數據會存儲在DRAM中，從DRAM取數據很慢的，所以，乘法邏輯往往要等待。另外，AI算法有許多層網絡組成，必須一層一層的算，所以，在切換層的時候，乘法邏輯又是休息的，所以，諸多因素造成了實際的芯片并不能達到利潤的計算峰值，而且差距還極大。

可能有人要說，搞研究慢一點也能將就用。

目前來看，神經網絡的尺寸是越來越大，參數越來越多，遇到大型NN模型，訓練需要花幾周甚至一兩個月的時候，你會耐心等待么？突然斷電，一切重來？（曾經動手訓練一個寫小說的AI，然后，一次訓練（50輪）需要大約一天一夜還多，記得如果第一天早上開始訓練，需要到第二天下午才可能完成，這還是模型比較簡單，數據只有幾萬條的小模型呀。）

修改了模型，需要幾個星期才能知道對錯，確定等得起？

突然有了TPU，然后你發(fā)現，吃個午飯回來就好了，參數優(yōu)化一下，繼續(xù)跑，多么爽！

計算速度快，才能迅速反復迭代，研發(fā)出更強的AI模型。速度就是金錢。

GPU的內核結構不清楚，所以就不比較了?？隙ǖ氖?，GPU還是比較快的，至少比CPU快得多，所以目前大多數都用GPU，這玩意隨便一個都能價格輕松上萬，太貴，而且，功耗高，經常缺貨。不適合數據中心大量使用。

總的來說，CPU與GPU并不是AI專用芯片，為了實現其他功能，內部有大量其他邏輯，而這些邏輯對于目前的AI算法來說是完全用不上的，所以，自然造成CPU與GPU并不能達到最優(yōu)的性價比。

谷歌花錢研發(fā)TPU，而且目前已經出了TPU3，用得還挺歡，都開始支持谷歌云計算服務了，貌似6點幾美元每小時吧，不記得單位了，懶得查.

可見，谷歌覺得很有必要自己研發(fā)TPU。

目前在圖像識別、語音識別、自然語言處理等領域，精度最高的算法就是基于深度學習的，傳統的機器學習的計算精度已經被超越，目前應用最廣的算法，估計非深度學習莫屬，而且，傳統機器學習的計算量與深度學習比起來少很多，所以，我討論AI芯片時就針對計算量特別大的深度學習而言。畢竟，計算量小的算法，說實話，CPU已經很快了。而且，CPU適合執(zhí)行調度復雜的算法，這一點是GPU與AI芯片都做不到的，所以他們三者只是針對不同的應用場景而已，都有各自的主場。

至于為何用了CPU做對比？

而沒有具體說GPU。是因為，我說了，我目前沒有系統查看過GPU的論文，不了解GPU的情況，故不做分析。因為積累的緣故，比較熟悉超標量CPU，所以就用熟悉的CPU做詳細比較。而且，小型的網絡，完全可以用CPU去訓練，沒啥大問題，最多慢一點。只要不是太大的網絡模型。

那些AI算法公司，比如曠世、商湯等，他們的模型很大，自然也不是一塊GPU就能搞定的。GPU的算力也是很有限的。

至于說CPU是串行，GPU是并行

沒錯，但是不全面。只說說CPU串行。這位網友估計對CPU沒有非常深入的理解。我的回答中舉的CPU是IBM的POWER8，百度一下就知道，這是超標量的服務器用CPU，目前來看，性能已經是非常頂級的了，主頻4GHZ。不知是否注意到我說了這是SIMD？這個SIMD，就代表他可以同時執(zhí)行多條同樣的指令，這就是并行，而不是串行。單個數據是128bit的，如果是16bit的精度，那么一周期理論上最多可以計算八組數據的乘法或加法，或者乘加。這還不叫并行？只是并行的程度沒有GPU那么厲害而已，但是，這也是并行。

不知道為啥就不能用CPU來比較算力？

有評論很推崇GPU。說用CPU來做比較，不合適。

拜托，GPU本來是從CPU中分離出來專門處理圖像計算的，也就是說，GPU是專門處理圖像計算的。包括各種特效的顯示。這也是GPU的天生的缺陷，GPU更加針對圖像的渲染等計算算法。但是，這些算法，與深度學習的算法還是有比較大的區(qū)別，而我的回答里提到的AI芯片，比如TPU，這個是專門針對CNN等典型深度學習算法而開發(fā)的。另外，寒武紀的NPU，也是專門針對神經網絡的，與TPU類似。

谷歌的TPU，寒武紀的DianNao，這些AI芯片剛出道的時候，就是用CPU/GPU來對比的。

看看，谷歌TPU論文的摘要直接對比了TPU1與CPU/GPU的性能比較結果，見紅色框：

這就是摘要中介紹的TPU1與CPU/GPU的性能對比。

再來看看寒武紀DianNao的paper，摘要中直接就是DianNao與CPU的性能的比較，見紅色框：

回顧一下歷史

上個世紀出現神經網絡的時候，那一定是用CPU計算的。

比特幣剛出來，那也是用CPU在挖。目前已經進化成ASIC礦機了。比特大陸了解一下。

從2006年開始開啟的深度學習熱潮，CPU與GPU都能計算，發(fā)現GPU速度更快，但是貴啊，更多用的是CPU，而且，那時候GPU的CUDA可還不怎么樣，后來，隨著NN模型越來越大，GPU的優(yōu)勢越來越明顯，CUDA也越來越6，目前就成了GPU的專場。

寒武紀2014年的DianNao（NPU）比CPU快，而且更加節(jié)能。ASIC的優(yōu)勢很明顯啊。這也是為啥要開發(fā)ASIC的理由。

至于說很多公司的方案是可編程的，也就是大多數與FPGA配合。你說的是商湯、深鑒么？的確，他們發(fā)表的論文，就是基于FPGA的。

這些創(chuàng)業(yè)公司，他們更多研究的是算法，至于芯片，還不是重點，另外，他們暫時還沒有那個精力與實力。FPGA非常靈活，成本不高，可以很快實現架構設計原型，所以他們自然會選擇基于FPGA的方案。不過，最近他們都大力融資，官網也在招聘芯片設計崗位，所以，應該也在涉足ASIC研發(fā)了。

如果以FPGA為代表的可編程方案真的有巨大的商業(yè)價值，那他們何必砸錢去做ASIC？

說了這么多，我也是半路出家的，因為工作需要而學習的。按照我目前的理解，看TPU1的專利及論文，一步一步推導出內部的設計方法，理解了TPU1，大概就知道了所謂的AI處理器的大部分。然后研究研究寒武紀的一系列論文，有好幾種不同的架構用于不同的情況，有興趣可以研究一下。然后就是另外幾個獨角獸，比如商湯、深鑒科技等，他們每年都會有論文發(fā)表，沒事去看看。這些論文，大概就代表了當前最先進的AI芯片的架構設計了。當然，最先進，別人肯定不會公開，比如谷歌就不曾公開關于TPU2和TPU3的相關專利，反正我沒查到。不過，沒事，目前的文獻已經代表了最近幾年最先進的進展了。

作者：Bluebear

鏈接：https://www.zhihu.com/question/285202403/answer/444457305

現在所說的AI芯片，可以分兩類，一類是面向訓練和推斷(Inference)皆可的，這個活GPGPU可以干，CPU也可以干，FPGA（Altera的Stratix系列）也都行，但是Google的TPU2和Bitmain的sophon之類因為專門設計可能在能耗比上有優(yōu)勢。這類產品相對GPGPU，整體類似，保留了相當多的浮點處理單元的同時（或者說建立了很多張量計算單元），拋棄了一些沒啥用的圖形流水線的玩意，提高了能耗表現。這部分玩家少，但是卻更有趣。當然ICLR也有琢磨用定點器件訓練的工作，Xilinx家是希望XNOR-net讓定點器件都能參與訓練。

另一類是Inference Accelerator推斷加速芯片，簡單說就是把訓練好的模型在芯片上跑。這塊是真的百花齊放，比如的寒武紀NPU，Intel Movidius(還有個Nervana應該類似XeonPhi用來訓練的)，深鑒的DPU，地平線BPU，Imagination的PowerVR 2NX，ARM的Project Trillium，還有一堆IP。這類產品既有產品，又提供IP讓其他開發(fā)者講深度學習加速器集成到SoC內。另外這里需要單獨說下Tegra X2這個產品，這個相當于一個小的桌面平臺，ARM處理器加Nvidia GPU可以提供完整的訓練推斷能力，當然功耗也很高。其他的加速芯片，我覺得最好分成兩類，浮點的和定點的。浮點的也只是FP16半精度的，當然支持FP16也支持INT8，比如寒武紀的NPU和Intel Movidius。一類就是純定點的比如地平線的BPU還有Imagination的PowerVR 2NX之類。當然也有混合的，這塊后面細說。

首先說下非ASIC的，Deephi部分產品使用了ZYNQ實現，使用ZYNQ最大的好處就是省了流片費用，使用DSP48和資源實現乘加器完成定點操作，浮點交給CortexA9硬核，Deephi主要是工作在模型剪枝定點化方面，之前和汪玉老師交流，網絡定點化時候部分層定點化定點化損失較高，因此保留部分層（主要是最后的）浮點，和嘉楠智耘做加速的人聊也印證這部分，用SOPC比較省事。再就是兼職的比如高通AI平臺使用了Adreno GPU和Hexagon DSP做（主要是DSP，風評貌似能耗比970那個好看），SNPE主要是OpenCL折騰用GPU和DSP之類資源推斷，MTK和AAPL也類似。其他的差別就很大了Intel Movidius發(fā)布較早，支持浮點推斷，實際里面是VLIW的SIMD單元，這玩意和之前ATi顯卡，或者說DSP設計類似。其他的因為在下看到公開資料不多，瞎說說，一般AI加速器都主要是針對現有網絡，做定點或者浮點計算的優(yōu)化，當然首先還是堆運算單元（矩陣運算單元，乘加），然后減少內存數據搬運，970上那個可能掛在CCI上，然后靠較多緩存，PowerVR 2NX那個貌似是優(yōu)化到4bit的內存控制器？通過優(yōu)化內存數據通路，減少一些內存帶寬需求之列，總體其實還是關聯的。感覺上這類東西接近超多核的DSP，不過是精簡的畢竟DSP還能做點控制，笑。

另外某種程度上說，對新的網絡優(yōu)化很差，一般工業(yè)比學術慢一年多，比如DenseNet出來了，片子只支持到Resnet。

關于下面兩個問題：

如果讓GPGPU或者CPU做inference能耗比肯定不好看，但是浮點inference一般比定點化或者精度降低后的情況準確率高（當然存在定點化后泛化能力好的情況）。但是NPU只能在CPU控制下做特定任務就很丟人了，沒有很多的應用支持，NPU就很雞肋，在手機上，很多時候你根本用不到NPU，所以我覺得需要的時候用Mali啥的頂頂得了……

沒有啥差別，和別的比如手機SoC，顯卡GPU用一套工藝，有錢上新制程，新工藝咯。

人工智能究竟能給我們的生活帶來什么？以我們最熟悉的手機為例，日常的拍照美顏已經稀松平常，但目前的自拍軟件在拍攝完成后，需要上傳到云端，通過通用模型來完成“一鍵美顏”。而移動端的 AI 芯片則可根據用戶平時的喜好，在照片拍攝完成后（甚至拍攝之前的取景階段）就同步完成照片美化，這對于現有的CPU來說是難以完成的。

那么二者的差別在哪里呢？首先，傳統芯片在運算時只需要根據指令來調用相應系統進行工作，而 AI 指令之下則包含大量并行計算與建模。這無疑對處理器的計算能力提出了很高要求。

其次是移動端的數據收集能力，尤其是手機。優(yōu)秀的 AI 應用要收集大量的數據來對模型進行訓練，而手機無疑是最好的數據收集工具。隨著諸如麥克風、攝像頭、重力感應器、定位裝置等越來越多的傳感器加入手機中，一種能實時收集、同步處理、連接協調不同傳感器的“人工智能”芯片就顯得尤為重要。

當然，一片在指甲蓋大小的面積上集成了超過 55 億個晶體管的 AI 芯片不可能只用來拍拍照這么簡單。目前手機上已經有語音服務、機器視覺識別、圖像處理等智能應用，未來還會增加包含醫(yī)療、AR、游戲 AI 等更多元化的應用類型。

除了滿足手機上的應用，未來AI芯片也將有機會拓展其他更有潛力的市場，最典型的例子的例子就是自動駕駛，特斯拉就在去年挖來了AMD的傳奇架構師 Jim Keller開發(fā)自主的AI芯片。甚至在未來，上至火箭航天器、下至深海探測器，其上的控制系統所仰賴的芯片都將會越來越AI化。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

cpu

cpu

+關注

關注
68

文章
10847

瀏覽量
211494
gpu

gpu

+關注

關注
28

文章
4719

瀏覽量
128861
AI芯片

AI芯片

+關注

關注
17

文章
1873

瀏覽量
34970

原文標題：AI 芯片和傳統芯片有何區(qū)別？

文章出處：【微信號：iotmag，微信公眾號：iotmag】歡迎添加關注！文章轉載請注明出處。

AI芯片哪里買？

AI芯片

芯廣場

發(fā)布于 :2024年05月31日 16:58:19

手把手教你設計人工智能芯片及系統--（全階設計教程+AI芯片FPGA實現+開發(fā)板）

`` 為什么發(fā)起AI芯片設計眾籌 ?1、傳統指令驅動的處理器（CPU和GPU）已經無法支持數據驅動的AI技術，專用AI

發(fā)表于 07-19 11:54

AI發(fā)展對芯片技術有什么影響？

現在說AI是未來人類技術進步的一大方向，相信大家都不會反對。說到AI和芯片技術的關系，我覺得主要體現在兩個方面：第一，AI的發(fā)展要求芯片技術

發(fā)表于 08-12 06:38

AI芯片熱潮和架構創(chuàng)新有什么作用

魏少軍談AI芯片熱潮和架構創(chuàng)新透露清華Thinker芯片將獨立融資

發(fā)表于 04-23 14:59

AI芯片熱潮和架構創(chuàng)新是什么

魏少軍談AI芯片熱潮和架構創(chuàng)新透露清華Thinker芯片將獨立融資

發(fā)表于 04-24 11:29

arm架構的芯片有哪些

arm架構的芯片有哪些一、芯片的架構模式原文馮諾依曼架構自己理解，不需要執(zhí)行的程序存儲在硬盤/F

發(fā)表于 07-21 08:47

淺析AI芯片和傳統芯片的不同之處

所謂的AI芯片，一般是指針對AI算法的ASIC（專用芯片）。

發(fā)表于 11-26 11:40 ?3562次閱讀

AI芯片什么是AI芯片的架構、分類及關鍵技術概述

人工智能芯片目前有兩種發(fā)展路徑：一種是延續(xù)傳統計算架構，加速硬件計算能力，主要以 3 種類型的芯片為代表，即 GPU、 FPGA、 ASIC，但CPU依舊發(fā)揮著不可替代的作用；另一種是

發(fā)表于 01-05 09:15 ?3.1w次閱讀

<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>什么是<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>的<b class='flag-5'>架構</b>、分類及關鍵技術概述

AI芯片和傳統芯片到底有什么區(qū)別

所謂的AI芯片，一般是指針對AI算法的ASIC（專用芯片）。傳統的CPU、GPU都可以拿來執(zhí)行AI

發(fā)表于 12-21 10:11 ?8573次閱讀

為何AI需要新的芯片架構？

、處理器架構類型、技術、應用、垂直行業(yè)等。不過，AI芯片主要應用于兩個領域，即終端應用（例如手機和智能手表中的芯片）和數據中心應用（用于深度學習推理和訓練）。無論具體應用如何，所有

發(fā)表于 05-13 04:45 ?835次閱讀

ai芯片技術架構有哪些？FPGA芯片定義及結構分析

ASIC（專用集成電路）架構：ASIC是指專門為特定應用設計和制造的定制芯片。AI芯片中的ASIC架構基于特定的深度學習算法和網絡結構進行優(yōu)

發(fā)表于 08-05 16:13 ?8061次閱讀

ai芯片和gpu芯片有什么區(qū)別？

ai芯片和gpu芯片有什么區(qū)別？ AI芯片和GPU芯片

發(fā)表于 08-08 18:02 ?5643次閱讀

ai芯片和傳統芯片的區(qū)別

ai芯片和傳統芯片的區(qū)別隨著人工智能的發(fā)展和應用的普及，越來越多的企業(yè)和科研機構開始研發(fā)人工智能芯片（

發(fā)表于 08-08 19:02 ?5073次閱讀

ai芯片技術架構有哪些

ai芯片技術可以分為不同的體系架構。下面將對ai芯片技術架構做詳細介紹。首先，

發(fā)表于 08-09 14:28 ?1572次閱讀

AI芯片有哪些特點

隨著人工智能（AI）技術的迅猛發(fā)展，AI芯片作為AI應用的核心組成部分，扮演著越來越重要的角色。AI芯片

發(fā)表于 10-24 08:57 ?2906次閱讀

RM新时代网站-首页

搜索歷史

AI芯片的架構和傳統芯片有什么不同？

評論

AI芯片哪里買？

手把手教你設計人工智能芯片及系統--（全階設計教程+AI芯片FPGA實現+開發(fā)板）

AI發(fā)展對芯片技術有什么影響？

AI芯片熱潮和架構創(chuàng)新有什么作用

AI芯片熱潮和架構創(chuàng)新是什么

arm架構的芯片有哪些

淺析AI芯片和傳統芯片的不同之處

AI芯片什么是AI芯片的架構、分類及關鍵技術概述

AI芯片和傳統芯片到底有什么區(qū)別

為何AI需要新的芯片架構？

ai芯片技術架構有哪些？FPGA芯片定義及結構分析

ai芯片和gpu芯片有什么區(qū)別？

ai芯片和傳統芯片的區(qū)別

ai芯片技術架構有哪些

AI芯片有哪些特點

搜索歷史

AI芯片的架構和傳統芯片有什么不同？

評論

AI芯片的架構和傳統芯片有什么不同？