新时代平台,RM新时代平台靠谱平台入口

人工智能應(yīng)用的蓬勃發(fā)展對(duì)算力提出了非常迫切的要求。由于摩爾定律已經(jīng)失效，定制計(jì)算將成為主流方向，因而新型的 AI 芯片開(kāi)始層出不窮，競(jìng)爭(zhēng)也日趨白熱。參與這一競(jìng)爭(zhēng)的不光是傳統(tǒng)的半導(dǎo)體芯片廠商，大型的互聯(lián)網(wǎng)和終端設(shè)備企業(yè)依托于自身龐大的應(yīng)用規(guī)模，直接從自身業(yè)務(wù)需求出發(fā)，參與到 AI 芯片的開(kāi)發(fā)行列。這其中以英偉達(dá)為代表的 GPU 方案已經(jīng)形成規(guī)模龐大的生態(tài)體系，谷歌的 TPU 則形成了互聯(lián)網(wǎng)定義 AI 芯片的標(biāo)桿，其余各家依托各自需求和優(yōu)勢(shì)，提出了多類(lèi)解決方案。本文將簡(jiǎn)要梳理目前各家技術(shù)進(jìn)展?fàn)顟B(tài)，結(jié)合人工智能應(yīng)用的發(fā)展趨勢(shì)，對(duì)影響 AI 芯片未來(lái)發(fā)展趨勢(shì)的主要因素做出一個(gè)粗淺探討。

AI 計(jì)算芯片現(xiàn)狀

目前 AI 芯片領(lǐng)域主要的供應(yīng)商仍然是英偉達(dá)，英偉達(dá)保持了極大的投入力度，快速提高 GPU 的核心性能，增加新型功能，保持了在 AI 訓(xùn)練市場(chǎng)的霸主地位，并積極拓展嵌入式產(chǎn)品形態(tài)，推出 Xavier 系列?；ヂ?lián)網(wǎng)領(lǐng)域，谷歌推出 TPU3.0，峰值性能達(dá)到 100pflops，保持了專(zhuān)用加速處理器的領(lǐng)先地位。同時(shí)華為、百度、阿里、騰訊依托其龐大應(yīng)用生態(tài)，開(kāi)始正式入場(chǎng)，相繼發(fā)布其產(chǎn)品和路線圖。此外，FPGA 技術(shù)，因其低延遲、計(jì)算架構(gòu)靈活可定制，正在受到越來(lái)越多的關(guān)注，微軟持續(xù)推進(jìn)在其數(shù)據(jù)中心部署 FPGA，Xilinx 和 Intel 倆家不約而同把 FPGA 未來(lái)市場(chǎng)中心放到數(shù)據(jù)中心市場(chǎng)。Xilinx 更是推出了劃時(shí)代的 ACAP，第一次將其產(chǎn)品定位到超越 FPGA 的范疇。相較云端高性能 AI 芯片，面向物聯(lián)網(wǎng)的 AI 專(zhuān)用芯片門(mén)檻要低很多，因此也吸引了眾多小體量公司參與。

▌NVIDIA：Xavier

2018 年 1 月，英偉達(dá)發(fā)布了首個(gè)自動(dòng)駕駛處理器——Xavier。這款芯片具有非常復(fù)雜的結(jié)構(gòu)，內(nèi)置六種處理器，超過(guò) 90 億個(gè)晶體管，可以處理海量數(shù)據(jù)。Xavier 的 GMSL（千兆多媒體串行鏈路）高速 IO 將其與迄今為止最大陣列的激光雷達(dá)、雷達(dá)和攝像頭傳感器連接起來(lái)。

圖：Xavier 的內(nèi)部結(jié)構(gòu)

▌NVIDIA：DGX-2

2018 年 3 月，NVIDIA 發(fā)布首款 2-petaFLOPS 系統(tǒng)——DGX-2。它整合了 16 個(gè)完全互聯(lián)的 GPU，使深度學(xué)習(xí)性能提升 10 倍。有了 DGX-2 ，模型的復(fù)雜性和規(guī)模不再受傳統(tǒng)架構(gòu)限制的約束。與傳統(tǒng)的 x85 架構(gòu)相比，DGX-2 訓(xùn)練 ResNet-50 的性能相當(dāng)于 300 臺(tái)配備雙英特爾至強(qiáng) Gold CPU 服務(wù)器的性能，后者的成本超過(guò) 270 美元。

圖：DGX-2 的內(nèi)部結(jié)構(gòu)

▌Google：TPU

自 2016 年首次發(fā)布 TPU 以來(lái)，Google 持續(xù)推進(jìn)，2017 年發(fā)布 TPU 2.0，2018 年 3 月 Google I/O 大會(huì)推出 TPU 3.0。其每個(gè) pod 的機(jī)架數(shù)量是TPU 2.0的兩倍；每個(gè)機(jī)架的云 TPU 數(shù)量是原來(lái)的兩倍。據(jù)官方數(shù)據(jù)，TPU 3.0 的性能可能是 TPU2.0 的八倍，高達(dá) 100 petaflops。

圖：TPU 1 & 2 & 3 參數(shù)對(duì)比圖

▌華為：晟騰 910 & 晟騰 310

2018 年 10月，華為正式發(fā)布兩款 AI 芯片：昇騰 910 和昇騰 310。預(yù)計(jì)下一年第二季度正式上市。華為昇騰 910 采用 7nm 工藝，達(dá)芬奇架構(gòu)，半精度（FP16）可達(dá) 256TeraFLOPS，整數(shù)精度（INT8）可達(dá) 512TeraOPS，自帶 128 通道全高清視頻解碼器 H.264/265，最大功耗350W。華為昇騰 310 采用 12nmFFC 工藝，達(dá)芬奇架構(gòu)，半精度（FP16）可達(dá)8TeraFLOPS，整數(shù)精度（INT8）可達(dá) 16 TeraOPS，自帶 16 通道全高清視頻解碼器H.264/265，最大功耗 8W。

圖：華為晟騰性能數(shù)據(jù)圖

▌寒武紀(jì)：MLU100

2018 年 5 月，寒武紀(jì)推出第一款智能處理板卡——MLU100。搭載了寒武紀(jì) MLU100 芯片，為云端推理提供強(qiáng)大的運(yùn)算能力支撐。等效理論計(jì)算能力高達(dá) 128 TOPS，支持 4 通道 64 bit ECCDDR4 內(nèi)存，并支持多種容量。1M 是第三代機(jī)器學(xué)習(xí)專(zhuān)用芯片，使用 TSMC 7nm 工藝生產(chǎn)，其 8 位運(yùn)算效能比達(dá) 5Tops/watt（每瓦 5 萬(wàn)億次運(yùn)算）。寒武紀(jì) 1M 處理器延續(xù)了前兩代 IP 產(chǎn)品（1H/1A）的完備性，可支持 CNN、RNN、SOM 等多種深度學(xué)習(xí)模型，此次又進(jìn)一步支持了 SVM、K-NN、K-Means、決策樹(shù)等經(jīng)典機(jī)器學(xué)習(xí)算法的加速。這款芯片支持幫助終端設(shè)備進(jìn)行本地訓(xùn)練，可為視覺(jué)、語(yǔ)音、自然語(yǔ)言處理等任務(wù)提供高效計(jì)算平臺(tái)。

圖：MLU 100 參數(shù)數(shù)據(jù)表

▌地平線：旭日 1.0 & 征程 1.0

2017 年 12 月，地平線自主設(shè)計(jì)研發(fā)了中國(guó)首款嵌入式人工智能視覺(jué)芯片——旭日 1.0 和征程 1.0。旭日 1.0 是面向智能攝像頭的處理器，具備在前端實(shí)現(xiàn)大規(guī)模人臉檢測(cè)跟蹤、視頻結(jié)構(gòu)化的處理能力，可廣泛用于智能城市、智能商業(yè)等場(chǎng)景。征程 1.0是面向自動(dòng)駕駛的處理器，可同時(shí)對(duì)行人、機(jī)動(dòng)車(chē)、非機(jī)動(dòng)車(chē)、車(chē)道線交通標(biāo)識(shí)等多類(lèi)目標(biāo)進(jìn)行精準(zhǔn)的實(shí)時(shí)監(jiān)測(cè)和識(shí)別，實(shí)現(xiàn) FCW/LDW/JACC 等高級(jí)別輔助駕駛功能。

▌比特大陸：BM1880 & BM1682

2018 年 10 月，比特大陸正式發(fā)布邊緣計(jì)算人工智能芯片 BM1880，可提供 1 TOPS@INT8 算力。推出面向深度學(xué)習(xí)領(lǐng)域的第二代張量計(jì)算處理器 BM 1682，峰值性能達(dá) 3 TFLOPS FP32。

BM1682 VS BM1680 性能對(duì)比

BM1682 的算豐智能服務(wù)器SA3、嵌入式 AI 迷你機(jī) SE3、3D 人臉識(shí)別智能終端以及基于 BM1880 的開(kāi)發(fā)板、AI 模塊、算力棒等產(chǎn)品。BM1682 芯片量產(chǎn)發(fā)布，峰值算力達(dá)到 3TFlops，功耗為 30W。

▌百度：昆侖芯片

2018 年 7 月，百度AI開(kāi)發(fā)者大會(huì)上李彥宏正式宣布研發(fā) AI 芯片——昆侖。這款 AI 芯片適合對(duì) AI、深度學(xué)習(xí)有需求的廠商、機(jī)構(gòu)等。借助著昆侖 AI 芯片強(qiáng)勁的運(yùn)算性能，未來(lái)有望應(yīng)用到無(wú)人駕駛、圖像識(shí)別等場(chǎng)景中去。

▌阿里：研發(fā) Ali-NPU、成立平頭哥半導(dǎo)體芯片公司

2018 年 4 月，阿里巴巴達(dá)摩院宣布正在研發(fā)的一款神經(jīng)網(wǎng)絡(luò)芯片——Ali-NPU。其主要用途是圖像視頻分析、機(jī)器學(xué)習(xí)等 AI 推理計(jì)算。9 月，在云棲大會(huì)上，阿里巴巴正式宣布合并中天微達(dá)摩院團(tuán)隊(duì)，成立平頭哥半導(dǎo)體芯片公司。

▌Xilinx：ACAP、收購(gòu)深鑒科技

2018 年 3 月，賽靈思宣布推出一款超越 FPGA 功能的新產(chǎn)品——ACAP（自適應(yīng)計(jì)算加速平臺(tái)）。其核心是新一代的 FPGA 架構(gòu)。10月，發(fā)布最新基于 7nm 工藝的 ACAP 平臺(tái)的第一款處理器——Versal。其使用多種計(jì)算加速技術(shù)，可以為任何應(yīng)用程序提供強(qiáng)大的異構(gòu)加速。Versal Prime 系列和 Versal AI Core 系列產(chǎn)品也將于 2019 年推出。

2018 年 7 月，賽靈思宣布收購(gòu)深鑒科技。

賽靈思ACAP框圖

AI 芯片發(fā)展面臨的矛盾、問(wèn)題、挑戰(zhàn)

目前AI芯片發(fā)展面臨4大矛盾：圍繞這些矛盾，需要解決大量相關(guān)問(wèn)題和挑戰(zhàn)。

▌大型云服務(wù)商與AI芯片提供商的矛盾

技術(shù)路線上，面向通用市場(chǎng)的英偉達(dá)持續(xù)推進(jìn) GPU 技術(shù)發(fā)展，但是大型云服務(wù)商也不愿陷入被動(dòng)，結(jié)合自身規(guī)模龐大的應(yīng)用需求，比較容易定義一款適合的 AI 芯片，相應(yīng)的應(yīng)用打磨也比較好解決。同時(shí)，新的芯片平臺(tái)都會(huì)帶來(lái)生態(tài)系統(tǒng)的分裂。但是對(duì)于普通用戶(hù)，競(jìng)爭(zhēng)會(huì)帶來(lái)價(jià)格上的好處。由于 AI 算力需求飛速提升，短期內(nèi) AI 芯片市場(chǎng)還會(huì)進(jìn)一步多樣化。

▌中美矛盾

中國(guó)依托于龐大市場(chǎng)規(guī)模，以及 AI 應(yīng)用技術(shù)的大力投資，非常有機(jī)會(huì)在 AI 相關(guān)領(lǐng)域取得突破。但是受到《瓦森那協(xié)議》以及近期中美貿(mào)易戰(zhàn)等因素影響，中美在集成電路產(chǎn)業(yè)層面展開(kāi)了激烈的競(jìng)爭(zhēng)。AI 芯片有機(jī)會(huì)為中國(guó)帶來(lái)破局的機(jī)會(huì)，因此后期可以預(yù)期，國(guó)內(nèi)會(huì)有更多的資金投入到 AI 芯片領(lǐng)域。

▌專(zhuān)用與通用間的矛盾

云端市場(chǎng)由于各大巨頭高度壟斷，會(huì)形成多個(gè)相對(duì)封閉的 AI 芯片方案。而邊緣端市場(chǎng)由于高度分散，局部市場(chǎng)難以形成完整的技術(shù)生態(tài)體系，生態(tài)建設(shè)會(huì)圍繞主流核心技術(shù)拓展，包括ARM、Risc-V、NVDLA 等。各大掌握核心技術(shù)的廠商，也會(huì)迎合這一趨勢(shì)，盡可能占領(lǐng)更大的生態(tài)份額，積極開(kāi)放技術(shù)給中小企業(yè)開(kāi)發(fā)各類(lèi) AI 芯片。

▌AI 芯片創(chuàng)新與設(shè)計(jì)工具及生態(tài)之間的矛盾

以 FPGA 為例，學(xué)界和業(yè)界仍然沒(méi)有開(kāi)創(chuàng)性的方法簡(jiǎn)化 FPGA 的開(kāi)發(fā)，這是現(xiàn)階段制約 FPGA 廣泛使用的最大障礙。和 CPU 或 GPU 成熟的編程模型和豐富的工具鏈相比，高性能的 FPGA 設(shè)計(jì)仍然大部分依靠硬件工程師編寫(xiě) RTL 模型實(shí)現(xiàn)。RTL 語(yǔ)言的抽象度很低，往往是對(duì)硬件電路進(jìn)行直接描述，這樣，一方面需要工程師擁有很高的硬件專(zhuān)業(yè)知識(shí)，另一方面在開(kāi)發(fā)復(fù)雜的算法時(shí)會(huì)有更久的迭代周期。因此，F(xiàn)PGA 標(biāo)榜的可編程能力與其復(fù)雜的編程模型之間，形成了鮮明的矛盾。近五到十年來(lái)，高層次綜合（High Level Synthesis - HLS）一直是 FPGA 學(xué)術(shù)界研究的熱點(diǎn)，其重點(diǎn)就是希望設(shè)計(jì)更加高層次的編程模型和工具，利用現(xiàn)有的編程語(yǔ)言比如 C、C++ 等，對(duì) FPGA 進(jìn)行設(shè)計(jì)開(kāi)發(fā)。

在工業(yè)界，兩大 FPGA 公司都選擇支持基于 OpenCL 的 FPGA 高層次開(kāi)發(fā)，并分別發(fā)布了自己的 API 和 SDK 等開(kāi)發(fā)工具。這在一定程度上降低了 FPGA 的開(kāi)發(fā)難度，使得 C 語(yǔ)言程序員可以嘗試在 FPGA 平臺(tái)上進(jìn)行算法開(kāi)發(fā)，特別是針對(duì)人工智能的相關(guān)應(yīng)用。盡管如此，程序員仍然需要懂得基本的 FPGA 體系結(jié)構(gòu)和設(shè)計(jì)約束，這樣才能寫(xiě)出更加高效的 OpenCL/HLS 模型。因此，盡管有不少?lài)L試 OpenCL/HLS 進(jìn)行產(chǎn)品開(kāi)發(fā)的公司，但是目前國(guó)內(nèi)實(shí)際能夠掌握這類(lèi)設(shè)計(jì)方法的公司還是非常稀缺。各家專(zhuān)用 AI 芯片廠商，都需要建立自己相對(duì)獨(dú)立的應(yīng)用開(kāi)發(fā)工具鏈，這個(gè)投入通常比開(kāi)發(fā)芯片本身還要龐大，成熟周期也慢很多。Xilinx 對(duì)深鑒的收購(gòu)有效補(bǔ)充了其在 AI 應(yīng)用開(kāi)發(fā)方面的工具短板。近期 Intel 開(kāi)源了 OpenVINO，也是在推動(dòng)其 AI 及 FPGA 生態(tài)。也有少數(shù)在 FPGA 領(lǐng)域有長(zhǎng)期積累的團(tuán)隊(duì)，例如深維科技在為市場(chǎng)提供定制 FPGA 加速方案，可以對(duì)應(yīng)用生態(tài)產(chǎn)生有效促進(jìn)作用。

面對(duì)不同的需求，AI計(jì)算力最終將會(huì)駛向何方？

主要云服務(wù)商以及終端提供商都會(huì)圍繞自家優(yōu)勢(shì)產(chǎn)品平臺(tái)發(fā)展 AI 芯片，云端 AI 芯片投入巨大，主流技術(shù)快速進(jìn)化，國(guó)內(nèi)企業(yè)需要重視 AI 芯片的隱性投入：設(shè)計(jì)開(kāi)發(fā)工具、可重用資源和生態(tài)伙伴。不過(guò)近期不大可能迅速形成整合的局面，競(jìng)爭(zhēng)會(huì)進(jìn)一步加劇。在端上，基于 DSA/RISC-V 的 AI 芯片更多出現(xiàn)在邊緣端 AI+IoT，百花齊放。

三大類(lèi)技術(shù)路線各有優(yōu)劣，長(zhǎng)期并存。

GPU 具有成熟的生態(tài)，在 AI 領(lǐng)域具有顯著的先發(fā)優(yōu)勢(shì)，目前保持高速增長(zhǎng)態(tài)勢(shì)。

以 Google TPU 為代表的專(zhuān)用 AI 芯片在峰值性能上較 GPU 有一定優(yōu)勢(shì)。確定性是 TPU 另一個(gè)優(yōu)勢(shì)。CPU 和 GPU 需要考慮各種任務(wù)上的性能優(yōu)化，因此會(huì)有越來(lái)越復(fù)雜的機(jī)制，帶來(lái)的副作用就是這些處理器的行為非常難以預(yù)測(cè)。而使用 TPU 能輕易預(yù)測(cè)運(yùn)行一個(gè)神經(jīng)網(wǎng)絡(luò)并得出模型與推測(cè)結(jié)果需要多長(zhǎng)時(shí)間，這樣就能讓芯片以吞吐量接近峰值的狀態(tài)運(yùn)行，同時(shí)嚴(yán)格控制延遲。不過(guò)，TPU 的性能優(yōu)勢(shì)使得它的靈活性較弱，這也是 ASIC 芯片的常見(jiàn)屬性。充分針對(duì)性?xún)?yōu)化的架構(gòu)也可以得到最佳的能效比。但是開(kāi)發(fā)一款高性能專(zhuān)用芯片的投入是非常高昂的，通常周期也需要至少 15 個(gè)月。

FPGA 以及新一代 ACAP 芯片，則具備了高度的靈活性，可以根據(jù)需求定義計(jì)算架構(gòu)，開(kāi)發(fā)周期遠(yuǎn)遠(yuǎn)小于設(shè)計(jì)一款專(zhuān)用芯片。但是由于可編程資源必不可少的冗余，F(xiàn)PGA 的能效比以及價(jià)格通常比專(zhuān)用芯片要差很多。但是 ACAP 的出現(xiàn)，引入了 AI 核的優(yōu)點(diǎn)，勢(shì)必會(huì)進(jìn)一步拉近與專(zhuān)用芯片的差距。隨著 FPGA 應(yīng)用生態(tài)的逐步成熟，F(xiàn)PGA 的優(yōu)勢(shì)也會(huì)逐漸為更多用戶(hù)所了解。

總而言之，AI 芯片的“戰(zhàn)國(guó)時(shí)代”大幕已經(jīng)拉開(kāi)，各路“諸侯”爭(zhēng)相割據(jù)一方，謀求霸業(yè)，大家難以獨(dú)善其身，合縱連橫、百家爭(zhēng)鳴將成為常態(tài)。這也必定會(huì)是一個(gè)英雄輩出的時(shí)代。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴