新一輪的AI熱潮對芯片提出了更高要求,不過,AI芯片的定義還沒有嚴格和公認的標準。因此,可以運行深度學習算法的CPU、GPU以及FPGA和ASIC都可以被稱為AI芯片。雖然都稱為AI芯片,但在2019年AI落地的大背景下,AI芯片的效率更值得關(guān)注。
那么,在邊緣端,F(xiàn)PGA能與專為邊緣AI設(shè)計的ASIC共同推動AI的普及嗎?
三大FPGA公司整體向上
歷經(jīng)并購和整合,目前全球排名前三的FPGA供應商分別是賽靈思、英特爾、萊迪思。有意思的是,前兩大供應商在今年相繼推出“最大”FPGA。8月,賽靈思宣布推出全球最大容量的FPGA Virtex UltraScale+ VU19P,這款FPGA基于臺積電16nm工藝,集成350億個晶體管、900萬個系統(tǒng)邏輯單元,有每秒達1.5 Terabit的DDR4存儲器帶寬、每秒達f 4.5 Terabit的收發(fā)器帶寬和超過2000個用戶I/O。
三個月后的11月,英特爾宣布推出全球容量最大的FPGA Stratix 10 GX 10M,采用14nm工藝制造,集成了443億個晶體管,核心面積約1400平方毫米,在70×74毫米的封裝面積內(nèi)擁有1020萬個邏輯單元,還有25920個數(shù)據(jù)接口總線(EMIB),是此前記錄的兩倍多,每個接口吞吐量2Gbps,內(nèi)部總帶寬6.5TB/s,另有308Mb存儲、6912個DSP(18×19排列)、2304個用戶I/O針腳、48個收發(fā)器(0.84Tb/s帶寬)。
顯然,賽靈思和英特爾推出更大容量的FPGA為的是滿足大數(shù)據(jù)以及云端AI的需求,將FPGA的應用從工業(yè)和汽車更多地拓展到數(shù)據(jù)中心。在半導體行業(yè),頭部效應尤為明顯,即便市場份額排名第三,如果萊迪思也推出大容量FPGA,境遇可能會非常艱辛。
賽靈思和英特爾在FPGA市場的調(diào)整也給了萊迪思市場拓展的機遇。過去幾年,萊迪思都專注于消費類市場,但消費類市場迭代速度非??欤枰鶕?jù)不同的市場需求推出相應的產(chǎn)品。
萊迪思亞太區(qū)產(chǎn)品市場部總監(jiān)陳英仁表示:“在市場需求不明確且快速變化的時候,技術(shù)很難復用。我們現(xiàn)在采用平臺化的新模式,這樣能夠最大化設(shè)計復用,降低開發(fā)成本及加速產(chǎn)品迭代。”
萊迪思亞太區(qū)產(chǎn)品市場部總監(jiān)陳英仁
FPGA適合邊緣AI嗎?
由此看來,萊迪思在市場的變化中找到了合適的定位和產(chǎn)品路線。不過FPGA要在邊緣AI計算中應用,高成本和開發(fā)難度大是兩個問題。對此,陳英仁表示,很多客戶都用我們的FPGA進行量產(chǎn),所以我們的FPGA價格非常友好。并且過去四年,萊迪思出貨的FPGA數(shù)量在10億片的量級,這也證明我們的產(chǎn)品非??煽?。
至于設(shè)計門檻,陳英仁指出,由于FPGA的生態(tài)環(huán)境不像C語言那樣方便,所以大家覺得FPGA的設(shè)計門檻比較高。這又可以分成兩部分,一部分是工具,萊迪思全新推出的平臺CrossLink-NX會使用Radiant 2.0,調(diào)試工具做了很大改善,也支持業(yè)界標準的SDC,還加了ECO編譯器,還有信號完整的分析,并且將持續(xù)保持更新,讓懂FPGA的工程師能夠更方便的使用。
另一部分是參考設(shè)計,對于那些不太懂FPGA的工程師,他們不知道這些工具的差異,需要一些參考設(shè)計才更容易上手,這也是萊迪思的強項。另外我們推出的sensAI,包含了評估、開發(fā)和部署基于FPGA的機器學習和人工智能解決方案所需的模塊化硬件平臺、演示示例、參考設(shè)計、神經(jīng)網(wǎng)絡(luò)IP核、軟件開發(fā)工具和定制設(shè)計服務。這些都能夠降低FPGA的設(shè)計門檻。
還有一點,F(xiàn)PGA本身就是并行處理,深度學習算法很多都需要并行處理,通過sensAI把AI模型轉(zhuǎn)換之后,F(xiàn)PGA執(zhí)行AI推理非常適合。
價格友好且設(shè)計門檻在降低,但FPGA想在邊緣端應用,還需要有相對ASIC明顯的優(yōu)勢才具備吸引力。對此,陳英仁對雷鋒網(wǎng)表示:“我們專注于把FPGA的優(yōu)勢發(fā)揮出來,比如低延遲。另一個是FPGA能夠快速導入市場。還有就是FPGA的彈性,因為FPGA本身就有可編程性的優(yōu)勢,I/O、配置都非常靈活。I/O接口的靈活性非常適合邊緣端,可以接入各種傳感器?!?/p>
他進一步解釋靈活性在邊緣端的重要性,如果從性能和功耗比的角度衡量, FPGA相比ASIC會顯得沒有優(yōu)勢。但FPGA可以提供不同的接口,這樣就可以接不同的傳感器,并且能夠滿足產(chǎn)品智能化升級的需求。特別是AI技術(shù)還在不斷地演進,要對現(xiàn)有產(chǎn)品做升級的時候,由于ASIC的拓撲結(jié)構(gòu)已經(jīng)固化,如果一個電子廣告牌想要增加一個傳感器更好滿足需求時,ASIC就很難,而用FPGA無論是用SPI還是USB接口都能輕松接入。
什么樣的FPGA更適合邊緣AI?
既然FPGA從成本、性能、開發(fā)門檻方面都在改變滿足邊緣AI的需求,那到底什么樣的FPGA可以更好滿足邊緣AI需求?萊迪思給出的答案就是前面提到的CrossLink-NX。CrossLink-NX基于萊迪思NEXUS平臺,有功耗降低75%、可靠性提升100倍、最小尺寸以及高性能網(wǎng)絡(luò)邊緣計算能力的特性。
具體而言,CrossLink-NX有192個可編程I/O,D-PHY速度達到2.5Gbps,邏輯單元達到40K,主要應用于視頻橋接處理。
低功耗的實現(xiàn)是因為萊迪思在CrossLink-NX中使用了三星28nm FD-SOI的工藝,陳英仁介紹,我們選用的工藝中有一個很薄的Buried Oxide,可以把失效率降低100倍,也就是可靠性增加了100倍,并且靜態(tài)功耗最高可以比競爭對手降低75%。
在性能方面,CrossLink-NX提供了17K-40K的邏輯單元,可以提供低功耗以及高性能模式,并且增加了很多嵌入式存儲RAM,再加上DSP模塊,讓CrossLink-NX嵌入式存儲器/邏輯比達到170bit,比競爭對手的產(chǎn)品高幾倍,可以更有效地處理圖形和AI推理。
高存儲器/邏輯比的同時還實現(xiàn)了小尺寸,CrossLink-NX采用的是優(yōu)化4輸入查找表,使其產(chǎn)品能夠?qū)崿F(xiàn)小尺寸,在6x6mm的面積上就具備40K的邏輯單元。陳英仁認為,4輸入的查找表到目前為止,甚至以后的產(chǎn)品都綽綽有余,因為我們追求的不是最高性能,而是低功耗以及由此帶來的成本以及方便性。
當然,讓CrossLink-NX更適合邊緣AI的還有超快的I/O啟動以及快速地I/O傳輸。在傳輸速度上,萊迪思使用的是硬核的I/O提升速率,通過MIPI D-PHY,速度從之前的1.5Gbps提升到了2.5Gbps。陳英仁表示,現(xiàn)在大部分的SoC的速度都是2.5Gbps,所以我們的FPGA可以更容易與SoC配合滿足嵌入式視覺和邊緣AI的需求。
啟動速度方面,CrossLink-NX的I/O配置速度小于3ms,器件配置小于8ms,這個速度不僅相比mcu或SoC時間段很多,并且通過先把I/O配置好,電壓已經(jīng)固定,系統(tǒng)也就比較穩(wěn)定。
雷鋒網(wǎng)了解到,CrossLink-NX一開始會先支持工業(yè)級的溫度,然后會進行車規(guī)認證。目前,CrossLink-NX已經(jīng)有30多個客戶開始試用,供貨時間也比預期更加提前。
陳英仁還表示,軟件和IP也準備就緒,未來sensAI也將支持CrossLink-NX。針對AI應用,我們還可能與第三方合作提供一站式方案,通過硬件成品在搭配上參考設(shè)計,讓不懂FPGA以及AI算法的客戶能夠更加方便的應用。
雷鋒網(wǎng)小結(jié)
邊緣AI以及AI市場潛力巨大,在AI對芯片算力提出更高要求的時候,所有的芯片提供商都不想錯過AI帶來的機會。FPGA公司也不例外,只是FPGA本身更加擅長信號處理和網(wǎng)絡(luò)加速等,但為了能夠在大數(shù)據(jù)的AI的時代發(fā)揮更大的價值,排名第一和第二的FPGA公司都推出更大規(guī)模的FPGA,更好地滿足云端AI市場。這給萊迪思一個很好的機會,通過計算平臺化的方式,最大化復用技術(shù)的同時,還能向上一步進入工業(yè)和汽車市場。
為了更好地把握好這個機會,萊迪思的新品通過性能、穩(wěn)定性、I/O各方面的優(yōu)化,發(fā)揮FPGA在邊緣AI中低延遲、高靈活性的特性,盡可能滿足邊緣AI計算的需求。對于市場而言,增加一種有競爭力的選擇當然一件好事,至于市場的接受度如何,我們將保持關(guān)注。
-
FPGA
+關(guān)注
關(guān)注
1629文章
21729瀏覽量
602975 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268876 -
邊緣計算
+關(guān)注
關(guān)注
22文章
3084瀏覽量
48891
發(fā)布評論請先 登錄
相關(guān)推薦
評論