云邊AI的必然
云邊AI是指把AI大模型和算法在云端訓練和優(yōu)化后,部署到邊緣設備上運行,從而將AI能力融入終端設備。在前期的AI發(fā)展中,云端計算平臺憑借其強大的計算能力和能夠集中存儲和處理大規(guī)模數(shù)據(jù)的特點,發(fā)揮了重要的作用,但隨著邊緣計算和物聯(lián)網(wǎng)技術(shù)的興起,云邊AI替代云端AI會成為一種趨勢和必然。
邊緣計算能夠?qū)⒂嬎愫痛鎯δ芰Ω咏鼣?shù)據(jù)來源和終端設備,極大地減少了數(shù)據(jù)傳輸和延遲,減少了網(wǎng)絡壓力提高了響應速度,這使得在邊緣設備上實施AI算法和決策成為可能。并且,一些敏感數(shù)據(jù)和隱私數(shù)據(jù)可能不適合直接上傳到云端進行處理。通過在邊緣設備上進行處理,可以減少數(shù)據(jù)在傳輸過程中的風險,提升數(shù)據(jù)的隱私和安全性。此外,物聯(lián)網(wǎng)技術(shù)的興起意味著越來越多的設備將與互聯(lián)網(wǎng)連接,并產(chǎn)生海量的數(shù)據(jù),處理這些分布在各個邊緣節(jié)點的數(shù)據(jù),借助邊緣計算和物聯(lián)網(wǎng)技術(shù),減輕了網(wǎng)絡帶寬和云端服務器的負荷的同時也降低了對網(wǎng)絡環(huán)境的依賴,使得終端設備執(zhí)行AI能力更加的高效和可行。因此,云邊AI替代云端AI是必然的趨勢,并將在未來的AI發(fā)展中成為眾多企業(yè)的首選。
云邊AI的硬件承載
談到AI的硬件承載,我們首先需要了解的是和AI芯片性能相關(guān)的重要指標。在這里,我們重點講解四個指標參數(shù)。
首先是算力,算力是評估芯片性能和效率的重要指標,常見的算力單位包括每秒浮點運算數(shù)FLOPS和每秒萬億次運算數(shù)TOPS,更低的有MOPS,即每秒執(zhí)行的百萬次操作數(shù)。
其次是神經(jīng)網(wǎng)絡性能,跟軟件算法架構(gòu)、硬件加速器以及參數(shù)數(shù)量有關(guān),選擇合適的軟件算法架構(gòu)可以提高神經(jīng)網(wǎng)絡的性能,例如CNN適用于圖像處理任務、RNN適用于序列數(shù)據(jù)處理,硬件加速器(如GPU、TPU、NPU等)可以提高神經(jīng)網(wǎng)絡的計算性能和效率,參數(shù)數(shù)量可以衡量模型的復雜性和容量,合適的參數(shù)數(shù)量可以優(yōu)化神經(jīng)網(wǎng)絡的性能和預測結(jié)果。
再次是能效比,指性能和功耗之間的關(guān)系,較高的能效比表示芯片能夠在相同計算性能下消耗較少的能量,減少了能源消耗和發(fā)熱問題。比如運算功耗2 TOPS/W表示該芯片將能夠以每瓦特2 TOPS的速度進行計算。
最后是存儲的容量和帶寬,高存儲帶寬可以加快數(shù)據(jù)傳輸和訪問速度,提高芯片的整體性能,而大容量的可以支持更復雜的模型和數(shù)據(jù)集。比如在芯片內(nèi)嵌MCRAM存儲架構(gòu),通過將多個存儲芯片匯總到一個統(tǒng)一的接口上,實現(xiàn)了存儲容量的擴展和高帶寬的訪問。
AI應用的硬件適配
AI應用對芯片的選擇根據(jù)具體應用的需求和算法的特點進行權(quán)衡和決策,綜合考慮處理能力、能效、存儲、并行處理能力以及可編程性等因素,可以包括CPU、NPU、GPU、DSP、FPGA等。CPU適用于處理串行任務和邏輯操作。NPU是專門用于處理神經(jīng)網(wǎng)絡計算的芯片,可以提供高效且低功耗的深度學習計算能力。GPU是具備較強并行處理能力的芯片,適用于對大規(guī)模數(shù)據(jù)進行并行計算的AI任務,例如深度學習中的神經(jīng)網(wǎng)絡訓練和推理。DSP適用于音頻、語音處理和移動設備等嵌入式AI場景。而FPGA則適用于高性能計算、加速器設計和優(yōu)化以及快速原型開發(fā)等需要定制硬件和高度靈活性的AI應用。
為了更直觀地展示不同硬件和AI應用的匹配性,本文隨機選了6款不同芯片的特性進行說明。
第一款芯片為通用CPU:“雙核Cortex-A7 SMP架構(gòu),每個內(nèi)核內(nèi)嵌NEON向量處理單元以及32KB的L1指令緩存和數(shù)據(jù)緩存,工作頻率最高可達1GHz,具有128位的AXI矩陣總線”。此芯片雖然帶有L1緩存和NEON指令集,但是緩存相對較小,只適合處理一些輕量級的任務和小型模型,1GHz的主頻和AXI矩陣總線在高速數(shù)據(jù)傳輸方面有優(yōu)勢,根據(jù)以上信息此款芯片適合較簡單的圖形處理任務、語音識別任務,以及規(guī)模較小且計算需求相對較低文本分類或情感分析模型。
第二款芯片為低端NPU:“4個支持NT8(8位整數(shù))計算的Multiply-Accumulate單元,在12MHz的時鐘頻率下能夠提供96 MOPS的性能,同時帶有低功耗神經(jīng)網(wǎng)絡處理單元LP_NPU”。此芯片性能較低,不適合處理大型模型和算法,可用于低功耗、邊緣設備或嵌入式設備,用于處理輕量級的AI應用,包括如圖像和視覺識別、語音和音頻處理、自然語言處理、智能物聯(lián)網(wǎng)控制等。
第三款芯片為第二款的升級版:“具有4.0~8.0 TOPS @ INT8的算力和20 TOPS/W的能效”。此芯片能效適合處理較大的神經(jīng)網(wǎng)絡模型和算法,特別是那些需要高計算密集度的任務。這樣的算力和能效可以應對較為復雜的深度學習模型,如大規(guī)模的卷積神經(jīng)網(wǎng)絡(CNN)、遞歸神經(jīng)網(wǎng)絡(RNN)和生成對抗網(wǎng)絡(GAN)等。同時,高能效性能意味著處理器能夠以較低的功耗提供較高的計算性能,適合在資源受限的環(huán)境中運行大型模型和算法。所以此芯片可以用于圖像、語言、醫(yī)療影像以及自動駕駛和機器人相關(guān)的AI應用。
第四款芯片為存算一體AI芯片:“0.5T OP/Sec,150萬參數(shù)@Int8,2TOPS/W的能效,MCRAM存儲系統(tǒng)?!贝诵酒m合一些較小規(guī)模的大模型和算法,特別是那些相對較簡單或計算需求較低的任務,比如淺層神經(jīng)網(wǎng)絡處理、輕量級的目標檢測和圖形處理,以及嵌入式設備上的語音識別應用等。
第五款芯片也為存算一體AI芯片:“1.6T OP/Sec,700萬參數(shù)@Int8,2TOPS/W的能效,MCRAM存儲系統(tǒng)。”此芯片適合一些特定類型的大模型和算法,特別是針對計算密集型任務的應用,包括如大規(guī)模的深度神經(jīng)網(wǎng)絡模型、需要進行大量的計算操作的計算密集型任務、高精度數(shù)據(jù)處理和自動駕駛以及機器人等實時推理場景的應用。
第六款芯片為中高端AI芯片:“5T OP/Sec,3000萬參數(shù)@Int8,8TOPS/W的能效,MCRAM存儲系統(tǒng)和KORU運算架構(gòu)。”此款芯片跟前面的芯片相比,適合處理更大規(guī)模的大模型和算法,具備更高的計算性能,可以適用包括高分辨率圖像處理、大規(guī)模的語言模型、超大規(guī)模的目標檢測和圖像分割,以及深度學習等應用。
邊緣AI芯片的發(fā)展
隨著邊緣智能設備需求的不斷增加,未來的邊緣AI芯片將迎來一個發(fā)展高峰。邊緣AI芯片的發(fā)展方向?qū)⒉豢杀苊獾爻尸F(xiàn)多元化的趨勢,這是由于終端設備和云端業(yè)務的差異性所決定的。邊緣AI芯片需要具備高效的計算能力和低功耗特性,同時需要有感知處理能力和數(shù)據(jù)加密能力,為了更好地實現(xiàn)云邊AI混合計算,邊緣AI芯片還需要具備穩(wěn)定可靠的通信和網(wǎng)絡連接能力,實現(xiàn)邊緣設備與云端的協(xié)同工作和數(shù)據(jù)共享任務。
審核編輯:湯梓紅
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44557瀏覽量
372768 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886 -
邊緣計算
+關(guān)注
關(guān)注
22文章
3084瀏覽量
48892 -
大模型
+關(guān)注
關(guān)注
2文章
2423瀏覽量
2640
原文標題:【技術(shù)分享】云邊AI實現(xiàn)
文章出處:【微信號:gh_b555ac340b6b,微信公眾號:gh_b555ac340b6b】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論