在近日深圳召開的以 “讓我們攜手重塑未來” 為主題的“Arm Tech Symposia年度技術(shù)大會”上,Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven 蒞臨現(xiàn)場發(fā)表了熱情洋溢的講話,并透露了Arm立下的一個小目標(biāo):到2025 年底,全球?qū)⒂谐^ 1,000 億臺具備 AI 能力的 Arm 設(shè)備。這個1000億目標(biāo)可以實現(xiàn)嗎?
James McNiven 強調(diào)Arm一直深耕算力技術(shù)的發(fā)展,Arm在算力的探索最早可以從ARMv7 架構(gòu)(Cortex-A 系列)中引入的NEON 開始,NEON 是 ARM 處理器架構(gòu)中的一個高級 SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù))指令集擴(kuò)展,主要用于加速多媒體和信號處理任務(wù),如圖像處理、音頻解碼、視頻編解碼、以及機器學(xué)習(xí)推理等工作負(fù)載。
NEON 的設(shè)計目標(biāo)是提供高能效的向量化計算能力,使嵌入式設(shè)備能夠高效處理復(fù)雜的多媒體任務(wù),同時保持較低功耗。到2011年Arm發(fā)布ARMv8架構(gòu),NEON 進(jìn)一步優(yōu)化,用于提升多媒體和信號處理任務(wù)的性能,如圖像處理、音頻處理、以及 DSP 算法加速。ARMv8 是首個全面支持 64 位運算的架構(gòu)。NEON 指令的寄存器擴(kuò)展為 32 個 128 位寄存器,適配 64 位數(shù)據(jù)路徑。在 ARMv8 NEON 中,支持更多整數(shù)和浮點操作,使得音頻解碼和視頻編解碼的效率顯著提升。在ARMv8.1-A架構(gòu)上面向 HPC(高性能計算)和 AI 加速的需求,Arm首次引入 了SVE(Scalable Vector Extension),這是 NEON 之后的一個重要向量擴(kuò)展??蓴U(kuò)展向量長度支持 128 位到 2048 位的動態(tài)向量長度,適應(yīng)不同算力需求。SVE 針對矩陣運算、機器學(xué)習(xí)和科學(xué)計算進(jìn)行了優(yōu)化,特別適合向量密集型任務(wù)。
此外,它還提高了計算資源的可移植性,從移動設(shè)備到云端計算均有支持。隨著 AI 和機器學(xué)習(xí)任務(wù)對計算需求的增長,2021 年發(fā)布的ARMv9 架構(gòu)加強了向量處理能力,引入 MVE 和 SVE2,MVE(Helium)針對 Cortex-M 系列的向量擴(kuò)展,優(yōu)化了嵌入式低功耗設(shè)備的算力,適用于物聯(lián)網(wǎng)、邊緣計算中需要高能效的工作負(fù)載。SVE2在 SVE 的基礎(chǔ)上增強了對 AI 和 DSP 的支持。新增支持 bit-manipulation 和矩陣運算的指令集,專為 AI 推理和 5G 基站設(shè)計。這一時期,ARM 的算力架構(gòu)不僅限于 CPU,還整合了 GPU 計算加速,如 Mali 系列和最新的 Immortalis 系列,逐漸融合 CPU 和 GPU 算力。與 NEON/SVE 協(xié)同工作,GPU 負(fù)責(zé)并行計算任務(wù),而 CPU 處理串行任務(wù)。隨著AI 和機器學(xué)習(xí)的崛起,ARM 針對數(shù)據(jù)中心推出了 Neoverse 系列(如 Neoverse N2 和 V2),引入增強的矩陣運算能力。它專為推理加速設(shè)計,如在邊緣計算和云服務(wù)中運行 AI 模型。在新架構(gòu)中加入對 INT8 和 BF16 的高效支持,顯著提升推理性能。James McNiven 強調(diào)Armv9 作為 Arm 最新的技術(shù)架構(gòu),推出伊始便是為支撐 AI 計算而設(shè)計,并持續(xù)迭代更新,通過 SVE、SVE2、SME 等關(guān)鍵技術(shù),Arm 以架構(gòu)創(chuàng)新和強大的軟硬件協(xié)同能力不斷優(yōu)化移動端 AI 體驗,賦能開發(fā)者實現(xiàn)卓越的 AI 性能。
在會后的媒體采訪中,James表示要把握 AI 的發(fā)展機遇。Arm 通過采用系統(tǒng)級設(shè)計思維,專注硬件與軟件協(xié)同優(yōu)化,面向不同應(yīng)用市場推出計算子系統(tǒng) (CSS),擴(kuò)展底層技術(shù)并鞏固 AI 計算需求。與此同時,Arm 持續(xù)投資創(chuàng)新軟件技術(shù),為全球 2,000 萬開發(fā)者提供從云到端的高效、易用、無縫開發(fā)體驗。此外,Arm 還通過包括全面設(shè)計 (Arm Total Design) 在內(nèi)的眾多生態(tài)項目,協(xié)助合作伙伴加速產(chǎn)品上市進(jìn)程。
據(jù)介紹,目前全球有超過 2,000 萬名軟件開發(fā)者在基于 Arm 架構(gòu)的設(shè)備上構(gòu)建應(yīng)用,軟件話題也成為本次年度技術(shù)大會的焦點之一。Arm 在軟件方面的持續(xù)投入已取得顯著成效,正建立起全球最大的 AI 開發(fā)者社區(qū)。本屆大會首度舉辦的開發(fā)者工作坊收獲了參與者的熱烈響應(yīng),圍繞 Windows on Arm 原生應(yīng)用、安卓系統(tǒng)上的 LLM 推理、生成式 AI 加速等開發(fā)者最為關(guān)注的主題,工作坊為開發(fā)者提供了直觀的技術(shù)體驗,激發(fā)開發(fā)者創(chuàng)新潛力的同時,也為相關(guān)應(yīng)用開發(fā)增添了新的動力。
筆者注意到現(xiàn)場工程師對ARM 的 ONELab有濃厚的興趣,據(jù)ARM介紹ONELab是 ARM 針對開發(fā)者和企業(yè)推出的一個端到端 AI 開發(fā)與優(yōu)化平臺,其目標(biāo)是幫助開發(fā)者快速、高效地開發(fā)、優(yōu)化和部署 AI 應(yīng)用程序,尤其是在 ARM 架構(gòu)上運行的設(shè)備中。據(jù)介紹,ONELab 的核心在于提供一套集成工具鏈和開發(fā)環(huán)境,專注于 AI 應(yīng)用的優(yōu)化與部署,它可以提供跨平臺開發(fā)支持,涵蓋移動端(如智能手機)、嵌入式設(shè)備(如 IoT 設(shè)備)和數(shù)據(jù)中心(如 ARM Neoverse 服務(wù)器)。
支持主流的深度學(xué)習(xí)框架,如 TensorFlow、PyTorch 和 ONNX,通過兼容性的 API,開發(fā)者可以無縫遷移現(xiàn)有的 AI 模型。它針對 ARM 設(shè)備中的 CPU(Cortex 系列)、GPU(Mali 系列)和 NPU(神經(jīng)網(wǎng)絡(luò)處理單元) 進(jìn)行優(yōu)化。它還可以自動調(diào)用底層硬件加速特性,例如 NEON SIMD、SVE2 向量擴(kuò)展,以及 Mali GPU 的并行計算能力。在多核環(huán)境下分配計算任務(wù),它可使模型能夠在 CPU、GPU 和 NPU 之間高效運行。提供任務(wù)調(diào)度機制,針對不同類型的計算任務(wù)(如卷積、矩陣運算)動態(tài)分配資源。ONELab 主要專注于以下幾個領(lǐng)域的 AI 應(yīng)用開發(fā):
1、邊緣 AI:物聯(lián)網(wǎng)設(shè)備:通過 Cortex-M 系列低功耗 CPU 和 Helium 向量擴(kuò)展(MVE)加速嵌入式推理。實時分析:在攝像頭、傳感器等設(shè)備中,實現(xiàn)實時的視覺和語音識別。
2、移動設(shè)備:智能手機:通過 Mali GPU 和 CPU 的協(xié)作優(yōu)化,提供高效的圖像分類、增強現(xiàn)實(AR)和語音助手功能,優(yōu)化設(shè)備端的 AI 模型性能,同時降低功耗。
3 數(shù)據(jù)中心和高性能計算:云端推理:結(jié)合 Neoverse 平臺,為 AI 推理任務(wù)提供高吞吐量和低延遲的解決方案。HPC(高性能計算):支持在超級計算機或集群中部署 AI 應(yīng)用,面向深度學(xué)習(xí)訓(xùn)練和科學(xué)計算。
4、自動駕駛與工業(yè):自動駕駛:優(yōu)化感知算法和決策系統(tǒng),利用 ARM 平臺實現(xiàn)實時推理。工業(yè)自動化:為機器人和工業(yè)設(shè)備中的邊緣推理提供算力支持。未來,在提升算力方面Arm的SVE3 可能會加入對更復(fù)雜的 AI 和 HPC 工作負(fù)載的支持。此外,向量計算擴(kuò)展將繼續(xù)優(yōu)化能效比,為移動和服務(wù)器市場服務(wù)。而隨著 AI 和機器學(xué)習(xí)的重要性增加,ARM 可能推出更多帶有 TPU 類特性的專用單元,進(jìn)一步縮小與競爭對手(如 NVIDIA 和 Intel)的差距,成為多領(lǐng)域算力需求的重要支柱。James表示Arm 通過將 IP 與開源軟件和工具乃至廣泛的行業(yè)領(lǐng)先生態(tài)系統(tǒng)相結(jié)合,讓全球 2,000 萬開發(fā)者都能夠使用 Arm 計算平臺作為 AI 創(chuàng)新基礎(chǔ)。有了生態(tài)伙伴的大力支持因此Arm 敢大膽地預(yù)測到 2025 年底,全球?qū)⒂谐^ 1,000 億臺具備 AI 能力的 Arm 設(shè)備。
-
處理器
+關(guān)注
關(guān)注
68文章
19259瀏覽量
229647 -
ARM
+關(guān)注
關(guān)注
134文章
9084瀏覽量
367373 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268873
發(fā)布評論請先 登錄
相關(guān)推薦
評論