近期,勁爆亮相的ChatGPT著實讓人們眼前一亮,讓普羅大眾也“親密”體驗了人工智能(AI)的神奇魔力,窺見了智能未來的璀璨前景之一斑。
然而,就在這離生活愈來愈近的AI讓人們對未來充滿無限憧憬、滿懷激動的同時,也有冷靜的分析指出,諸如ChatGPT等AI規(guī)模應(yīng)用也是一個“吞金獸”,其帶來的不僅僅是讓人急呼“AI算力告急”的算力消耗(有研究顯示,中國智能算力需求規(guī)模,到2026年就將進入每秒十萬億億次浮點計算(ZFLOPS)級別,達到1,271.4EFLOPS,從2021到2026年,年復(fù)合增長率將達52.3%1);更有從云端、邊緣到終端廣泛AI應(yīng)用場景,使得IT運營環(huán)境日益復(fù)雜和多樣,讓各種AI方案在異構(gòu)平臺獲得便捷、易用且有效優(yōu)化成為急迫的需求。
異構(gòu)計算,主要指不同類型的指令集和體系架構(gòu)的計算單元組成的系統(tǒng)的計算方式,在云數(shù)據(jù)中心、邊緣計算場景等有著廣泛應(yīng)用。
異構(gòu)計算的興起與工作負載密切相關(guān),在能有效發(fā)揮異構(gòu)計算優(yōu)勢的應(yīng)用場景中,人工智能場景可謂是典型的代表場景之一,不管是深度學(xué)習(xí)訓(xùn)練,還是深度學(xué)習(xí)推理,都會進行大量矩陣運算,需要異構(gòu)計算提供更有力支撐;而隨著AI應(yīng)用快速走向邊緣,由此引致的云邊端協(xié)同,對異構(gòu)計算提出了更高要求。計算平臺在提升自身算力水平的同時,也需要通過提供優(yōu)化策略,幫助用戶更好地提升AI方案的性能,助力AI應(yīng)用降本增效。
騰訊云創(chuàng)新打造TACO Kit套件,為AI應(yīng)用提供異構(gòu)加速
為幫助廣大用戶應(yīng)對日益復(fù)雜的異構(gòu)環(huán)境給AI應(yīng)用帶來的挑戰(zhàn),騰訊云創(chuàng)新推出計算加速套件TACO Kit (TencentCloud Accelerated Computing Optimization Kit),通過在異構(gòu)硬件平臺上提供全棧式的軟硬件解決方案的模式,為AI方案設(shè)計者、AI開發(fā)人員以及AI使用者構(gòu)建全新的異構(gòu)計算加速軟件服務(wù),助其借助多元化異構(gòu)、高性能加速框架、離線虛擬化技術(shù)以及靈活的商業(yè)模式,輕松駕馭多元算力,助力AI應(yīng)用全方位、全場景降本增效。
而作為異構(gòu)加速服務(wù)的入口,TACO Kit內(nèi)置AI推理加速引擎TACO Infer,能針對AI應(yīng)用中不同的訓(xùn)練和服務(wù)框架、個性的優(yōu)化實踐和使用習(xí)慣、各異的軟件版本和硬件偏好,以計算加速、無感接入和魯棒易用的特性和優(yōu)勢,幫助用戶一站式解決AI模型在生產(chǎn)環(huán)境中部署與應(yīng)用的痛點。
圖一 AI推理加速引擎TACO Infer
TACO Infer引擎具備的功能特性包括:
■無感集成:可跨平臺透明適配CPU、GPU、NPU等異構(gòu)芯片;尊重用戶使用習(xí)慣,無需改變模型源格式;無需進行IR(Intermediate Representation,中間表示)轉(zhuǎn)換,對無顯式算子結(jié)構(gòu)模型友好;
■基于原生框架Runtime:可基于多種流行原生框架,包括TensorFlow、PyTorch、ONNXRuntime 等運行;可基于框架原Runtime構(gòu)建,并可充分利用框架自定義的擴展機制;
■無縫對接服務(wù)框架:包括TF Serving、Triton以及TorchServe等。
基于以上特性,無論在何種場景中,用戶在硬件平臺上部署AI應(yīng)用,都只需要進行簡單地前端交互,就能讓TACO Kit在后臺以最佳模式啟動工作負載,并獲得更優(yōu)的推理性能。
而這一優(yōu)異推理性能的獲得,離不開英特爾和騰訊云面向TACO Kit開展的深度協(xié)作加持。具體講,就是將英特爾 Neural Compressor集成到TACO Kit之中,來大幅提升AI推理性能,加速各類AI應(yīng)用便捷高效落地。
英特爾 Neural Compressor提供優(yōu)化支持,助力TACO Kit加速推理
英特爾 Neural Compressor是英特爾開源的神經(jīng)網(wǎng)絡(luò)模型壓縮庫,不僅面向如量化、修剪以及知識提取等主流模型壓縮技術(shù),提供了跨多個深度學(xué)習(xí)框架的統(tǒng)一接口,還具有以下模型性能調(diào)優(yōu)特性:
■具備由精度驅(qū)動的自動化調(diào)整策略,幫助用戶快速獲得最佳量化模型;
■可使用預(yù)定義的稀疏性目標(biāo)生成修剪模型,實現(xiàn)不同的權(quán)重修剪算法;
■能夠從更大的網(wǎng)絡(luò)(“教師”)中提取知識用于訓(xùn)練更小的網(wǎng)絡(luò)(“學(xué)生”),實現(xiàn)更小的精度損失。
英特爾和騰訊云協(xié)作,通過插件的方式將英特爾 Neural Compressor集成到TACO Kit,讓TACO Kit充分利用英特爾 Neural Compressor的優(yōu)勢特性。如圖二所示,利用量化壓縮技術(shù)來為不同的深度深度框架(如TensorFlow、PyTorch、ONNXRuntime等)提供統(tǒng)一的模型優(yōu)化 API,便捷實現(xiàn)模型推理優(yōu)化(由FP32數(shù)據(jù)類型量化為INT8數(shù)據(jù)類型)。同時,也可以利用壓縮庫內(nèi)置的精度調(diào)優(yōu)策略,根據(jù)不同的模型內(nèi)部結(jié)構(gòu)生成精度更佳的量化模型,幫助用戶大幅降低模型量化的技術(shù)門檻,并有效提升AI模型的推理效率。
圖二 集成英特爾 Neural Compressor后的TACO Kit工作流程
在云端部署時,量化后的模型可通過英特爾 至強 可擴展平臺內(nèi)置的英特爾 DL Boost,來獲得有效的硬件加速和更高的推理效率。以指令集中的vpdpbusd指令為例,以往需要3條指令(vpmaddubsw、vpmaddwd、vpaddd)完成的64次乘加過程,現(xiàn)在僅需1條指令(vpdpbusd)即可,并能夠消除運行過程中的處理器飽和問題,再輔之以乘加過程中的中間數(shù)值直接從內(nèi)存播送,可使得處理性能達初始FP32模型的4倍2。這無疑為TACO Kit加速推理,進而幫助用戶在異構(gòu)環(huán)境更高效地構(gòu)建和部署AI提供了關(guān)鍵助力。
圖三 英特爾 DL Boost(AVX-512_VNNI)技術(shù)
方案驗證顯真實性能,展異構(gòu)AI加速優(yōu)勢
那么,集成英特爾 Neural Compressor后的TACO Kit的性能究竟有何等驚艷提升呢?實踐最有發(fā)言權(quán),數(shù)據(jù)最有說服力。套件打造完成后,英特爾與騰訊云一起選取了多種被廣泛應(yīng)用的自然語言處理深度學(xué)習(xí)模型,對TACO Kit性能加速進行了驗證測試。
測試中,各個深度學(xué)習(xí)模型在通過TACO Kit進行優(yōu)化后,使用英特爾 Neural Compressor進行INT8量化及性能調(diào)優(yōu),推理性能加速結(jié)果令人滿意。如圖四所示3,在保持精度水平基本不變的情況下,各深度學(xué)習(xí)模型的推理性能均獲得顯著提升,提升幅度從55%到139%不等,在其中的bert-base-uncased-mrpc場景中,推理性能更是達到了基準(zhǔn)值的2.39倍。
圖四 集成英特爾 Neural Compressor的TACO Kit所帶來的推理性能加速4
對TACO Kit引入英特爾 Neural Compressor獲得的大幅性能加速,騰訊云異構(gòu)計算專家級工程師葉帆直言,這一合作成果能幫助不同角色的用戶在異構(gòu)硬件平臺上獲得便捷、易用且經(jīng)過有效優(yōu)化的 AI 加速能力,助力AI 應(yīng)用實現(xiàn)全方位、全場景的降本增效。而英特爾 Neural Compressor 是 TACO Kit 中 AI 推理負載獲得充分性能加速的有效技術(shù)保證。
基于這一成果,英特爾和騰訊云也將面向未來繼續(xù)深化合作,通過融合硬件廠商優(yōu)化算子、自研AI編譯技術(shù)升級等措施,驅(qū)動TACO Infer在軟硬件兼容性和性能上不斷迭代優(yōu)化。同時,雙方還計劃進一步將第四代英特爾 至強 可擴展平臺及其內(nèi)置的深度學(xué)習(xí)加速技術(shù)與騰訊計算加速套件TACO Kit相融合,借助新平臺更為澎湃的算力輸出與深度學(xué)習(xí)加速新技術(shù),為用戶提供更加高效可用的異構(gòu)AI加速能力,進而在推動AI走向更廣泛應(yīng)用的同時,助力應(yīng)對多模態(tài)大模型等對算力提出的更嚴(yán)峻挑戰(zhàn),驅(qū)動智能應(yīng)用向縱深化演進,為經(jīng)濟社會的高質(zhì)量發(fā)展提供強勁數(shù)字生產(chǎn)力。
審核編輯 :李倩
-
英特爾
+關(guān)注
關(guān)注
61文章
9949瀏覽量
171692 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268885 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238243
原文標(biāo)題:提高AI算力,異構(gòu)優(yōu)化也是關(guān)鍵
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論