rm新时代爆单,RM新时代正常可以出正常提

阿里云震旦異構(gòu)計算加速平臺基于NVIDIA Tensor Core GPU，通過機器學(xué)習(xí)模型的自動優(yōu)化技術(shù)，大幅提升了算子的執(zhí)行效率，刷新了NVIDIA A100、A10、T4的GPU單卡性能。并基于8張NVIDIA A100 GPU和開放規(guī)則，以離線場景下每秒處理107.8萬張圖片的成績，打破MLPerf 1.0推理性能測試紀(jì)錄。

阿里云自研震旦異構(gòu)計算加速平臺，適配GPU、ASIC等多種異構(gòu)AI 芯片，優(yōu)化編譯代碼，深挖和釋放異構(gòu)芯片算力，支持TensorFlow、Caffe、PAI等多種深度學(xué)習(xí)框架，可實現(xiàn)AI框架及算法的無縫遷移適配，支持云變端多場景快速部署，大幅提升AI應(yīng)用開發(fā)效率。

在MLPerf推理性能測試結(jié)果1.0版中，震旦異構(gòu)計算加速平臺，基于8卡NVIDIA A100 GPU配置上性能奪魁，在開放規(guī)則的離線場景下取得每秒處理107.8萬張圖片的成績。

首先在頂層算法模型上，使用基于自動機器學(xué)習(xí)（AutoML）的模型設(shè)計方式，這種方式可以獲得比人工設(shè)計更高效的模型。震旦基于MIT的先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法Once-For-All。

使用了基于強化學(xué)習(xí)的自研搜索算法獲得了高性能子網(wǎng)絡(luò)；之后通過INT8量化獲得硬件加速繼續(xù)提高性能，并在量化前進(jìn)行深度重訓(xùn)練，以保證量化后的精度能夠達(dá)到測試的精度要求。

IRB即反轉(zhuǎn)殘差塊（Inverted Residual Block），是用于網(wǎng)絡(luò)架構(gòu)搜索的基本模塊。每個反轉(zhuǎn)殘差塊包括三層卷積算子，圖上反轉(zhuǎn)殘差塊的長度代表了該塊的輸出channel數(shù)量。

一般機器學(xué)習(xí)框架的算子實現(xiàn)專注于優(yōu)化主流的神經(jīng)網(wǎng)絡(luò)架構(gòu)，而對于NAS的反轉(zhuǎn)殘差塊則效率不佳，震旦使用了基于自動調(diào)優(yōu)的大規(guī)模算子融合技術(shù)，大幅提高了推理時算子對GPU的利用率，并且可根據(jù)不同的架構(gòu)自動調(diào)優(yōu)到最佳算子實現(xiàn)。

因此能快速發(fā)掘全新GPU架構(gòu)的潛力，例如對于A100上通過MIG（多實例GPU）技術(shù)產(chǎn)生的具有不同計算資源的GPU實例，震旦算子優(yōu)化技術(shù)可以通過自動調(diào)優(yōu)來進(jìn)一步提升計算資源利用率。

打破紀(jì)錄的背后，在硬件平臺上也得益于NVIDIA A100 GPU 強大的算力支持，近5倍于上一代的INT8性能使得超越百萬級性能成為可能。另外，NVIDIA GPU的通用性，即通過CUDA直接對硬件編程，使得用戶可以針對其特有的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行定制優(yōu)化，這讓震旦基于GPU的自動算子調(diào)優(yōu)技術(shù)成為了現(xiàn)實。

最終獲得的調(diào)優(yōu)算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享內(nèi)存，從而交出了軟硬件協(xié)同優(yōu)化的滿意答卷。

在MLPerf推理性能測試結(jié)果1.0版本圖像分類性能測試中，阿里云震旦異構(gòu)計算加速平臺，基于NVIDIA A100 GPU平臺和開放規(guī)則，在離線場景下以每秒處理107.8萬張圖片的成績，打破了此前谷歌保持的絕對性能榜單的世界紀(jì)錄。這也是阿里在通用GPU平臺第一次取得100萬+這樣的成績。

此次阿里云震旦異構(gòu)計算加速平臺基于NVIDIA通用GPU硬件，通過機器學(xué)習(xí)模型的自動優(yōu)化技術(shù)，大幅提升了算子的執(zhí)行效率，刷新了NVIDIA GPU單卡性能。無論是新推出的A100和A10，還是已面市3年的T4，都帶來了單卡性能的大幅提升。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴