RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云震旦異構(gòu)計算加速平臺基于NVIDIA Tensor Core GPU

GLeX_murata_eet ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-08-13 10:17 ? 次閱讀

阿里云震旦異構(gòu)計算加速平臺基于NVIDIA Tensor Core GPU,通過機器學(xué)習(xí)模型的自動優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVIDIA A100、A10、T4的GPU單卡性能。并基于8張NVIDIA A100 GPU和開放規(guī)則,以離線場景下每秒處理107.8萬張圖片的成績,打破MLPerf 1.0推理性能測試紀(jì)錄。

阿里云自研震旦異構(gòu)計算加速平臺,適配GPU、ASIC等多種異構(gòu)AI芯片,優(yōu)化編譯代碼,深挖和釋放異構(gòu)芯片算力,支持TensorFlow、Caffe、PAI等多種深度學(xué)習(xí)框架,可實現(xiàn)AI框架及算法的無縫遷移適配,支持云變端多場景快速部署,大幅提升AI應(yīng)用開發(fā)效率。

在MLPerf推理性能測試結(jié)果1.0版中,震旦異構(gòu)計算加速平臺,基于8卡NVIDIA A100 GPU配置上性能奪魁,在開放規(guī)則的離線場景下取得每秒處理107.8萬張圖片的成績。

首先在頂層算法模型上,使用基于自動機器學(xué)習(xí)(AutoML)的模型設(shè)計方式,這種方式可以獲得比人工設(shè)計更高效的模型。震旦基于MIT的先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法Once-For-All。

使用了基于強化學(xué)習(xí)的自研搜索算法獲得了高性能子網(wǎng)絡(luò);之后通過INT8量化獲得硬件加速繼續(xù)提高性能,并在量化前進(jìn)行深度重訓(xùn)練,以保證量化后的精度能夠達(dá)到測試的精度要求。

IRB即反轉(zhuǎn)殘差塊(Inverted Residual Block),是用于網(wǎng)絡(luò)架構(gòu)搜索的基本模塊。每個反轉(zhuǎn)殘差塊包括三層卷積算子,圖上反轉(zhuǎn)殘差塊的長度代表了該塊的輸出channel數(shù)量。

一般機器學(xué)習(xí)框架的算子實現(xiàn)專注于優(yōu)化主流的神經(jīng)網(wǎng)絡(luò)架構(gòu),而對于NAS的反轉(zhuǎn)殘差塊則效率不佳,震旦使用了基于自動調(diào)優(yōu)的大規(guī)模算子融合技術(shù),大幅提高了推理時算子對GPU的利用率,并且可根據(jù)不同的架構(gòu)自動調(diào)優(yōu)到最佳算子實現(xiàn)。

因此能快速發(fā)掘全新GPU架構(gòu)的潛力,例如對于A100上通過MIG(多實例GPU)技術(shù)產(chǎn)生的具有不同計算資源的GPU實例,震旦算子優(yōu)化技術(shù)可以通過自動調(diào)優(yōu)來進(jìn)一步提升計算資源利用率。

打破紀(jì)錄的背后,在硬件平臺上也得益于NVIDIA A100 GPU 強大的算力支持,近5倍于上一代的INT8性能使得超越百萬級性能成為可能。另外,NVIDIA GPU的通用性,即通過CUDA直接對硬件編程,使得用戶可以針對其特有的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行定制優(yōu)化,這讓震旦基于GPU的自動算子調(diào)優(yōu)技術(shù)成為了現(xiàn)實。

最終獲得的調(diào)優(yōu)算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享內(nèi)存,從而交出了軟硬件協(xié)同優(yōu)化的滿意答卷。

在MLPerf推理性能測試結(jié)果1.0版本圖像分類性能測試中,阿里云震旦異構(gòu)計算加速平臺,基于NVIDIA A100 GPU平臺和開放規(guī)則,在離線場景下以每秒處理107.8萬張圖片的成績,打破了此前谷歌保持的絕對性能榜單的世界紀(jì)錄。這也是阿里在通用GPU平臺第一次取得100萬+這樣的成績。

此次阿里云震旦異構(gòu)計算加速平臺基于NVIDIA通用GPU硬件,通過機器學(xué)習(xí)模型的自動優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVIDIA GPU單卡性能。無論是新推出的A100和A10,還是已面市3年的T4,都帶來了單卡性能的大幅提升。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1199

    瀏覽量

    120429
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4729

    瀏覽量

    128890
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1879

    瀏覽量

    34989

原文標(biāo)題:NVIDIA A100 GPU助力阿里云打破MLPerf推理性能測試紀(jì)錄

文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    《CST Studio Suite 2024 GPU加速計算指南》

    的各個方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -
    發(fā)表于 12-16 14:25

    【一文看懂】什么是異構(gòu)計算

    隨著人工智能、深度學(xué)習(xí)、大數(shù)據(jù)處理等技術(shù)的快速發(fā)展,計算需求的復(fù)雜性不斷提升。傳統(tǒng)的單一計算架構(gòu)已難以滿足高效處理復(fù)雜任務(wù)的要求,異構(gòu)計算因此應(yīng)運而生,成為現(xiàn)代計算領(lǐng)域的一個重要方向。
    的頭像 發(fā)表于 12-04 01:06 ?1348次閱讀
    【一文看懂】什么是<b class='flag-5'>異構(gòu)計算</b>?

    詳解Arm計算平臺的優(yōu)勢

    對于人工智能 (AI) 而言,任何單一硬件或計算組件都無法成為適合各類工作負(fù)載的萬能解決方案。AI 貫穿從云端到邊緣側(cè)的整個現(xiàn)代計算領(lǐng)域,為了滿足不同的 AI 用例和需求,一個可以靈活使用 CPU、GPU 和 NPU 等不同
    的頭像 發(fā)表于 12-03 16:53 ?276次閱讀

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    對卷積核優(yōu)化的思考。 GPU的存儲體系采用了獨特的倒金字塔結(jié)構(gòu),在我看來這是其計算性能的關(guān)鍵。大容量寄存器設(shè)計破解了傳統(tǒng)馮諾依曼架構(gòu)的內(nèi)存瓶頸,合并訪存機制巧妙解決了內(nèi)存帶寬限制。NVIDIA
    發(fā)表于 11-24 17:12

    NVIDIA加速計算如何推動醫(yī)療健康

    近日,NVIDIA 企業(yè)平臺副總裁 Bob Pette 在 AI Summit 一場演講中重點談?wù)摿?NVIDIA 加速計算如何推動醫(yī)療健康
    的頭像 發(fā)表于 11-20 09:10 ?286次閱讀

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來
    的頭像 發(fā)表于 10-25 09:23 ?245次閱讀

    利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

    DolphinDB 是一家高性能數(shù)據(jù)庫研發(fā)企業(yè),也是 NVIDIA 初創(chuàng)加速計劃成員,其開發(fā)的產(chǎn)品基于高性能分布式時序數(shù)據(jù)庫,是支持復(fù)雜計算和流數(shù)據(jù)分析的實時計算
    的頭像 發(fā)表于 09-09 09:57 ?453次閱讀
    利用<b class='flag-5'>NVIDIA</b> RAPIDS<b class='flag-5'>加速</b>DolphinDB Shark<b class='flag-5'>平臺</b>提升<b class='flag-5'>計算</b>性能

    如何理解計算

    據(jù)的安全性。 **高性能計算:**計算平臺提供高性能的計算資源,用于處理復(fù)雜的科學(xué)和工程計算
    發(fā)表于 08-16 17:02

    打造異構(gòu)計算新標(biāo)桿!國數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計

    參考設(shè)計是首個支持異構(gòu)計算架構(gòu)的CXL硬件設(shè)備,標(biāo)志著CXL技術(shù)在數(shù)據(jù)中心領(lǐng)域迎來異構(gòu)計算新階段。 ? 國數(shù)集聯(lián)基于FPGA與自主研發(fā)的CXL協(xié)議IP的先進(jìn)特性,可實現(xiàn)CPU、GPU、DDR、SSD
    的頭像 發(fā)表于 08-06 14:19 ?310次閱讀
    打造<b class='flag-5'>異構(gòu)計算</b>新標(biāo)桿!國數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計

    AvaotaA1全志T527開發(fā)板AMP異構(gòu)計算簡介

    Avaota SBC 的部分平臺內(nèi)具有小核心 CPU,與大核心一起組成了異構(gòu)計算的功能。 在異構(gòu)多處理系統(tǒng)中,主核心和輔助核心的存在旨在共同協(xié)作,以實現(xiàn)更高效的任務(wù)處理。這種協(xié)作需要系統(tǒng)采取一系列
    發(fā)表于 07-24 09:54

    異構(gòu)計算:解鎖算力潛能的新途徑

    范式,智慧地解鎖了計算潛能的新境界。異構(gòu)計算:多元并蓄的智慧之選首先,讓我們揭開異構(gòu)計算的神秘面紗。簡單來說,異構(gòu)計算是指將不同類型的計算
    的頭像 發(fā)表于 07-18 08:28 ?7818次閱讀
    <b class='flag-5'>異構(gòu)計算</b>:解鎖算力潛能的新途徑

    NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

    德國、日本和波蘭的超級計算機利用 Grace-Hopper 和量子-經(jīng)典加速超算平臺推進(jìn)量子計算研究 ? ? 德國漢堡 —— 國際超算大會(ISC)—— 2024 年 5 月 13 日
    發(fā)表于 05-13 15:21 ?195次閱讀
    <b class='flag-5'>NVIDIA</b> 通過 CUDA-Q <b class='flag-5'>平臺</b>為全球各地的量子<b class='flag-5'>計算</b>中心提供<b class='flag-5'>加速</b>

    基于NVIDIA Megatron Core的MOE LLM實現(xiàn)和訓(xùn)練優(yōu)化

    本文將分享阿里人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Expert
    的頭像 發(fā)表于 03-22 09:50 ?759次閱讀
    基于<b class='flag-5'>NVIDIA</b> Megatron <b class='flag-5'>Core</b>的MOE LLM實現(xiàn)和訓(xùn)練優(yōu)化

    高通NPU和異構(gòu)計算提升生成式AI性能?

    異構(gòu)計算的重要性不可忽視。根據(jù)生成式AI的獨特需求和計算負(fù)擔(dān),需要配備不同的處理器,如專注于AI工作負(fù)載的定制設(shè)計的NPU、CPU和GPU。
    的頭像 發(fā)表于 03-06 14:15 ?782次閱讀

    《數(shù)據(jù)處理器:DPU編程入門》DPU計算入門書籍測評

    的架構(gòu)服務(wù),同時它一般不直接面向于數(shù)據(jù)存儲,通信接口等底層應(yīng)用。也不直接架構(gòu)頂層的服務(wù)。 因此對于DPU系統(tǒng)來說,現(xiàn)在CPU仍然是GPU于DPU架構(gòu)異構(gòu)計算中必須存在的內(nèi)容。 二、學(xué)習(xí)性開發(fā) DPU
    發(fā)表于 12-24 10:54
    RM新时代网站-首页