AI第三次浪潮革命是在算力激增的推動下發(fā)生的。Jeff Dean說我們需要超過現(xiàn)在100萬倍的算力,成為企業(yè)面臨的重大挑戰(zhàn)。本文通過硬件基礎(chǔ)、軟件基礎(chǔ)以及優(yōu)化框架和應(yīng)用加速4個方面,為您起底百萬倍算力挑戰(zhàn)。
AI這個詞,從第一次被創(chuàng)造出來至今,已經(jīng)經(jīng)歷了兩次浪潮。如今在算法、大數(shù)據(jù)、算力三大因素的驅(qū)動下,AI發(fā)展迎來第三次浪潮。
谷歌AI負(fù)責(zé)人Jeff Dean說:“事實(shí)證明,我們真正需要的是超過現(xiàn)在100萬倍的計(jì)算能力,而不僅僅是幾十倍的增長。”
算力為王的年代,企業(yè)需要滿足4個層次的需求:
硬件,一些計(jì)算平臺比如服務(wù)器、加速卡等。這是算力的物理根基,是滿足算力的第一步
軟件,構(gòu)建在硬件之上的開發(fā)管理套件,提供整體解決方案,可以讓用戶無需掌握高深的AI知識,直接根據(jù)需要進(jìn)行開發(fā)
優(yōu)化主流框架,針對硬件和管理套件進(jìn)行定制化,使得算力能夠更加快速穩(wěn)定
應(yīng)用加速,AI端到端的解決方案,將算力落地
這就給傳統(tǒng)企業(yè)帶來了前所未有的挑戰(zhàn)。一方面,越來越多的傳統(tǒng)企業(yè)需要盡快轉(zhuǎn)型AI;另一方面,傳統(tǒng)企業(yè)已經(jīng)無法應(yīng)對AI時代的算力挑戰(zhàn)。
提高整個AI計(jì)算系統(tǒng)的性能與效率迫在眉睫,而首當(dāng)其沖的,就是服務(wù)器和加速卡。
解決算力需求的硬件基礎(chǔ):服務(wù)器和加速卡
企業(yè)的規(guī)模越大,數(shù)據(jù)的集中度就越高,對AI計(jì)算力的需求也就越高,對AI服務(wù)器的需求也就約旺盛。
根據(jù)國際調(diào)研公司(IDC)全球季度服務(wù)器跟蹤報(bào)告,2018年第三季度全球服務(wù)器市場,供應(yīng)商收入達(dá)234億美元(約1581億人民幣),同比增長37.7%。全球服務(wù)器出貨量320萬臺,同比增長18.3%。
在全球服務(wù)器市場,排名前五的分別是:DELL EMC第一、HPE/New H3C Group第二、Inspur/Inspur Power第三、Lenovo第四、 IBM,Huawei和Cisco并列第五。
具體數(shù)據(jù)如下圖:
可以看到,在服務(wù)器市場TOP 5的7家廠商中,浪潮表現(xiàn)的最為亮眼,出貨量同比增長90.2%,營收增長達(dá)增長156.5%。
杭州的阿里,北京的京東、字節(jié)跳動(今日頭條)、百度,深圳的騰訊,都對當(dāng)?shù)谹I計(jì)算力產(chǎn)生巨大的需求。
能夠勝任BAT算力要求的企業(yè)不多。在AI算力供應(yīng)商的問題上,BAT紛紛選擇了浪潮。
浪潮能夠連續(xù)多年成為BAT最主要的AI服務(wù)器供應(yīng)商,靠的是不斷提升計(jì)算能力的AI服務(wù)器:
AI超級服務(wù)器AGX-5,單機(jī)配置16顆NVIDIA Tesla V100 Tensor Core 32GB GPUs,AI計(jì)算性能高達(dá)每秒2千萬億次,可支持4倍超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型,并將訓(xùn)練速度提高10倍。
AGX-2服務(wù)器,采用P100的Linpack浮點(diǎn)運(yùn)算性能達(dá)29.33TFLOPS,在2U空間內(nèi)支持部署8塊NVLink或PCI-E。在AI深度學(xué)習(xí)模型訓(xùn)練上,采用TensorFlow框架和GoogLeNet模型,AGX-2處理速度為每秒1165幅圖片。
智能視頻分析服務(wù)器NF5280M5-V,在2U空間內(nèi)配置8片NVIDIA TESLA P4 GPU,單臺服務(wù)器即可完成96路高清攝像頭視頻數(shù)據(jù)的解碼及結(jié)構(gòu)化實(shí)時處理需求。同時最大可提供96TB本地存儲空間,可將視頻處理數(shù)據(jù)的保存周期最高延長至6個月。
彈性GPU服務(wù)器NF5468M5,專注于AI云??赏瑫r處理300路以上1080p高清視頻結(jié)構(gòu)化,支持288TB大容量存儲或32TB固態(tài)存儲,實(shí)現(xiàn)高達(dá)400Gbps通信帶寬和1us的超低延遲。
這些服務(wù)器,同時也在為科大訊飛、商湯、曠視、字節(jié)跳動、滴滴等AI領(lǐng)先公司,在語音、圖像、視頻、搜索、網(wǎng)絡(luò)等方面提供了算力支持。
除了AI服務(wù)器,浪潮還發(fā)布了全球首款集成HBM2高速緩存FPGA AI加速卡F37X,可在不到75W典型應(yīng)用功耗提供28.1TOPS的INT8計(jì)算性能和460GB/s的超高數(shù)據(jù)帶寬,實(shí)現(xiàn)高性能、高帶寬、低延遲、低功耗的AI計(jì)算加速。
有了AI服務(wù)器和加速卡,僅僅是解決了算力需求的第一步:硬件基礎(chǔ)設(shè)施。接下來,就需要管理套件的跟進(jìn),實(shí)現(xiàn)軟件平臺基礎(chǔ)。
解決算力需求的軟件基礎(chǔ):AI開發(fā)平臺
解決了算力的硬件基礎(chǔ),企業(yè)還需要解決快速構(gòu)建AI開發(fā)平臺,進(jìn)行人工智能產(chǎn)業(yè)布局的難題。
這個時候,一套能夠?qū)崿F(xiàn)對計(jì)算、存儲、網(wǎng)絡(luò)等基礎(chǔ)資源的管理和調(diào)度的完整解決方案就非常必要了。
浪潮升級了AI高效開發(fā)管理平臺AIStation,致力于提供高效、易用的人工智能開發(fā)平臺。
同時AIStation還集成了主流的AI開源框架和深度學(xué)習(xí)模型,提供完整的AI開發(fā)工作流服務(wù)。
除了AIStation外,浪潮還發(fā)布了OpenStack AI云平臺。
根據(jù)工信部華信研究院提供的數(shù)據(jù)顯示,2018年OpenStack占據(jù)私有云60%的市場。
OpenStack AI云平臺可幫助行業(yè)AI用戶快速便捷的構(gòu)建CPU+GPU的彈性異構(gòu)云環(huán)境,并實(shí)現(xiàn)對異構(gòu)計(jì)算資源池的動態(tài)調(diào)度與分配,支撐數(shù)據(jù)管理、模型訓(xùn)練、模型部署等各類AI應(yīng)用場景。
通過對GPU虛擬機(jī)的支持,浪潮O(jiān)penStack AI云平臺能夠以多租戶的形式,按需分配異構(gòu)計(jì)算資源,從而實(shí)現(xiàn)AI敏捷開發(fā)。
同時,多租戶任務(wù)排隊(duì)策略、資源分組優(yōu)化策略、租戶資源配額集均衡策略以及GPU共享策略等精細(xì)化調(diào)度策略,也進(jìn)一步提高了GPU資源的利用率。
有了管理套件后,接下來就應(yīng)該深入到更細(xì)節(jié)的框架優(yōu)化中了。
進(jìn)一步提升算力方法:框架優(yōu)化
要滿足算力的不斷提升,舊有的計(jì)算框架已經(jīng)無法滿足新的性能需求,需要不斷的進(jìn)行優(yōu)化。
目前使用比較廣的框架包括TensorFlow、PyTorch和Caffe。
TensorFlow是一款強(qiáng)大而成熟的深度學(xué)習(xí)框架,有強(qiáng)大的可視化性能,以及用于高水平模型開發(fā)的多個選項(xiàng)。它具備生產(chǎn)就緒的部署選項(xiàng),支持移動平臺。
Caffe用來做計(jì)算機(jī)視覺,HPC和數(shù)值優(yōu)化的研究,加上產(chǎn)品線里的高效部署。
PyTorch用來做非常dynamic的研究加上對速度要求不高的產(chǎn)品。
對于企業(yè)來說,由于TF和Caffe的高效部署選項(xiàng),基于TF和Caffe的框架優(yōu)化就顯得更有意義。
浪潮針對TF和Caffe推出了Caffe-MPI, TensorFlow-Opt, FPGA計(jì)算加速引擎TF2等優(yōu)化方案。
Caffe-MPI
Caffe-MPI是全球首個集群并行版的Caffe深度學(xué)習(xí)計(jì)算開源框架,針對高性能計(jì)算系統(tǒng)設(shè)計(jì)使之具備良好的并行擴(kuò)展性。
新版本在4節(jié)點(diǎn)16塊GPU卡集群系統(tǒng)上訓(xùn)練性能較單卡提升13倍,其每秒處理圖片數(shù)量是同配置集群運(yùn)行的TensorFlow 1.0的近2倍。
Caffe-MPI設(shè)計(jì)了兩層通信模式,非常適合現(xiàn)在的高密度GPU服務(wù)器。同時Caffe-MPI還設(shè)計(jì)實(shí)現(xiàn)了計(jì)算和通信的重疊,提供了更好的cuDNN兼容性,用戶可以無縫調(diào)用最新的cuDNN版本實(shí)現(xiàn)更大的性能提升。
TensorFlow-Opt
TensorFlow-Opt已完成了ResNet-50、ResNet-101和VGG16(batch size=128 & 256)等多個網(wǎng)絡(luò)模型的測試。
其中,在ResNet-50網(wǎng)絡(luò)模型下(單卡batchsize=256),512塊GPU每秒可訓(xùn)練128336張圖片,即訓(xùn)練完成一個完整的ImageNet數(shù)據(jù)集(128萬張圖片)只需要約10秒時間,打破了AI訓(xùn)練性能世界紀(jì)錄。
FPGA計(jì)算加速引擎TF2
FPGA計(jì)算加速引擎TF2支持TensorFlow,可幫助AI客戶快速實(shí)現(xiàn)基于主流AI訓(xùn)練軟件和深度神經(jīng)網(wǎng)絡(luò)模型DNN的FPGA線上推理,并通過全球首創(chuàng)的FPGA上DNN的移位運(yùn)算技術(shù)獲得AI應(yīng)用的高性能和低延遲。
TF2計(jì)算加速引擎提高了FPGA上AI計(jì)算性能,降低了FPGA的AI軟件實(shí)現(xiàn)門檻,將支持FPGA廣泛應(yīng)用于AI生態(tài)推動更多AI應(yīng)用落地。
經(jīng)過AI服務(wù)器提供算力的硬件基礎(chǔ),管理套件提供軟件平臺基礎(chǔ),優(yōu)化框架保證緊跟算力不斷增長的需求,最后就是為應(yīng)用提供加速。
實(shí)現(xiàn)算力需求的落地應(yīng)用:案例解析
目前,浪潮在智能視頻分析、醫(yī)療影像、電力設(shè)備巡檢、金融匯率預(yù)測、語音識別、AI云等應(yīng)用中,已經(jīng)有了很多成功案例。
成功案例一:智能安防
視頻科技領(lǐng)域AI應(yīng)用的場景化非常分散,需要提煉應(yīng)用場景,根據(jù)應(yīng)用規(guī)模,在解決方案中按需靈活組合各種產(chǎn)品。
浪潮人工智能專家團(tuán)隊(duì)與大華合作建立了超強(qiáng)計(jì)算力為核心的計(jì)算平臺和計(jì)算集群單元。
在硬件上,使用AGX-2集群來處理視頻相關(guān)業(yè)務(wù)計(jì)算。在管理套件上,針對智能安防的應(yīng)用場景,定制開發(fā)了AIstation管理平臺。
優(yōu)化后的AIStation平臺,可以秒級構(gòu)建AI環(huán)境,實(shí)現(xiàn)GPU資源智能調(diào)度,整體效率大幅提升,降低運(yùn)維成本。
目前大華股份與浪潮已經(jīng)在智慧城市、雪亮工程、平安城市等多個領(lǐng)域共同打造信息化聯(lián)合解決方案,共同促進(jìn)智能物聯(lián)網(wǎng)行業(yè)智能化、信息化轉(zhuǎn)型升級和跨域發(fā)展。
成功案例二:首鋼園落地項(xiàng)目
北京首鋼自動化信息技術(shù)有限公司,采用了浪潮和百度聯(lián)合推出的ABC一體機(jī)3.0的鋼包質(zhì)檢解決方案后,10000張鋼材照片的整體缺陷識別分類準(zhǔn)確率達(dá)到99%以上,比人工專業(yè)檢測的準(zhǔn)確率更高。
成功案例三:語音識別一體機(jī)
浪潮與科大訊飛聯(lián)合發(fā)布了面向于語音識別、翻譯等AI應(yīng)用的16卡計(jì)算集群“AI Booster”,單套系統(tǒng)能夠?qū)崿F(xiàn)單精度240TFlops/s或Int8 752TFlops/s的計(jì)算性能。
雙方公布的實(shí)測數(shù)據(jù)顯示,在智能翻譯模型訓(xùn)練任務(wù)中,采用相同計(jì)算卡的“AI Booster”與傳統(tǒng)4卡服務(wù)器組成的16卡集群相比,AI計(jì)算加速比提升18%。
解決算力需求的長期戰(zhàn)略:人才培養(yǎng)
除了技術(shù)問題,傳統(tǒng)行業(yè)AI轉(zhuǎn)型還面臨AI人才的短缺。在培養(yǎng)人才問題上,浪潮也在積極提供解決方案。
去年在AICC人工智能計(jì)算大會上開辦集訓(xùn)營,提供了現(xiàn)場動手實(shí)踐的課程。
打比賽也是一個很好的吸引大學(xué)生投入AI學(xué)習(xí)中的方式。世界三大超算競賽之一的ASC,就是一個很好的例子。
目前ASC已經(jīng)吸引了超過7000名來自世界各地的選手,送出了近百萬的獎金。
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886
發(fā)布評論請先 登錄
相關(guān)推薦
評論