如何加入RM新时代,新时代RM|国际平台

背景

如果把信息科技產業(yè)劃分為三個時代：PC 時代、移動互聯(lián)網時代和人工智能（AI）時代。目前，我們處于移動互聯(lián)網時代的末期和下一個時代的早期，即以深度神經網絡算法為核心的AI 時代。

深度神經網絡模擬人類大腦的工作原理，是近年來機器學習領域最令人矚目的方向。2006年深度學習泰斗Geoffrey Hinton提出了基于“逐層訓練”和“精調”的兩階段策略，解決了深度神經網絡中參數(shù)訓練的難題后，學術界和工業(yè)界對深度神經網絡的研究熱情高漲，并逐漸在語音識別、圖像識別、自然語言處理等領域取得突破性進展。2012年深度卷積神經網絡在ImageNet圖像分類競賽中取得了世界第一，標志著端到端的方法取得了超越手工設計特征的傳統(tǒng)方法。此后深度神經網絡的發(fā)展進入了快車道。2016年基于深度學習的AlphaGo打敗了圍棋世界冠軍李世石，同度舉辦的人工智能知名學術會議CVPR、NIPS、AAAI和ICLR上深度神經網絡的主題占主導地位。2017年以深度神經網絡為核心的DeepStack算法在德州撲克游戲中擊敗了人類職業(yè)玩家。2018年，人工智能的芯片已經應用于云計算和移動終端中。目前，深度神經網絡的研究向著更深更廣的方向前進，一方面深度神經網絡的理論研究越來越深入，另外一方面如何開發(fā)基于深度神經網絡的智能系統(tǒng)成為關鍵，特別是如何將人工智能技術與邊緣計算結合起來。

云計算作為一種計算模式已經滲透進我們日常生活之中，但是有很多很多應用場合，由于網絡不可用、網絡帶寬不足和網絡延遲大等原因使得基于云計算的模式不能滿足需求，這就是邊緣計算覆蓋的領域。中國邊緣計算產業(yè)聯(lián)盟（Edge Computing Consortium，ECC）定義的邊緣計算是指在靠近物或數(shù)據(jù)源頭的網絡邊緣側，融合網絡、計算、存儲、應用核心能力的開放平臺，就近提供邊緣智能服務，滿足業(yè)務在敏捷聯(lián)接、實時業(yè)務、數(shù)據(jù)優(yōu)化和應用智能等方面的關鍵需求。由此可見要想在邊緣計算中部署人工智能應用，必須要有高性能低功耗的超級計算平臺。NVIDIA最近發(fā)布的Jetson AGX Xavier就是在邊緣計算場景中部署人工智能應用的一個利器。

嵌入式超級計算機Jetson AGX Xavier可以用于自主物流車、機器人、無人機和其他智能機器，從而加速制造、物流、零售、服務、農業(yè)、醫(yī)療等產業(yè)的智能化發(fā)展，為智能城市的發(fā)展做出貢獻。

Xavier的硬件架構特性

Xavier是最新一代NVIDIA業(yè)界領先的嵌入式Linux高性能計算機，主要包括一個8核NVIDIA Carmel ARMv8.2 64位CPU，由8個流多處理器組成的512核Volta架構的GPU，支持并行計算語言CUDA 10，支持多精度計算，F(xiàn)P16計算能力為11 TFLOPS（每秒浮點運算次數(shù)），INT8為22 TOPS。64個Tensor核心， 16GB 256位LPDDR4x，雙深度學習加速器（DLA）引擎，NVIDIA視覺加速器引擎，高清視頻編解碼器，Xavier集成的Volta GPU，具體參數(shù)如表1所示，GPU架構如圖1所示。

用戶可根據(jù)應用需要配置Xavier工作在10W、15W和30W的模式，憑借多種工作模式，Jetson AGX Xavier的能效比其前身Jetson TX2高出10倍以上，性能超過20倍。

表1 Xavier主要參數(shù)

圖1 Xavier Volta GPU架構

Xavier內置的 Tensor Core支持混合精度計算?？梢酝瓿梢韵碌娜诤铣朔臃ǎ簣?zhí)行兩個4*4 FP16矩陣相乘，將結果添加到4*4 FP16或FP32矩陣中，最終輸出新的4*4 FP16或FP32矩陣。深度神經網絡最耗時的卷積操作在訓練和推理時都可以轉成上述的矩陣乘法，Tensor Core極大的提高了計算效率。

Xavier具有兩個NVIDIA 深度學習加速器（DLA）引擎，可以進行高性能的深度神經網絡推理計算，其結構如圖2所示。這每個DLA具有高達5 TOPS INT8或2.5 TFLOPS FP16計算性能，功耗僅為0.5-1.5W。DLA支持加速CNN層，例如卷積、反卷積、激活函數(shù)、最小/最大/平均池化、局部響應歸一化和全連接層。

圖2 深度學習加速器（DLA）架構

Xavier的軟件平臺

Xavier主要用于邊緣計算的深度神經網絡推理，其支持Caffe、Tensorflow、PyTorch等多種深度學習框架導出的模型。為進一步提高計算效率，還可以使用TensorRT對訓練好的模型利用計算圖優(yōu)化、算子融合、量化等方法精簡進行優(yōu)化。Xavier通過TensorRT使開發(fā)者能充分的利用GPU中的Tensor core和DLA單元等計算模塊。

Xavier推理性能評測

4.1 測試平臺參數(shù)

為了測試Xavier的推理性能，我們使用目標檢測算法分別在GeForce 840M、Jetson TX2和Xavier三個計算平臺上進行測試。Jetson TX2工作在默認的MAXP_CORE_ARM模式，Xavier工作在默認的MODE_15W模式。三個計算平臺的關鍵技術參數(shù)如表2所述，測試實驗場景如圖3所示。

表2 三個測試平臺參數(shù)

圖3 測試環(huán)境實景

（作者朱虎明實景拍攝，授權NVIDIA發(fā)布）

4.2 Faster R-CNN目標檢測算法介紹

我們利用Faster R-CNN目標檢測算法測試Xavier的推理性能。Faster R-CNN是Fast R-CNN和RPN（區(qū)域候選網絡）的融合。RPN使用全卷積網絡（FCN，fully-convolutional network）可以針對生成檢測候選框的任務端到端地訓練，能夠同時預測出目標的邊界和分數(shù)。這里使用基于VGG16的Faster R-CNN網絡，其算法主要流程如4所示。Faster R-CNN卷積網絡的結構主要包括：①13個conv層：kernel_size=3,pad=1,stride=1；②13個relu層：激活函數(shù)，不改變圖片大小；③4個pooling層：kernel_size=2,stride=2;pooling層會讓輸出圖片是輸入圖片的1/2；

4.3 測試結果介紹

測試時在TensorRT給出的示例代碼sampleFasterR-CNN.cpp上找到推理函數(shù)，在其前后添加時間函數(shù)gettimeofday()，計算其推理時間。在不同的硬件平臺上重復實驗五次取時間平均值，結果如表3所示。

從實驗結果表可以看出來，Xavier在使用TensorRT進行推理時，性能相比Jetson TX2提升了不少。需要注意的是Xavier使用的TensorRT版本相比TX2版本在軟件架構上有很大的變化，特別是結構性更好。另外，由于時間的原因，我們沒有測試DLA加速的效果。

表3 不同平臺目標檢測計算性能對比

總結

Xavier平臺配備了完整的 AI 開發(fā)軟件包NVIDIA JetPack SDK，包括最新版本的 CUDA、cuDNN 和 TensorRT等軟件。這些開發(fā)軟件使用起來非常方便，再加上Xavier 平臺強大的推理計算能力，Xavier必將在制造、物流、零售、服務等邊緣計算人工智能應用場景大放異彩。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴