RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Xavier的硬件架構特性!Xavier推理性能評測

NVIDIA英偉達企業(yè)解決方案 ? 來源:lp ? 2019-04-17 16:55 ? 次閱讀

01

背景

如果把信息科技產業(yè)劃分為三個時代:PC 時代、移動互聯(lián)網時代和人工智能AI)時代。目前,我們處于移動互聯(lián)網時代的末期和下一個時代的早期,即以深度神經網絡算法為核心的AI 時代。

深度神經網絡模擬人類大腦的工作原理,是近年來機器學習領域最令人矚目的方向。2006年深度學習泰斗Geoffrey Hinton提出了基于“逐層訓練”和“精調”的兩階段策略,解決了深度神經網絡中參數(shù)訓練的難題后,學術界和工業(yè)界對深度神經網絡的研究熱情高漲,并逐漸在語音識別、圖像識別、自然語言處理等領域取得突破性進展。2012年深度卷積神經網絡在ImageNet圖像分類競賽中取得了世界第一,標志著端到端的方法取得了超越手工設計特征的傳統(tǒng)方法。此后深度神經網絡的發(fā)展進入了快車道。2016年基于深度學習的AlphaGo打敗了圍棋世界冠軍李世石,同度舉辦的人工智能知名學術會議CVPR、NIPS、AAAI和ICLR上深度神經網絡的主題占主導地位。2017年以深度神經網絡為核心的DeepStack算法在德州撲克游戲中擊敗了人類職業(yè)玩家。2018年,人工智能的芯片已經應用于云計算和移動終端中。目前,深度神經網絡的研究向著更深更廣的方向前進,一方面深度神經網絡的理論研究越來越深入,另外一方面如何開發(fā)基于深度神經網絡的智能系統(tǒng)成為關鍵,特別是如何將人工智能技術與邊緣計算結合起來。

云計算作為一種計算模式已經滲透進我們日常生活之中,但是有很多很多應用場合,由于網絡不可用、網絡帶寬不足和網絡延遲大等原因使得基于云計算的模式不能滿足需求,這就是邊緣計算覆蓋的領域。中國邊緣計算產業(yè)聯(lián)盟(Edge Computing Consortium,ECC)定義的邊緣計算是指在靠近物或數(shù)據(jù)源頭的網絡邊緣側,融合網絡、計算、存儲、應用核心能力的開放平臺,就近提供邊緣智能服務,滿足業(yè)務在敏捷聯(lián)接、實時業(yè)務、數(shù)據(jù)優(yōu)化和應用智能等方面的關鍵需求。由此可見要想在邊緣計算中部署人工智能應用,必須要有高性能低功耗的超級計算平臺。NVIDIA最近發(fā)布的Jetson AGX Xavier就是在邊緣計算場景中部署人工智能應用的一個利器。

嵌入式超級計算機Jetson AGX Xavier可以用于自主物流車、機器人、無人機和其他智能機器,從而加速制造、物流、零售、服務、農業(yè)、醫(yī)療等產業(yè)的智能化發(fā)展,為智能城市的發(fā)展做出貢獻。

02

Xavier的硬件架構特性

Xavier是最新一代NVIDIA業(yè)界領先的嵌入式Linux高性能計算機,主要包括一個8核NVIDIA Carmel ARMv8.2 64位CPU,由8個流多處理器組成的512核Volta架構的GPU,支持并行計算語言CUDA 10,支持多精度計算,F(xiàn)P16計算能力為11 TFLOPS(每秒浮點運算次數(shù)),INT8為22 TOPS。64個Tensor核心, 16GB 256位LPDDR4x,雙深度學習加速器 (DLA)引擎,NVIDIA視覺加速器引擎,高清視頻編解碼器,Xavier集成的Volta GPU,具體參數(shù)如表1所示,GPU架構如圖1所示。

用戶可根據(jù)應用需要配置Xavier工作在10W、15W和30W的模式,憑借多種工作模式,Jetson AGX Xavier的能效比其前身Jetson TX2高出10倍以上,性能超過20倍。

表1 Xavier主要參數(shù)

圖1 Xavier Volta GPU架構

Xavier內置的 Tensor Core支持混合精度計算??梢酝瓿梢韵碌娜诤铣朔臃ǎ簣?zhí)行兩個4*4 FP16矩陣相乘,將結果添加到4*4 FP16或FP32矩陣中,最終輸出新的4*4 FP16或FP32矩陣。深度神經網絡最耗時的卷積操作在訓練和推理時都可以轉成上述的矩陣乘法,Tensor Core極大的提高了計算效率。

Xavier具有兩個NVIDIA 深度學習加速器(DLA)引擎,可以進行高性能的深度神經網絡推理計算,其結構如圖2所示。這每個DLA具有高達5 TOPS INT8或2.5 TFLOPS FP16計算性能,功耗僅為0.5-1.5W。DLA支持加速CNN層,例如卷積、反卷積、激活函數(shù)、最小/最大/平均池化、局部響應歸一化和全連接層。

圖2 深度學習加速器(DLA)架構

03

Xavier的軟件平臺

Xavier主要用于邊緣計算的深度神經網絡推理,其支持Caffe、Tensorflow、PyTorch等多種深度學習框架導出的模型。為進一步提高計算效率,還可以使用TensorRT對訓練好的模型利用計算圖優(yōu)化、算子融合、量化等方法精簡進行優(yōu)化。Xavier通過TensorRT使開發(fā)者能充分的利用GPU中的Tensor core和DLA單元等計算模塊。

04

Xavier推理性能評測

4.1 測試平臺參數(shù)

為了測試Xavier的推理性能,我們使用目標檢測算法分別在GeForce 840M、Jetson TX2和Xavier三個計算平臺上進行測試。Jetson TX2工作在默認的MAXP_CORE_ARM模式,Xavier工作在默認的MODE_15W模式。三個計算平臺的關鍵技術參數(shù)如表2所述,測試實驗場景如圖3所示。

表2 三個測試平臺參數(shù)

圖3 測試環(huán)境實景

(作者朱虎明實景拍攝,授權NVIDIA發(fā)布)

4.2 Faster R-CNN目標檢測算法介紹

我們利用Faster R-CNN目標檢測算法測試Xavier的推理性能。Faster R-CNN是Fast R-CNN和RPN(區(qū)域候選網絡)的融合。RPN使用全卷積網絡(FCN,fully-convolutional network)可以針對生成檢測候選框的任務端到端地訓練,能夠同時預測出目標的邊界和分數(shù)。這里使用基于VGG16的Faster R-CNN網絡,其算法主要流程如4所示。Faster R-CNN卷積網絡的結構主要包括:①13個conv層:kernel_size=3,pad=1,stride=1;②13個relu層:激活函數(shù),不改變圖片大小;③4個pooling層:kernel_size=2,stride=2;pooling層會讓輸出圖片是輸入圖片的1/2;

4.3 測試結果介紹

測試時在TensorRT給出的示例代碼sampleFasterR-CNN.cpp上找到推理函數(shù),在其前后添加時間函數(shù)gettimeofday(),計算其推理時間。在不同的硬件平臺上重復實驗五次取時間平均值,結果如表3所示。

從實驗結果表可以看出來,Xavier在使用TensorRT進行推理時,性能相比Jetson TX2提升了不少。需要注意的是Xavier使用的TensorRT版本相比TX2版本在軟件架構上有很大的變化,特別是結構性更好。另外,由于時間的原因,我們沒有測試DLA加速的效果。

表3 不同平臺目標檢測計算性能對比

05

總結

Xavier平臺配備了完整的 AI 開發(fā)軟件包NVIDIA JetPack SDK,包括最新版本的 CUDA、cuDNN 和 TensorRT等軟件。這些開發(fā)軟件使用起來非常方便,再加上Xavier 平臺強大的推理計算能力,Xavier必將在制造、物流、零售、服務等邊緣計算人工智能應用場景大放異彩。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100712
  • 人工智能
    +關注

    關注

    1791

    文章

    47183

    瀏覽量

    238237
  • 硬件架構
    +關注

    關注

    0

    文章

    29

    瀏覽量

    9063

原文標題:開發(fā)者實測:NVIDIA Jetson AGX Xavier開發(fā)套件使用初體驗

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

    Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規(guī)模部署的英特爾? FPGA(現(xiàn)場可編程邏輯門陣列)技術,為其模型提供行業(yè)領先的人工智能 (AI) 推理性能
    的頭像 發(fā)表于 05-16 17:25 ?6370次閱讀

    NVIDIA擴大AI推理性能領先優(yōu)勢,首次在Arm服務器上取得佳績

    最新MLPerf基準測試表明,NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。
    發(fā)表于 09-23 14:18 ?2620次閱讀
    NVIDIA擴大AI<b class='flag-5'>推理性能</b>領先優(yōu)勢,首次在Arm服務器上取得佳績

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優(yōu)勢,實現(xiàn)了比CPU快237倍的AI推理性能,助力企業(yè)將AI研究轉化為生產力。
    發(fā)表于 10-22 14:07 ?807次閱讀

    NVIDIA 在首個AI推理基準測試中大放異彩

    首個獨立AI推理基準測試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場中最大、同時也是最具競爭力的領域,業(yè)內此前一直希望能夠有一套客觀的推理性能測試指標。在參與
    發(fā)表于 11-08 19:44

    JETSON AGX Xavier的相關資料下載

    嵌入式AI 開發(fā)板 JETSON AGX Xavier使用刷機+環(huán)境搭建嵌入式大牛刷機指南pytorch-craft項目工程測試嵌入式大牛測試指南yolov3上板測試嵌入式大牛測試指南
    發(fā)表于 12-14 07:04

    Xavier入門踩坑PWM問題解決方法

    Xavier入門踩坑PWM問題解決方法GPIO問題解決方法PWM問題由于需要做外部傳感器的觸發(fā)同步,所以需要一個方波,考慮用Xavier的PWM,結果折騰了好久發(fā)現(xiàn)需要配置內部硬件,折騰了好久也沒
    發(fā)表于 01-10 08:11

    怎么做才能通過Jetson Xavier AGX構建android圖像呢?

    我正在使用 Nvidia 的 Jetson Xavier AGX 按照“android 用戶指南”為 imx8 qm Mek 套件構建 android 圖像(android 13)。當我運行命令
    發(fā)表于 06-07 08:58

    求助,為什么將不同的權重應用于模型會影響推理性能?

    生成兩個 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運行 更多樣化的權重是否會影響 Myriad X 上的推理性能?
    發(fā)表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。 將 權重轉換為 ONNX 文件,然后轉換為中間表示 (IR)。 無法確定如何獲得更好的推理性能。
    發(fā)表于 08-15 06:58

    英特爾FPGA為人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規(guī)模部署的英特爾 FPGA(現(xiàn)場可編程邏輯門陣列)技術,為其模型提供行業(yè)領先的人工智能 (AI) 推理性能。 “作為一家整體技術提供商,我們通過與 Microsoft 密切合作為人工智能提供支持。
    發(fā)表于 05-20 00:10 ?3055次閱讀

    基于Xavier SoC的AI計算平臺的自動駕駛處理器芯片

    而且,Xavier性能極具強悍,運行速度比前代產品快得多。Xavier 采用 NVLink 互聯(lián)技術,可與專用 GPU 搭配使用(速度高達每秒 20GB,比之前 PCI Express 連接的速度快 10 倍)。
    的頭像 發(fā)表于 12-04 16:15 ?4851次閱讀

    NVIDIA Jetson AGX Xavier應用在AI和

    Jetson AGX Xavier 為機器人和邊緣設備帶來了改變游戲規(guī)則的計算水平,為針對尺寸、重量和功率進行了優(yōu)化的嵌入式平臺帶來了高端工作站性能。
    的頭像 發(fā)表于 04-18 10:26 ?6001次閱讀
    NVIDIA Jetson AGX <b class='flag-5'>Xavier</b>應用在AI和

    用于工業(yè)AI的Jetson AGX Xavier模塊

      此外,DeepStream 3.0 SDK 支持 Jetson AGX Xavier,該 SDK 利用 TensorRT、CUDA、多媒體和成像 API 來加速視頻分析應用程序的開發(fā)。
    的頭像 發(fā)表于 06-08 14:22 ?1836次閱讀
    用于工業(yè)AI的Jetson AGX <b class='flag-5'>Xavier</b>模塊

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件一輪又一輪改進
    的頭像 發(fā)表于 10-23 16:10 ?642次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?315次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>
    RM新时代网站-首页