rm新时代是正规平台,RM新时代是正规平台吗

在開發(fā)一個加速程序的之前，有一個很重要的步驟：正確設(shè)計程序架構(gòu)。開發(fā)人員需要明確軟件應(yīng)用程序中哪一部分是需要硬件加速的，并且它多少的并行量，以保證硬件加速器件（FPGA）能完美發(fā)揮其作用。

本文將分為5個步驟來介紹：

1. 基準(zhǔn)和建立目標(biāo)

2. 確定加速部分

3. 確定FPGA硬件加速并行量

4. 確定軟件部分并行量

5. 微調(diào)架構(gòu)細節(jié)。

基準(zhǔn)和建立目標(biāo)

首先要測試應(yīng)用程序的運行時間和吞吐量，來確定當(dāng)前應(yīng)用程序在現(xiàn)有平臺的的基準(zhǔn)性能。這些數(shù)據(jù)應(yīng)涵蓋整個應(yīng)用程序（起始到結(jié)束）的性能和各個主要函數(shù)的性能。通常使用valgrind，callgrind和GNU gprof這些測試軟件來獲得應(yīng)用程序的性能數(shù)據(jù)，它們會顯示應(yīng)用程序中所有的函數(shù)數(shù)量以及各個函數(shù)的執(zhí)行時間。通過這些數(shù)據(jù)，我們可以找到耗時最長的部分，然后放到FPGA上進行加速。

評估運行時間

測試運行時間是軟件開發(fā)的基本流程，可以使用一些常用的測試軟件，或者插入計時器和性能計數(shù)器來完成此項操作。以gprof為例，可以得到類似如下圖結(jié)果。

評估吞吐量

這里的吞吐量是指數(shù)據(jù)被處理的速率。對于計算給定函數(shù)的吞吐量，具體公式為函數(shù)處理的數(shù)據(jù)除以函數(shù)處理的時間，如下：

TSW= max (VINPUT, VOUTPUT) / Running Time

如果是處理固定的數(shù)據(jù)量，只要簡單的檢查代碼就能知道吞吐量的大小。但在一些情況下，數(shù)據(jù)是可變的，那么插入計數(shù)器來測量吞吐量的大小是比較實用的。

確定最大可實現(xiàn)的吞吐量

在大多數(shù)加速系統(tǒng)中，最大可實現(xiàn)吞吐量受PCIe總線的限制。PCIe總線受很多因素的影響，例如母板，驅(qū)動，目標(biāo)板卡和發(fā)送數(shù)據(jù)大小等等。運行DMA測試能夠測試PCIe發(fā)送的有效吞吐量，從而確定加速性能潛力的上限。在安裝Alveo板卡后，我們可以使用xbutil dmatest命令來測試板卡的PCIe性能。

建立總體加速目標(biāo)

在開發(fā)過程中盡早確定加速目標(biāo)是非常有必要的，基于基準(zhǔn)性能的加速目標(biāo)會決定分析和決策的走向。加速目標(biāo)可以是硬性的也可以是軟性的。例如，實時視頻應(yīng)用程序有每秒處理60幀的嚴格硬性目標(biāo)，而數(shù)據(jù)科學(xué)應(yīng)用程序的軟性目標(biāo)是比其他可代替實現(xiàn)方法快10倍。所以無論哪種方式，領(lǐng)域?qū)I(yè)知識對于設(shè)置可實現(xiàn)的加速目標(biāo)都很重要。

確定加速部分

評估基準(zhǔn)性能后，下一步就是確定哪一個函數(shù)需要在FPGA上加速。當(dāng)選擇哪個函數(shù)用于加速時，有兩個方面需要考慮到：

性能瓶頸：應(yīng)用程序中有哪些函數(shù)需要著重關(guān)注

加速潛力：這些函數(shù)是否有加速的潛力

確定性能瓶頸

在一個純粹的順序進行的應(yīng)用程序中，可以通過解析報告很容易甄別到性能瓶頸。然而，大多數(shù)現(xiàn)實中的應(yīng)用程序都是多進程，因此在尋找性能瓶頸的時候考慮并行性很重要。一個很簡單的例子：

如上圖中是一個應(yīng)用程序中兩條并行的路徑，長度表示它們運行消耗時間。從這里我們看出，僅僅加速A，B進程的某一個并不能提高應(yīng)用程序的整體性能。即使你將A2加速100倍，該應(yīng)用程序的性能還是被A1和B進程鉗制。所以考慮加速對象時，要考慮整個應(yīng)用程序的性能，而不是單個函數(shù)的性能。

確定加速潛力

作為軟件程序中的瓶頸函數(shù)不一定具有加速的潛力，通常需要進行詳細分析才能準(zhǔn)確判斷給定函數(shù)的實際加速潛力。但是，有時候一些簡單的指導(dǎo)方法也能確定一個函數(shù)是否有加速潛力：

1. 選擇運算復(fù)雜度比較大的，相比于順序計算來說，它可以在FPGA上可以使用并行，流水線來提高效率。

2. 相對于輸入輸出來說的，選擇運算強度比較大的，因為這樣數(shù)據(jù)搬移時間開銷占用整個加速時間比率來說會低一些。

3. 選擇那些能夠數(shù)據(jù)重用，對內(nèi)存訪問比較少的，因為這可以是數(shù)據(jù)更容易在加速器中緩存，減少對全局內(nèi)存的訪問。

4. 對比函數(shù)吞吐量和FPGA吞吐量的比值，以確定最大可加速的倍數(shù)。

確定FPGA硬件加速并行量

在前面的步驟中確定哪個函數(shù)用于加速之后，接下來就要確定使用多少的并行量來達到這一目標(biāo)。內(nèi)核（kernel）的并行性可以分為大致兩種，一種是流水線形式，即是輸入和處理數(shù)據(jù)同時進行；另一種是同時處理多個任務(wù)，即是擁有多個輸入，多個任務(wù)并行處理。

評估硬件吞吐量（非并行）

沒有進行并行化的內(nèi)核（kernel）吞吐量可以近似為：

THW = Frequency（頻率） / Computational Intensity（計算強度） = Frequency * max(VINPUT,VOUTPUT) / VOPS

頻率就是kernel的時鐘頻率。這個值是由特定的平臺決定，比如，Alveo U200的最大kernel時鐘是300Mhz。VINPUT，VOUTPUT是輸入輸出數(shù)據(jù)，VOPS是操作總數(shù)。由此可以看出，大量的操作數(shù)和少量的數(shù)據(jù)的函數(shù)更適合加速。

確定所需的并行量

經(jīng)過上述計算后，可以估算出初始的HW/SW性能比：

Speed-up = THW/TSW = Fmax * Running Time /VOPS

沒有使用并行運算，則初始的加速（speed-up）通常會小于1。

接下來就要計算多少并行量可以滿足性能目標(biāo)：

Parallelism Needed = TGoal / THW = TGoal * Vops / (Fmax * max(VINPUT, VOUTPUT))

并行方式可以通過多種方式實現(xiàn)：拓展數(shù)據(jù)路徑，使用多個計算引擎，使用多個kernel實例，開發(fā)人員應(yīng)根據(jù)他們的需求和應(yīng)用程序的特點確定最佳組合方式。

確定數(shù)據(jù)路徑應(yīng)并行處理多少個樣本

一種可能性是通過創(chuàng)建更寬的數(shù)據(jù)路徑（數(shù)據(jù)的輸入和輸出的過程）然后并行處理更多數(shù)據(jù)以便加快計算速度。有些算法很適合這種方法，而有些則不適用。重要的是要了解這個算法的本質(zhì)，確定這種方法是否可運用。如果可運用，那么并行處理多少數(shù)據(jù)才能滿足性能目標(biāo)也是需要考慮的。

運用更寬的數(shù)據(jù)路徑、并行處理更多數(shù)據(jù)這些方法，本質(zhì)是通過減少加速函數(shù)等待時間（運行時間）來實現(xiàn)提高性能的。

確定在FPGA中可以（應(yīng)該）實例化多少個kernel

如果數(shù)據(jù)路徑無法并行化（或不夠充分），則請考慮添加更多kernel實例，這通常被稱為使用多個計算單元（CU）。添加更多的kernel實例的本質(zhì)是允許加速函數(shù)更多的調(diào)用，從而提高應(yīng)用程序的性能，如下所示。多個數(shù)據(jù)集由不同的實例并發(fā)處理。只要主機應(yīng)用程序可以保持kernel繁忙，應(yīng)用程序的性能就會隨著實例數(shù)的增加而線性增加。

在Vitis中，很容易通過添加額外的kernel實例來提高加速性能，不需要過多的代碼調(diào)整。在這一點上，開發(fā)人員應(yīng)該充分了解硬件中滿足性能目標(biāo)所需的并行度，結(jié)合數(shù)據(jù)路徑寬度和kernel實例來達到預(yù)期的目標(biāo)。

確定軟件部分并行量

雖然FPGA及其kernel旨在提供潛在的并行性，但是必須對軟件應(yīng)用程序進行設(shè)計以便利用這種潛在的并行性。

軟件應(yīng)用程序中的并行性主要是以下幾方面：

?最大限度地減少空閑時間，并在kernel運行時執(zhí)行其他任務(wù)。

?保持kernel處于活動狀態(tài)，以便盡早并經(jīng)常執(zhí)行新的計算。

?優(yōu)化與FPGA之間的數(shù)據(jù)傳輸。

如上圖所示，host程序總是處于繁忙狀態(tài)并且計劃執(zhí)行下一步的操作，而kernel端是處理當(dāng)前的任務(wù)。所以，host程序必須統(tǒng)籌與kernel的數(shù)據(jù)傳輸，并且向kernel端發(fā)送請求，不然再多的kernel也是沒有效果的。

在kernel運行時最大程度地減少CPU空閑時間

FPGA加速是將某些計算從主機處理器轉(zhuǎn)移到FPGA的kernel中，在純順序模型中，應(yīng)用程序?qū)㈤e置地等待結(jié)果，準(zhǔn)備并回復(fù)處理。設(shè)計軟件應(yīng)用程序以避免此類空閑周期，首先是確定不依賴kernel結(jié)果的應(yīng)用程序部分，然后重新設(shè)計，以便這些函數(shù)可以在主機處理器上與FPGA中運行的kernel同時運行處理。

保持kernel利用率

Kernel是在FPGA中的，僅在應(yīng)用程序請求它們時才運行。為了最大程度地提高性能，應(yīng)使kernel一致處于繁忙（工作）狀態(tài)。從概念上講，這是通過在當(dāng)前請求完成之前發(fā)出下一個請求來實現(xiàn)的。這可以實現(xiàn)流水線式執(zhí)行和重復(fù)執(zhí)行，使kernel得到最佳利用。

在上圖這個例子中，原始的應(yīng)用程序重復(fù)的調(diào)用 func1，func2和func3。針對這個應(yīng)用程序?qū)?yīng)創(chuàng)建了三個kernel是K1，K2和K3。最平庸的實現(xiàn)是將三個kernel按順序運行，就像原始的應(yīng)用程序一樣。但是，這意味著每個kernel只有三分之一的時間處于工作狀態(tài)。更好的方法是重構(gòu)軟件應(yīng)用程序，以便它可以向kernel發(fā)出流水線請求。這允許K1在K2處理K1的輸出的同時開始處理新的數(shù)據(jù)集。通過這個方法，三個kernel以最大化的利用率不斷運行。

優(yōu)化與FPGA之間的數(shù)據(jù)傳輸

在加速的應(yīng)用程序中，必須將數(shù)據(jù)從主機傳輸?shù)紽PGA，尤其是基于PCIe的應(yīng)用程序中。這就引入了延遲，對于應(yīng)用程序的整體性能而言，可能是非常昂貴的。數(shù)據(jù)需要在正確的時間被傳輸，如果kernel的運行需要等待數(shù)據(jù)，那么應(yīng)用程序的性能會收到負面影響。因此，重要的是在kernel需要數(shù)據(jù)時提前傳輸數(shù)據(jù)。這可以通過重復(fù)數(shù)據(jù)傳輸、kernel執(zhí)行來實現(xiàn)，這可以隱藏數(shù)據(jù)傳輸?shù)牡却龝r間開銷，并避免kernel等待數(shù)據(jù)的情況。

優(yōu)化數(shù)據(jù)傳輸?shù)牧硪环N方法是傳輸最佳大小的緩沖區(qū)。如下圖所示，有效的PCIe吞吐量根據(jù)傳輸?shù)木彌_區(qū)大小而有很大的差異。緩沖區(qū)越大，吞吐量越好，從而確保加速器始終具有可操作的數(shù)據(jù)而不會浪費時間。通常來說，最好進行1MB或更大的數(shù)據(jù)傳輸。預(yù)先運行DMA測試對于找到最佳緩沖區(qū)大小可能很有用。同樣，在確定最佳緩沖區(qū)大小時，請考慮大緩沖區(qū)對資源利用率和傳輸延遲的影響。

Xilinx建議在一個公共緩沖區(qū)內(nèi)對多組數(shù)據(jù)進行分組，以實現(xiàn)最大可能的吞吐量。

概念化應(yīng)用程序時間線

開發(fā)人員現(xiàn)在應(yīng)該對哪些函數(shù)需要加速，需要什么并行性才能達到性能目標(biāo)以及如何交付應(yīng)用程序有很好的了解。在這一點上，以應(yīng)用程序時間表的形式總結(jié)信息是非常有用的。應(yīng)用程序時間軸序列（例如“保持Kernels使用率”中所示的序列）是應(yīng)用程序在運行時表現(xiàn)性能和并行化非常有效的方法。它們可以展示應(yīng)用程序如何調(diào)動體系結(jié)構(gòu)中潛在的并行性。

Vitis軟件平臺會從實際應(yīng)用程序運行中生成時間軸視圖。如果開發(fā)人員設(shè)計了預(yù)期的時間表，則可以將其與實際結(jié)果進行比較，從而確定潛在的問題，然后迭代并收斂到最佳結(jié)果，如上圖所示。

微調(diào)架構(gòu)細節(jié)

在正式編寫應(yīng)用程序及其kernel之前，還有最后一步：從頂層決策中細化和提煉次級體系架構(gòu)的細節(jié)。

確定最終kernel邊界

之前已經(jīng)有過討論，通過創(chuàng)建多個kernel的示例可以提高性能。然而，增加CU（compute unit）會對IO端口，帶寬和資源有額外地消耗。

在Vitis軟件平臺流程中，kernel端口的最大寬度為512，并且FPGA在資源方面也具有固定的成本，并不是無限消耗。重要的是，目標(biāo)平臺也對可使用的最大端口設(shè)置了限制。所以我們要注意這些限制，以最佳方式充分使用這些端口及其帶寬。

使用多個CU進行擴展的另一種方法是通過在內(nèi)核中添加多個引擎（engine）進行擴展。與添加更多CU的方式來提高性能一樣，此方法就是用在內(nèi)核中的不同engine同時處理多個數(shù)據(jù)集。

將多個engine放置在同一kernel中可充分利用kernel I / O端口的帶寬。如果數(shù)據(jù)路徑engine不需要端口的全部寬度，則在kernel中添加其他engine比在其中創(chuàng)建具有單個engine的多個CU效率更高。

在kernel中放置多個engine還可以減少端口數(shù)量和事務(wù)數(shù)量到需要仲裁的全局內(nèi)存中，從而提高了有效帶寬。另一方面，采用這種方法需要在開發(fā)kernel時考慮I / O多路復(fù)用行為，盡可能地減少全局內(nèi)存的訪問。這是開發(fā)人員需要做出的權(quán)衡。

確定kernel的位置和連接性

確定kernel邊界后，開發(fā)人員要明確實例kernel的數(shù)量和連接到全局內(nèi)存資源的端口數(shù)量。在這一點上，了解目標(biāo)平臺的功能以及哪些全局內(nèi)存資源可用很重要。例如，AlveoU200數(shù)據(jù)中心加速卡具有分布在三個超級邏輯區(qū)域（SLR）中的4 x 16 GB DDR4存儲區(qū)和3 x 128 KB的PLRAM存儲區(qū)。有關(guān)更多信息，請參閱《 Vitis Software Platform Release Notes》。

如果kernel是工廠，則全局內(nèi)存是貨物往返工廠的倉庫。SLR就像獨特的工業(yè)區(qū)，可以在其中建立倉庫和工廠。雖然可以將貨物從一個區(qū)域的倉庫轉(zhuǎn)移到另一個區(qū)域的工廠，但這會增加延遲和復(fù)雜性。

使用多個DDR有助于平衡數(shù)據(jù)傳輸負載并提高性能。但是，這也會帶來成本，因為每個DDR控制器都會消耗FPGA資源。在決定如何將kernel端口連接到內(nèi)存庫時，請均衡這些考慮因素。

在完善了這些架構(gòu)細節(jié)之后，開發(fā)人員就應(yīng)該已經(jīng)掌握kernel以及整個應(yīng)用程序所需的所有信息了。

責(zé)任編輯：lq6

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19259

瀏覽量
229649
FPGA

FPGA

+關(guān)注

關(guān)注
1629

文章
21729

瀏覽量
602977
主機

主機

+關(guān)注

關(guān)注
0

文章
993

瀏覽量
35114

原文標(biāo)題：開發(fā)者分享 | 如何確定一個硬件加速應(yīng)用

文章出處：【微信號：gh_2d1c7e2d540e，微信公眾號：XILINX開發(fā)者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

從版本控制到全流程支持：揭秘Helix Core如何成為您的創(chuàng)意加速器

加速器

龍智DevSecOps

發(fā)布于 :2024年11月26日 13:42:47

TDA4VM上的硬件加速運動恢復(fù)結(jié)構(gòu)算法

電子發(fā)燒友網(wǎng)站提供《TDA4VM上的硬件加速運動恢復(fù)結(jié)構(gòu)算法.pdf》資料免費下載

發(fā)表于 09-24 11:39 ?0次下載

TDA4VM上的<b class='flag-5'>硬件加速</b>運動恢復(fù)結(jié)構(gòu)算法

AM62A SoC通過硬件加速視覺處理改進條形碼讀取器

電子發(fā)燒友網(wǎng)站提供《AM62A SoC通過硬件加速視覺處理改進條形碼讀取器.pdf》資料免費下載

發(fā)表于 09-04 09:52 ?0次下載

AM62A SoC通過<b class='flag-5'>硬件加速</b>視覺處理改進條形碼讀取器

適用于數(shù)據(jù)中心應(yīng)用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案

電子發(fā)燒友網(wǎng)站提供《適用于數(shù)據(jù)中心應(yīng)用中的硬件加速器的直流/直流轉(zhuǎn)換器解決方案.pdf》資料免費下載

發(fā)表于 08-26 09:38 ?0次下載

適用于數(shù)據(jù)中心應(yīng)用中的<b class='flag-5'>硬件加速器</b>的直流/直流轉(zhuǎn)換器解決方案

圖形圖像硬件加速器卡設(shè)計原理圖：270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

擴展。軟件支持windows，Linux操作系統(tǒng)。Net FPGA , XC7VX690T板卡 , 軟件無線電處理平臺 , 圖形圖像硬件加速器

發(fā)表于 08-06 10:16 ?476次閱讀

圖形圖像<b class='flag-5'>硬件加速器</b>卡設(shè)計原理圖：270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

西門子推出Catapult AI NN軟件，賦能神經(jīng)網(wǎng)絡(luò)加速器設(shè)計

西門子數(shù)字化工業(yè)軟件近日發(fā)布了Catapult AI NN軟件，這款軟件在神經(jīng)網(wǎng)絡(luò)加速器設(shè)計領(lǐng)域邁出了重要一步。Catapult AI NN軟件專注于在專用集成電路（ASIC）和芯片級系統(tǒng)（SoC）上實現(xiàn)神經(jīng)網(wǎng)絡(luò)的高層次綜合（HLS），為機器學(xué)習(xí)應(yīng)用提供了

發(fā)表于 06-19 11:27 ?849次閱讀

PSoC 6 MCUBoot和mbedTLS是否支持加密硬件加速？

v3.0，它的上限是 MCUBoot v1.8.1。當(dāng)前版本基于 MCUBoot v1.9.1，似乎支持加密硬件加速。有什么最簡單的方法可以更新我的舊版引導(dǎo)加載器，以便運行 MCUBoot v1.9.1？順便說一下，我的

發(fā)表于 05-29 08:17

新思科技硬件加速解決方案技術(shù)日在成都和西安站成功舉辦

近日，【新思科技技術(shù)日】硬件加速驗證解決方案專場成都站和西安站順利舉行，來自國內(nèi)領(lǐng)先的系統(tǒng)級公司、芯片設(shè)計公司以及高校的250多名開發(fā)者們積極參與。

發(fā)表于 04-19 17:35 ?446次閱讀

Elektrobit利用其首創(chuàng)的硬件加速軟件優(yōu)化汽車通信網(wǎng)絡(luò)的性能

Elektrobit今日宣布推出 EB zoneo GatewayCore——首款支持、配置和集成現(xiàn)代微控制器新一代硬件加速器的軟件產(chǎn)品，可應(yīng)用于先進的汽車電子/電氣架構(gòu)（基于被廣泛采用

發(fā)表于 04-17 09:51 ?356次閱讀

用DE1-SOC進行硬件加速的2D N-Body重力模擬器設(shè)計

該項目的目標(biāo)是創(chuàng)建一個用DE1-SOC進行硬件加速的2D N-Body重力模擬器。

發(fā)表于 04-09 11:08 ?547次閱讀

用DE1-SOC進行<b class='flag-5'>硬件加速</b>的2D N-Body重力模擬器設(shè)計

330-基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡圖形圖像硬件加速器

標(biāo)簽: Net FPGA , XC7K325T板卡 , XC7K325T處理板 , 軟件無線電處理平臺 , 圖形圖像硬件加速器

發(fā)表于 03-04 14:14 ?616次閱讀

330-基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡圖形圖像<b class='flag-5'>硬件加速器</b>

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】（原創(chuàng)）7.硬件加速Sora文生視頻源代碼

完成，準(zhǔn)備輸出視頻幀 // 調(diào)用硬件加速模塊進行文本到視頻幀的轉(zhuǎn)換 // 將文本緩沖區(qū)的內(nèi)容“傳遞”給硬件加速器 // TextToVideoHardwareAccelerator 是一個

發(fā)表于 02-22 09:49

音視頻解碼器硬件加速：實現(xiàn)更流暢的播放效果

隨著多媒體內(nèi)容的日益豐富和高清化，傳統(tǒng)的軟件解碼已經(jīng)難以滿足人們對流暢播放體驗的需求。因此，音視頻解碼器硬件加速技術(shù)的出現(xiàn)，為提升播放效果帶來了革命性的改變。 硬件加速的原理 硬件加速的核心

發(fā)表于 02-21 14:40 ?952次閱讀

回旋加速器原理回旋加速器的影響因素

回旋加速器的核心部分是一個半徑為R的磁場區(qū)域和一對位于磁場中心的D形電極。磁場區(qū)域由一個或多個

發(fā)表于 01-30 10:02 ?3919次閱讀

KubeCASH：基于軟硬件融合的容器管理平臺

、CSI、CDI等接口都奉行一個重要的原則：“不做事，就不會犯錯”。K8S可以理解成嵌于整個軟硬件堆棧的一個薄層，僅僅提供

發(fā)表于 01-08 10:16 ?1277次閱讀

RM新时代网站-首页

搜索歷史

如何去確定一個硬件加速器件？有哪些步驟？

評論