Imagination 近日宣布了與MulticoreWare.Inc公司的合作,后者是多核和異構(gòu)計(jì)算環(huán)境軟件解決方案和開發(fā)工具的領(lǐng)先供應(yīng)商。MulticoreWare公司在展銳T710開發(fā)板上實(shí)現(xiàn)雙目視覺算法stereoBM的openCL版本的移植和優(yōu)化,移植后的算法在GPU平臺(tái)上性能提升明顯。展銳T710開發(fā)板內(nèi)部集成了Imagination GM9446顯示芯片,主頻為800MHz,采用12nm工藝制造,支持openCL4.0, openCL1.2和openGL3.0版本,最高性能能夠達(dá)到128 FP32 FLOPs/Clock 和256 FP16 FLOPs/Clock。CPU支持八核處理器,主頻2.0GHz, 內(nèi)部集成AI神經(jīng)網(wǎng)絡(luò)處理器NPU,綜合算力達(dá)4.2TOPS。為了進(jìn)一步提升開發(fā)板的算力,MulticoreWare團(tuán)隊(duì)在雙目視覺stereoBM的OpenCL實(shí)現(xiàn)中,使用了開發(fā)板的Imagination GM9446系列GPU作為運(yùn)算核心,相對(duì)于傳統(tǒng)CPU的雙目視覺算法stereo版本得到了極高的加速比。這組算法的設(shè)計(jì)充分使用了Imagination GM9446的特點(diǎn),采用大窗口尺寸和小分辨率圖像620x188,local memory存儲(chǔ)優(yōu)化等方式提高了程序的性能。
算法經(jīng)過調(diào)整不同的參數(shù),窗口winSize大小為21,n_disp為64的時(shí)候,性能達(dá)到最佳。通常kernel越復(fù)雜,寄存器占用的空間就越大,最大工作組的大小就越小,有時(shí)候發(fā)揮不出來并行流水線的最大數(shù)量,從而影響性能。
MulticoreWare公司團(tuán)隊(duì)在對(duì)kernel代碼優(yōu)化內(nèi)部的寄存器使用量,根據(jù)GM9446內(nèi)部結(jié)構(gòu),設(shè)置合理的global全局工作組大小256x圖片高度,local工作大小為256,從而最大程度發(fā)揮GPU并行流水線的并發(fā)量,一般情況下,第一個(gè)維度的工作組大小應(yīng)該是wave大小的倍數(shù)(例如32),這樣可以充分利用wave資源,MulticoreWare團(tuán)隊(duì)根據(jù)多年優(yōu)化經(jīng)驗(yàn),手動(dòng)調(diào)整工作組大小以滿足這個(gè)條件來保證性能有所提升。此外內(nèi)存讀取也是影響kernel運(yùn)行效率的一方面,在OpenCL中一般有全局global內(nèi)存,本地local內(nèi)存,常量Constant和Private四種形式組成,MulticoreWare公司團(tuán)隊(duì)在將stereo算法重新調(diào)整內(nèi)存布局,將主機(jī)內(nèi)存使用零拷貝技術(shù)與GPU內(nèi)存直接填充,另外將內(nèi)核kernel多次內(nèi)存訪問的數(shù)據(jù),從global內(nèi)存轉(zhuǎn)存到local內(nèi)存中,雖然增加了一次轉(zhuǎn)存數(shù)據(jù)的時(shí)間,但是對(duì)于對(duì)此存取數(shù)據(jù)整體時(shí)間是縮減的,從降低IO時(shí)間的角度整體提高了kernel內(nèi)核的運(yùn)行效率,性能也有所改善。運(yùn)行10次后進(jìn)行效率對(duì)比,GPU比CPU計(jì)算最高提速80倍左右,平均提速50倍左右。
CPU(展銳T710 2.0GHz) CPU(Unisoc T710, 2.0GHz) | GPU (Imagination GM9446) | 倍數(shù) Multiple | |
1 | 31.935 ms | 0.76 ms | 41.9 |
2 | 56.17 ms | 0.699 ms | 80.3 |
3 | 54.22 ms | 0.72 ms | 75.3 |
4 | 51.67 ms | 0.77 ms | 67 |
5 | 31.72 ms | 0.74 ms | 42.8 |
6 | 27.12 ms | 0.73 ms | 37.1 |
7 | 33.35 ms | 0.77 ms | 43.3 |
8 | 50.12 ms | 0.75 ms | 66.8 |
9 | 31.29 ms | 0.71 ms | 44 |
10 | 29.73 ms | 0.72 ms | 41.29 |
未來Imagination和MulticoreWare兩家公司將致力于共同促進(jìn)OpenCL在行業(yè)中的廣泛采用,鼓勵(lì)OpenCL廣泛應(yīng)用于異構(gòu)計(jì)算、APU、以及CPU和GPU獨(dú)立計(jì)算的領(lǐng)域中,實(shí)現(xiàn)計(jì)算資源利用率最大化、高效率處理數(shù)據(jù)傳輸。
-
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128890
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論