關鍵詞: MPEG-4 , SoC , 加速器 , 視頻解碼
隨著MPEG-4應用的普及, 符合MPEG-4標準的視頻在手持設備上的應用越來越廣泛, SoC技術可以在完成其它功能的同時, 在手持設備上低成本低功耗的實現(xiàn)MPEG-4視頻解碼。而基于SoC的解碼方案可以有多種, 例如采用CPU 內(nèi)核軟件解碼,也可引入DSP核, 或者設計專用的硬件加速電路。但是, 軟件解碼在系統(tǒng)繁忙時難以滿足實時性要求,引入DSP核會使SoC的芯片成本大為增加, 所以本文將MPEG-4的解碼電路作為SoC芯片中的一個硬件加速模塊來實現(xiàn)。
在手持設備應用中, MPEG-4 視頻簡單層(Simple Profile) 最為常用, 而其中計算量最大的部分是反離散余弦變換( Inverse Discrete CosineTransform ) , 所以反離散余弦變換的實現(xiàn)是加速MPEG-4 解碼的關鍵。有很多優(yōu)秀的設計專門以處理IDCT為目標.本文描述的MPEG-4解碼加速器基于AMBA 總線, 作為高速總線(AHB) 上的一個主設備, 對四個亮度塊(block) 和兩個色差塊組成的宏塊(macrob lock) 一起做IDCT 運算, 并根據(jù)配置完成IDCT前的反量化和IDCT后運動補償?shù)膱D像疊加, 最終將結(jié)果寫回顯存。整個過程高度并行處理。
本文第1部分主要介紹IDCT快速算法的選擇和優(yōu)化, 第2部分討論硬件結(jié)構(gòu)和設計技巧, 第3部分介紹仿真驗證和綜合結(jié)果。
1 二維DCT?IDCT 算法描述及快速算法的選擇和優(yōu)化
1.1 算法描述
對于輸入矩陣f (x , y ) {0≤i, j2次乘法, 一個塊有N2 個象素點, 總共需要N4 次乘法計算, 因此計算量相當大。
1.2 快速算法的選擇
二維IDCT 可以寫成:
上式括號內(nèi)是對F (u, v ) 的一行作一維IDCT 變換, 括號外是對行IDCT 的結(jié)果做一維列IDCT變換。如不考慮系數(shù)2/N , 二維的IDCT 就分解為對矩陣F (u, v ) 先做行IDCT 再做列IDCT 的2N 次一維IDCT 變換。(本文中取N = 8)。
對于一維IDCT 有許多優(yōu)秀的快速算法。其中一種是將IDCT 原始的變換矩陣分解成幾個利于計算的變換矩陣, 然后逐步計算。還有一種是利用了IDCT的奇偶對稱性以及余弦函數(shù)的和差化積性質(zhì)最大程度的共用乘法器。雖然后一種的乘法次數(shù)為12次, 少于前一種的16次,但由于前一種的乘法集中在輸入附近, 也就是說絕大部分乘法的其中一個乘數(shù)是輸入F(k ) , 因而可以通過提前判斷輸入F(k ) 中是否有較多的0 元素從而直接跳過一部分的乘加運算, 達到加速的目的。MPEG-4 解碼的IDCT 輸入中, 有大量的0, 所以前一種的算法更有利于MPEG-4 解碼。其算法流程如圖1。
圖1 chen 算法流程Ci= cos( iπ/16)
1.3 算法的優(yōu)化
1.3.1 長乘法的處理
在圖1的虛線中, 前一級乘加運算的結(jié)果要與C4相乘, 如果輸入數(shù)據(jù)F(k ) 和系數(shù)Ci都是16位數(shù)據(jù), 為了保證精度就要使用32 位乘16 位的乘法器,這必然成為整個電路中的關鍵路徑, 影響其性能。若用下面的式(4) 對虛線內(nèi)的條路徑做變換, 雖然增加了乘法數(shù)目, 但是不僅去除掉32 位乘16 位的乘法器, 而且有利于下文將要提及的OnlyDC 和Halfzero情況的加速。
變換后的虛線內(nèi)的算法流程如圖2 所示。
圖2 chen 算法變換Ci= cos( iπ/16)
1.31. OnlyDC 和Halfzero
本文將F(k )分為三種情況:
(1) F(k )只有F(0)為非零數(shù)據(jù), 我們稱這種情況為OnlyDC;
(2) F(k )中F(0) , F(1) , F(2) 和F(3) 為非零數(shù)據(jù), 其他四個數(shù)據(jù)都為零, 這種情況稱為Halfzero;
(3) 其它情況都歸入普通情況。我們用軟件直接解碼的方法對典型素材作了統(tǒng)計(見表1) , 發(fā)現(xiàn)OnlyDC 和Halfzero的情況占了很大比例, 加速這兩種情況的計算對加速整個視頻解碼的IDCT 運算有重要意義。
由一維IDCT 式(5) 可以看出, 對于OnlyDC 情況, f ( i) 就是F (0)/1.414 。
其中c (0) =1/1.414 ,c ( i) = 1, i= 1, 2....N - 1。如果我們把每次行和列的一維IDCT 結(jié)果放大2 倍得到f ′( i) , 對于 OnlyDC, F(0) 就是f ′( i) , 不需任何計算。這樣兩次一維IDCT 運算后得到的結(jié)果f ′(x , y ) 將為f (x , y ) 的2 倍, 故只要將f ′(x , y ) 右移一位就可以得到正確的f (x , y )。由圖1 和圖2 可以看出, 在所有的F (k ) 到f ( i) 的計算路徑上, 都出現(xiàn)了且僅出現(xiàn)一次F (k ) 乘Ci, 這樣我們對常數(shù)Ci 取值時直接取2cos( iπ/16), 就達到了將一維IDCT結(jié)果放大1.414倍的目的。
對于Halfzero 的情況, 可簡化圖1 和圖2 中的F(4)、F (5)、F (6)、F (7) 的相關路徑, 得到Halfzero 的算法流程(如圖3)。此時時乘法總數(shù)為10 次。
圖3 Halfzero 的算法流程 其中Ci = 2cos( iπ/16)
對于一般的情況, 根據(jù)圖1 和圖2 的流程計算,取C i = 2cos( iπ/16) 。乘法總數(shù)22 次。
2 硬件結(jié)構(gòu)和設計技巧
2.1 整體結(jié)構(gòu)的選擇
MPEG-4 加速器的的整體框圖如圖4 所示。其中slave 模塊負責模式配置, 接收數(shù)據(jù), 反量化并判斷OnlyDC 和Halfzero。寫向slave 的數(shù)據(jù)經(jīng)過反量化操作后進入Xmem。MPEG-4 加速器的Cont rol模塊控制整個解碼流程。Idct8x1從Xmem 中讀出原數(shù)據(jù)做一維IDCT 并寫回Xmem。
由于Xmem 的帶寬限制IDCT 8x1只使用兩個乘法器, 把乘法排列緊湊后, 普通情況一維IDCT 需要20個周期, Halfzero 需要14個周期。Master 負責取運動補償圖像數(shù)據(jù), 并在完成IDCT 變換和疊加后將結(jié)果放回顯存。每次數(shù)據(jù)寫回顯存后, Control 模塊會將Xmem 清零, 這樣下次解碼操作只需將非零數(shù)據(jù)寫入Xmem , 減少了數(shù)據(jù)的寫入時間。
雙端口片上存儲器Xmem 負責存放IDCT 的中間數(shù)據(jù)和計算結(jié)果, 其中數(shù)據(jù)通過A端口進行IDCT 變換, IDCT 結(jié)果通過B 端口進行疊加, IDCT 計算和運動補償疊加可以通過A、B 兩個端口并行處理。單端口Ymem 負責存放MA STER取回的運動補償數(shù)據(jù)。Xmem 和Ymem 是零等待的片上存儲器, 而且在外部總線上是可見的, 所以在MPEG-4 加速器不使用時, 它們還可以作為整個芯片高速的緩沖區(qū)使用。
圖4 M PEG-4 加速器的整體框圖
2.2 OnlyDC 情況的處理
在進行二維IDCT 的行變換時, 一般情況和Halfzero情況都會向Xmem 寫回8個計算結(jié)果; 如果是OnlyDC 則不對Xm em 做任何讀寫, 所以在做列IDCT時必須對idct8x1 發(fā)出的地址進行重新映射, 使其指向這一行的第一個數(shù)據(jù)。如圖5 所示,IDCT發(fā)出的地址指向當前要進行IDCT變換的列中的數(shù)據(jù), Control 模塊中的Address Remap 邏輯會根據(jù)On lyDC 狀態(tài)將地址轉(zhuǎn)換為指向第一列的有效數(shù)據(jù)。對于列IDCT 我們直接按照一般情況計算。
圖5 地址重映射
3 仿真驗證和性能分析
本文的設計流程是首先確定IDCT算法, 并用其C語言描述作為設計規(guī)范。然后根據(jù)設計規(guī)范用verilog RTL 描述硬件, 用verisity公司(已被Cadence公司收購)的E語言搭建驗證環(huán)境, 并將C語言的設計規(guī)范嵌入E驗證環(huán)境中, 通過E語言產(chǎn)生隨機激勵, 同時發(fā)給verilogRTL和C設計規(guī)范, 并將兩者的結(jié)果作比較。這樣既保證了硬件實現(xiàn)和C設計規(guī)范完全一致, 又通過C設范的重用縮短了驗證周期。
我們使用SYNOPSYS 的Design Compiler 對本設計進行了綜合, 綜合采用SMIC的0.8um的標準單元庫。結(jié)果顯示本設計的關鍵路徑在反量化處, 因為此處直接使用了一次乘加操作。表3給出了本設計的特性。本設計完成更多解碼功能, 主頻更高, 乘法器更少, 而且引入了可與系統(tǒng)復用的片上內(nèi)存。
我們分I幀和非I幀兩種情況分析本設計的處理時間。在處理I 幀時要進行反量化, 不需要運動補償疊加。由于反量化是在數(shù)據(jù)輸入的同時進行的, 所以處理時間由非零值的寫入時間Tinput , IDCT 計算間Tidct和寫回顯存的時間Toutput三部分組成。這三部分如圖6 (a) 所示的并行處理。在處理非I 幀時, IDCT的結(jié)果需要與運動補償?shù)慕Y(jié)果疊加, 所以處理時間時由非零值的寫入時間Tinput , IDCT 計算時間Tidct,取運動補償數(shù)據(jù)時間Tfetch , 疊加并寫回顯存的時間Toutput四部分組成。如圖6 (b) 所示的并行處理。
(a)I 幀處理時間 (b) 非I 幀處理時間
圖6 處理時間
其中取運動補償?shù)慕Y(jié)果和最后寫回現(xiàn)存都要占用總線接口, 所以要依次進行。從這兩幅圖可以看出, 并行處理使得這兩種情況總的處理時間是相同的。以行IDCT一般情況15% ,OnlyDC情況70% , Halfzero情況10% 計算, 一個block 的IDCT 所需的周期Tidct為:
T idct = (0 × 70%+ 14 × 10%+ 20 × 20% ) × 8 + 20 × 8 = 203.2 (個周期)
如不考慮回寫時由顯存造成的延時,M PEG24加速器處理的處理時間T 為:
T = Tinput + 6 × Tidct + Toutput = 6 × 64 × 15%+ 6 × 203 + 64 = 1340.8 (周期/宏塊)
4 結(jié)論
本文給出了一種應用于嵌入式系統(tǒng)芯片的MPEG-4 解碼加速模塊。本設計面向MPEG-4 簡單層, 將四個亮度塊和兩個色差塊一起并行處理, 使流水線更加緊湊; 由于內(nèi)部存儲器的帶寬有限, 我們只使用兩個乘法器完成IDCT , 并使用較小面積的代價將于IDCT密切相關的反量化和運動補償疊加一起實現(xiàn), 這樣進一步減少了數(shù)據(jù)在總線上的傳輸, 更有利于提高速度和減小功耗。本設計在以北京大學微處理器研究中心UN ITY-1為內(nèi)核的SoC-UN ITY805+ 中, 已經(jīng)得到應用。實驗表明可以實現(xiàn)MPEG-4簡單層CIF格式的視頻解碼。
評論
查看更多