??? 摘? 要: 分析了ARM7處理器的結構特點,針對解碼器的優化特點和芯片的硬件結構,采用了算法級、語言級、ARM級聯合優化的方法,對標準MPEG-4解碼過程進行了優化。通過本文所總結的ARM7TDMI上視頻解碼的優化方法,可以使MPEG4視頻解碼節約大量的數據處理時間,能較好地滿足低分辨率、低幀率場合實時解碼的要求。?
????關鍵詞: ARM7;MPEG-4;視頻解碼器
?
??? 目前,手持設備的視頻播放非常流行。一直以來,圖像壓縮大都采用H.263壓縮算法,然而,由于MPEG-4標準的成熟,很多視頻圖像都已經采用MPEG-4算法進行壓縮。本文旨在研究基于ARM7微處理器的MPEG-4視頻解碼器的優化。利用嵌入式系統實現MPEG-4視頻解碼,處理器的選擇是關鍵。在嵌入式系統中常用的RISC處理器是ARM核,因為它具有體積小、功耗低、成本低、性價比高的特點,這對于移動應用領域非常重要。ARM7系列微處理器為低功耗的32位處理器,最適合于對價位和功耗要求較高的消費類應用[1]。本解碼器可以運用于低分辨率和低幀率的應用場合,因此選擇在ARM7TDMI核上實現解碼功能。要實現更高幀率和分辨率的解碼,可將軟件直接應用在更高端的處理器上。?
1 MPEG-4視頻解碼算法?
??? MPEG-4標準可以劃分為一套子標準,標準的每一部分都有各自最適合的應用場合。MPEG-4 SVP(Simple Visual Profile[2])就是一種特殊的、簡單的MPEG-4實現。其專門針對手持式產品中視頻傳輸應用場合制定的。由于本解碼器可應用在手持移動設備視頻解碼的場合,因此選用MPEG-4 SVP作為解碼算法。?
??? 本文選用ARM7TDMI作為核心處理器進行MPEG-4視頻解碼器的開發。在實際開發過程中,針對ARM7TDMI的結構和MPEG-4的算法特點,做了大量優化工作,保證了解碼精度,大幅度提高了解碼速度。嚴格來說,ARM7處理能力有限,更適合用于控制類型的應用。由于其沒有針對視頻解碼數據處理而進行優化設計,因而不太適合于視頻解碼等數據處理類應用。但是由于該芯片具有明顯的成本優勢,所以經過優化,在充分利用其性能的前提下,還是可以作為手機等嵌入式系統的視頻解碼應用。?
??? 解碼過程實際上就是從視頻編碼碼流中恢復出VOP數據的過程。圖1描述了一個視頻解碼過程。解碼器主要包含運動解碼和紋理解碼。I幀中只含有紋理信息,因此只須解碼紋理信息即可恢復I幀。而P幀中不僅包含紋理信息,還包含運動信息,所以須解碼運動信息,獲得運動矢量并進行運動補償。另外,還須進行紋理解碼獲得殘差值,將這兩部分組合起來才能重建P幀[3]。?
?
?
??? 解碼器的實現主要是提供一個簡單的接口函數,供解碼時調用。該接口函數根據解碼的不同需要和不同階段提供了5個入口。5個接口函數中,有 4個供初始化、預處理及后續處理時調用,剩余1個是幀解碼的實現函數。圖2為幀解碼主程序流程圖。?
??? 解碼過程的計算主要集中在如下幾個模塊:IDCT、運動補償MC、逆量化、逆掃描、逆預測以及變長解碼VLD。表1給出了優化前解碼過程的特征信息。從表1中可以看出,上述運算模塊在解碼過程中占有很大比例。對以上各模塊進行優化的效果將直接反映在解碼器的實時效率上。?
?
?
2 解碼器優化?
2.1 效率更高的IDCT變換?
??? 通常,MPEG-4編碼過程中有8×8塊在DCT變換后AC系數大都接近于零,經過量化后直接變成了零。同時根據幀間預測的相關性:在運動不是非常劇烈的情況下,量化后大部分DCT相關性是零。表2顯示了在快速運動和慢速運動序列下所有全零塊的百分比。?
?
?
??? 對于快速運動序列,大約25%的DCT塊是全零;對于慢速運動序列,全零塊的百分比大約47%[4]。這樣,可以把DCT塊分為不同的三類:一類是全零塊(DC系數和AC系數都是零),一類是只含有DC系數(AC系數是零),一類是含有DC系數和AC系數,如圖3所示(這里用4×4的塊舉例,D代表DC系數,A表示AC系數)。對于不同的IDCT進行不同的處理:對于第一類情況,全零塊,跳過反變換;對于第二類情況,只進行反DC變換,通常除以8,即移3位即可;對于非零AC系數塊,按照快速的IDCT處理。這樣就可以針對不同的情況采用不同的處理辦法,提高了解碼效率。?
?
?
2.2 效率更高的運動補償?
2.2.1 運動補償的擴邊?
??? MPEG-4在進行運動補償時,使用運動向量在參考圖像中尋找預測塊。如果運動向量變化比較快,則運動向量很可能指向參考圖像以外。MPEG-4標準框架中,采用了很多分支判斷語句來處理運動向量指向參考圖像以外的情況。一方面IF語句的判斷會降低程序的效率,造成解碼過程速度的下降;另一方面如果運動向量沒有指向參考圖像以外,IF判斷就顯得多余。為了提高解碼效率,可以采用參考幀擴邊的方式來解決。將參考圖像的邊界擴大部分全部置零,這樣就可以減少很多判斷語句,提高解碼效率。在實際中,運動向量的有效范圍很大,但當運動向量使計算一個預測塊所需的像素完全處于參考圖像以外時,則不論運動向量的水平分量或者垂直分量延伸多遠,所得到的預測塊都是相同的。而運動補償既可以基于塊(8×8)的,也可以基于宏塊(16×16)的,因此將擴展的字節數取為16就可以了。同時將運動向量的兩個分量分別裁剪到不超過參考圖像左邊和上邊的邊界8 B以及下邊和右邊的邊界2 B。擴展后的參考圖像見圖4。?
?
?
2.2.2 雙線性插值的改進?
??? MEPG-4解碼算法中,運動補償是以宏塊為單位進行的。最初的做法基于參考圖像采用雙線性插值,見圖5。?
?
?
??? 對這一做法進行如下改進:對宏塊的運動補償是根據獲得運動矢量進行不同的判斷,而不是固定采用雙線性插值的算法。運動補償根據從解碼數據中獲得的水平運動矢量MV_X和垂直運動矢量MV_Y進行,即根據MV_X和MV_Y最低位為0或1的情況分為:只進行直接復制相應數據;只進行垂直方向插值;只進行水平方向插值;進行雙線性插值。具體做法如下:?
??? 當MV_X和MV_Y的最低位都為零時,運動矢量指向的16×16的塊本身與緩沖區中的像素重合,這時不需要進行任何插值處理,直接復制相應數據。當MV_X最低位為零而MV_Y的最低位不為零時,運動矢量指向的8×8的塊的點落在某列兩相鄰像素的中間,這時只需要進行垂直方向的插值。當MV_X最低位不為零而MV_Y的最低位為零時,運動矢量指向的8×8的塊的點落在某行兩相鄰像素的中間,這時只需要進行水平方向的插值。當MV_X與MV_Y的最低位均不為零時,運動矢量指向的8×8的塊的點落在相鄰四個像素的中心,這時必須同時進行兩個方向的插值。由于相鄰幀之間具有很大的時間相關性,所以本幀和上一幀大部分數據是相同的。假設上面4種運動補償情形各占1/4,當進行水平或垂直插值時,運動補償所占的運算量僅為原來的雙線性插值的1/2,比雙線性插值約節省一半的計算量,從而大大節省了運動補償的時間。?
2.2.3 像素的并行處理?
??? 解碼過程中處理的像素是8位,如果運動補償是在字節或像素的基礎上執行,則字節加載和存儲將被使用,它是存儲器訪問中代價最高的操作。因為ARM7是32位微處理器,存儲器可以按字讀取數據,因此設計出一種有效的運動補償方法,即在字數據的基礎上進行操作。利用這種方法,便可以用一種非常有效的方式同時對四像素進行運動補償。下面以水平方向的半像素補償為例,講述補償的過程。?
??? 首先讀入一個字到寄存器中,從低到高的數據依次對應像素0、像素1、像素2和像素3;然后將讀碼流指針增加1字節,再讀取下一個字到另一寄存器中,從低到高的數據依次對應的為像素1、像素2、像素3和像素4。示意圖如圖6所示。?
?
?
??? 對于垂直方向和水平垂直方向的半像素補償,其原理與水平方向相同。在具體函數實現過程中,由解碼數據獲得當前數據塊的運動矢量,根據獲得的運動矢量得到當前數據塊在參考幀的具體位置,從而得到運動補償所需要的參考數據塊。參考數據拷貝到片內。運動補償在片內實行,按照字讀取數據并根據情況采用不同的半像素插值,提高了程序的執行效率。?
2.3 VLD優化?
??? 由于MPEG-4變長編碼中的碼字長度是不定的,而解碼器的輸入是連續的比特流,碼字之間沒有間隔符,所以VLC(Variable Length Coding)碼表必須判斷碼字的長度。在通常情況下,VLD(Variable Length Decoding)解碼是通過不斷搜索和判斷得到碼字和碼長,故解碼的時間因碼長而異。對于實時處理來說,若該部分計算量過大,將影響整個系統的處理速度。原始查表方法涉及到多次讀取和判斷,計算量較大[5]。另外,信源符號內容不同,對應碼長也不同,造成查表判斷耗費的時間差別很大。可以采用基于分組的辦法,根據碼字編碼位的不同劃分為多個碼表,將碼字按照不同的區域進行劃分。這樣,不斷的搜索判斷可以簡化為三個步驟:(1)讀入定長碼字;(2)通過對讀入數據大小的判斷確定讀入的符號應屬于哪一個查找表;(3)利用得到的碼字在查找表中直接獲得其對應的信息。因每個分組包含的符號較少,所以可在取出分組信息后,從剩下的信息位中直接得到符號在表中對應的位置。?
??? 經分組后,解碼過程簡化為(按最大碼字長度讀入數據,以8位數據為例,設分成碼長小于3的小碼表和碼長大于3的大碼表):?
??? (1)對讀入數據進行大小判斷。因分組時考慮到數據大小判斷的簡便性,可用移位代替。?
??? (2)數據大小的比較。右移5位,判斷是否為0。如果為0,則符號落在碼長小碼表中;否則,符號落在大碼表中。?
??? (3)若符號落在小碼表中,以右移5位的讀入數據作為相對地址,直接在小碼表中找到對應非零系數個數和正/負個數及碼長。若符號落在大碼表中,則直接以讀入的數據為相對地址,在大碼表中找到相應的信息。?
??? 無法預見的反復讀取和判斷,經過基于分組的解碼優化簡化成上述三個可預見的步驟,減少了判斷次數,加快了處理時間。?
3 實驗結果與數據分析?
通過優化,MPEG-4的解碼性能有了較大的提升。在ADS1.2環境下分別對各模塊進行C算法優化和ARM代碼優化,結果如表3。按調用一次模塊函數所需周期數進行統計。?
?
?
??? 這些模塊是解碼過程中經常會調用的函數,因此,這些函數的優化將使解碼速度有明顯提高。?
??? 表4比較了不同序列的15幀QCIF格式視頻解碼優化前后所需的帶寬。這些圖像具有不同的復雜度,因而結果也不一樣。
?
?
??? 解碼速度基本取決于圖像畫面的運動情況和顏色是否豐富。從上面的數據可以看出對于不同的序列,其解碼速度也不同。news、salesman和miss_am之所以很快,是因為圖像背景靜止,只有肩部和頭部有運動,因而P幀的編碼數據量較少,解碼速度較高。另外,如果圖像很簡單(單調),其能量集中到DC系數(直流分量)上,交流系數會出現多個零,因此變長解碼速度就會較高,從而節約了解碼時間。?
??? 通過本文所總結的ARM7TDMI上視頻解碼的優化方法,可以使MPEG4視頻解碼節約大量的數據處理時間。由實驗結果可見,本視頻解碼器能較好地滿足低分辨率、低幀率場合實時解碼的要求。?
參考文獻?
[1] 杜春雷.ARM體系結構與編程[M].北京:清華大學出版社,2003.?
[2] ISO/lEI.MPEC-4 video verfication model version 18.0.MPEG N3908,2001.?
[3] 鐘玉琢,王琪,賀玉文.基于對象的多媒體數據壓縮編碼國際標準,MPEG-4及其校驗模型.北京:科學出版社,2000.?
[4] 田綱,胡瑞敏,王中元,等.Trimedia平臺MPEG4編碼器優化策略.計算機工程與應用,2006(36):78-81.?
[5] HE Yu Wen.A platform-based MPEG-4 advanced video?coding(AVC)decoder with block level pipelining.PCM2003:15-18,Singapore,2003,12.