摘要:視頻在傳輸過程中會因為信道噪聲等原因?qū)е率д?,采取差錯控制方可以保證視頻傳輸?shù)馁|(zhì)量。傳統(tǒng)的差錯控制方法將視頻當成普通的比特流,而忽視了視頻的內(nèi)容特征。提出的基于內(nèi)容的差錯控制方法按照內(nèi)容特征劃分視頻結(jié)構(gòu)單元并分配相應的差錯控制方法。實驗結(jié)果表明,該差錯恢復方法不僅能有效利用信道帶寬,而且可保護顯著性區(qū)域,使重建的視頻更加符合用戶的視覺需求,實現(xiàn)用小的代價保護重要的視頻內(nèi)容。
關(guān)鍵詞:無線多媒體; 差錯恢復;差錯隱藏;視頻分割; 注意力焦點
中圖法分類號:TP302.8文獻標識碼:A
文章編號:1001-3695(2007)01-0267-02
1引言
差錯控制的目的是增強視頻碼流的抗干擾能力和自恢復能力。由于無線信道本身具有帶寬復雜多變,延遲抖動大,差錯率高等特性,差錯控制技術(shù)成為保證視頻傳送質(zhì)量的關(guān)鍵技術(shù)。
傳統(tǒng)的視頻差錯控制技術(shù)一般采用信號處理的方法,把視頻流看成一個比特序列,很少考慮視頻本身的內(nèi)容特征,忽略了視頻內(nèi)容,網(wǎng)絡資源和視頻質(zhì)量之間的相互關(guān)聯(lián)。視頻流不僅是簡單的比特組合,視頻的內(nèi)容包含豐富的語義信息。Paul Bocheck[2]提出內(nèi)容感知的視頻通信框架,將視頻內(nèi)容特征用于動態(tài)資源分配和效用函數(shù)估計。Pankaj Batra[1]把視頻內(nèi)容引入視頻分割打包方案,定義不同類型的重要度,在低比特率信道上提供更加精細的控制顆粒度。但是,這些方法都均未在視頻內(nèi)容和差錯恢復方案之間建立很好的關(guān)聯(lián)。本文的方法根據(jù)人眼視覺系統(tǒng)注意力的特點,將視頻內(nèi)容劃分為三層,按照特征本身的特點和所處的層次分配不同的差錯保護方案。在視頻流編碼時按照鏡頭的內(nèi)容特征歸納到相應的鏡頭類別,使用分配的差錯恢復方法,在內(nèi)容上保證了視覺信息的最大化。
2基于視頻內(nèi)容的差錯控制方案
2.1視頻內(nèi)容特征的三層結(jié)構(gòu)模型
人的視覺神經(jīng)處理光信號的能力是有限的,一般而言,人眼會特別注意視頻中出現(xiàn)的人臉或者包圍在大片同質(zhì)區(qū)域中的一小塊顯著區(qū)域。對于無線環(huán)境中的視頻應用,計算量不宜太過復雜,可以采取兩種措施減少顯著性分析的計算量:①仔細選擇可視特征,產(chǎn)生有效的特征值;②把注意力模型看成視頻編碼的預分析階段,產(chǎn)生一些有用的中間信息,以減少后期的視頻編碼工作的負擔。本文提出的基于內(nèi)容的差錯控制方法根據(jù)人的視覺特性,將引起注意的可視特征分成三個層次,即低層特征包括密度、顏色和方向、中層特征包括運動信息和高層特征指視頻鏡頭中出現(xiàn)的人臉。
從視覺心理學的角度來說,人臉不僅是高層語義特征,而且特別能夠引起注意。按照人臉特征將視頻序列可以分成若干個獨立的場景單元,每個場景中既有對象的運動,也有相機的運動,按照這些運動特征將場景劃分為若干個鏡頭。每個鏡頭按照顏色、密度和方向等視覺顯著性特征進一步分成若干個幀。因此,按照場景—鏡頭—單元這三層組織結(jié)構(gòu),可以相應地將內(nèi)容特征分成人臉——運動——顏色、密度等低層視覺特征,形成用于差錯控制的內(nèi)容模板,如圖1所示。
分別考慮基于人臉特征的場景變化、基于運動特征的鏡頭變化和基于低層顯著性特征的幀變化。不論哪種狀態(tài),均可以在圖中找到一個葉子節(jié)點代表一個視頻鏡頭類別,根據(jù)這個鏡頭類別的特性,可以找到一種最合適的差錯控制方法。
2.2基于內(nèi)容的差錯控制模型
根據(jù)內(nèi)容模板與差錯控制技術(shù)之間的聯(lián)系,可以描述基于內(nèi)容的差錯控制方法框架如圖2所示。
圖2基于內(nèi)容的差錯控制方法框架
圖中的視頻單元指場景、鏡頭和視頻幀的總稱,具體選擇哪種結(jié)構(gòu)形式根據(jù)內(nèi)容特征的實際情況而定。比如在整個場景中都有人臉出現(xiàn),并且運動速度穩(wěn)定,則視頻單元定義為場景;如果運動時快時慢則進一步劃分為快鏡頭和慢鏡頭。這個框架分為三個模塊,即基于內(nèi)容的視頻分割、分配差錯控制方法和應用差錯控制方法。由于視頻單元中出現(xiàn)的人臉區(qū)域與背景有顯著差異,所以采用幀內(nèi)編碼宏塊刷新的方法保證這些區(qū)域不受差錯傳播的影響。人眼視覺系統(tǒng)對不同運動速度的敏感性有差異,所以根據(jù)運動特征選擇差錯隱藏方法能夠明顯提高視覺質(zhì)量。為了保護鏡頭中具有顯著低層特征(如顏色、密度、方向等)的區(qū)域,修改標準數(shù)據(jù)分區(qū)方法,把這些顯著性區(qū)域的數(shù)據(jù)全部放在可靠的數(shù)據(jù)分區(qū),從而達到保護重要信息不被丟失的效果。值得注意的是,這種方法不僅僅是內(nèi)容與差錯控制方法的組合,而且綜合考慮了應用類型和信道資源等多種因素。這樣的視頻流通過模擬信道以后,一旦發(fā)現(xiàn)差錯,就會應用選定的差錯控制方法。由于每個視頻單元都具有最佳的重建質(zhì)量,所以整個視頻流也具有很好的恢復效果。在這個差錯控制模型中,內(nèi)容特征是視頻單元分類的依據(jù),也是選擇差錯控制方法的依據(jù)。由于視頻流最終的信宿是人眼,所以根據(jù)內(nèi)容特征選擇的差錯控制方法就能夠保證輸出視頻符合人眼的視覺需要。
3模擬環(huán)境與實驗結(jié)果
我們使用內(nèi)容特征,如人臉區(qū)域,運動快慢劃分視頻鏡頭,然后為這些鏡頭分配不同的差錯恢復方法。實驗證明這些改進的差錯恢復方法對于保護顯著性區(qū)域和改進視覺效果起到了很好的作用。選擇JVT公共測試環(huán)境軟件[6]提供的模擬環(huán)境。
實驗一:使用“Carphone”序列,按照第2節(jié)給出的算法檢測人臉區(qū)域。記錄包含人臉和顯著性區(qū)域的宏塊的位置,與H.264編碼標準中所采用的根據(jù)率失真選擇幀內(nèi)編碼宏塊的方法相比較,“Carphone”序列得到的結(jié)果如圖3所示。
圖3(a)表示有人臉區(qū)域保護的結(jié)果,圖3(b)表示沒有人臉區(qū)域保護的結(jié)果。可以看出,如果人臉在視頻幀中幀內(nèi)占據(jù)較大的區(qū)域,可以集中使用幀內(nèi)編碼宏塊的方法,雖然外圍區(qū)域(如手指)不如標準編碼算法解碼后的結(jié)果清晰,但是視覺顯著性區(qū)域的恢復效果要好得多。
實驗二:選擇慢速運動的“Akiyo”序列和高速運動的“Stefan”序列,比較根據(jù)不同的內(nèi)容選擇對應差錯隱藏算法的效果。對于“Akiyo”序列,兩種差錯隱藏方法效果的比較如圖4所示。
圖3“Carphone”序列中使用人臉區(qū)域保護解碼后的視頻幀
圖4“Akiyo”序列第20幀在兩種差錯隱藏算法后的效果
圖4(a)表示直接拷貝差錯隱藏法的效果,圖4(b)表示運動軌跡隱藏法的效果??梢钥闯?,對于慢速運動的視頻,采用直接拷貝法差錯隱藏的效果要比根據(jù)運動軌跡差錯隱藏方法效果好。這是因為對于慢速運動的視頻幀而言,前后幀宏塊之間的差別非常小,而運動矢量和熵編碼等標準編碼過程引起的誤差反而大過前后幀之間的差異。因此,在補償丟失的宏塊時,直接拷貝前一幀中對應的宏塊對人眼造成的視覺失真還要小一些。對于“Stefan”序列,兩種差錯隱藏方法效果的比較分別如圖5所示。
圖5(a)表示運動軌跡隱藏法的效果,圖5(b)表示直接拷貝差錯隱藏法的效果。可以看出,對于高速運動的視頻,采用運動軌跡隱藏算法比直接拷貝算法效果好。
實驗三:基于顯著性區(qū)域的數(shù)據(jù)分區(qū)方法與標準數(shù)據(jù)分區(qū)方法比較。根據(jù)文獻[7]提供的工具得到每個鏡頭幀的顯著性分布圖。在數(shù)據(jù)分區(qū)方法中把顯著性區(qū)域?qū)暮陦K數(shù)據(jù)均放在A部分,通過可靠子信道傳輸,而其他區(qū)域的數(shù)據(jù)仍然按三個數(shù)據(jù)分區(qū)發(fā)送。將這種方法與H.264中的數(shù)據(jù)分區(qū)方法比較結(jié)果如圖6所示。
圖5“Stefan”序列的第5幀在兩種差錯隱藏算法后的效果
圖6“Mobile”序列的第20幀解碼后得到的結(jié)果
其中,圖6(a)表示保護顯著性區(qū)域的數(shù)據(jù)分區(qū)方法解碼后的幀,圖6(b)表示H.264數(shù)據(jù)分區(qū)方法解碼后的幀。從圖6可以看出,傳輸差錯就只能影響非顯著性區(qū)域,從而使用戶獲得有效視覺信息。
4結(jié)論
本文提出了內(nèi)容感知的差錯控制方法,結(jié)合視頻內(nèi)容分析,按照人的視覺特點把內(nèi)容特征分成三個層次。根據(jù)用戶的視覺需要分配差錯恢復方法,從而最大程度地利用有限的網(wǎng)絡資源滿足用戶的視覺需求。
關(guān)于重建視頻質(zhì)量的評價問題中,一些評價方法如PSNR不能完全反映用戶的主觀視覺感受。文獻[4]提出了統(tǒng)一圖像質(zhì)量索引和用戶自適應的視頻質(zhì)量索引(Universal Image Quality Index,UIQI)和用戶自適應的視頻質(zhì)量索引(UserAdaptive Video Quality Index,UAVQI),下一步的研究準備引入這種面向用戶的質(zhì)量評價體系。
參考文獻:
[1]Pankaj Batra, ShihFu Chang.Contentbased Video Transmission Over Wireless Channels[C].The 3rd International Workshop on Mobile Multimedia Communications,1996.
[2]P Bocheck, SF Chang.Contentbased Video Traffic Modeling and Its Application to Dynamic Resource Allocation[J]. ACM/IEEE Tran ̄sactions on Networking, 1999.
[3]ChiaChiang Ho.A Study of Effective Techniques for UserCentric Video Streaming[D]. A Dissertation Submitted in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy.
[4]YF Ma, L Lu, HJ Zhang, et al. A User Attention Model for Video Summarization[C]. Proc. ACM Multimedia(ACMMM’02),2002.533542.
[5]Chrisophe Garcia, G Tziritas.Face Detection Using Quantized Skin Color Regions Merging and Wavelet Packet Analysis[J]. IEEE Trans. Multimedia, 1999,1(3):264277.
[6]G Roth,Rickard Sjberg, Thomas Stockhammer, et al.Common Test Conditions for RTP/IP over 3GPP/3GPP2[R]. ITUT SG16 Doc. VCEGM77,Austin,TX,2001.
[7]The iLab Neuromorphic Vision C++ Toolkit: Free Tools for the Next Generation of Vision Algorithms[EB/OL]. http://iLab.usc.edu/toolkit/.
[8]Laurent Itti, Christof Koch, Ernst Niebur.AModel of Saliencybased Visual Attention for Rapid Scene Analysis[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,1998,20(11):12541259.
作者簡介:
柳偉(1973),男,湖南長沙人,工程師,博士研究生,主要研究方向為多媒體信息處理技術(shù);王煒(1973),男,陜西寶雞人,副教授,博士,主要研究方向為媒體處理和虛擬現(xiàn)實技術(shù);李國輝(1963),男,湖南永州人,教授,博導,博士,主要研究方向為信息集成與訓練模擬。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文