曾 鵬,許 平
(江漢大學 數(shù)學與計算機科學學院,湖北 武漢 430056)
隨著3G通信技術(shù)的發(fā)展,視頻業(yè)務(wù)在網(wǎng)絡(luò)通信中占據(jù)越來越重要的地位。由于目前無線移動網(wǎng)絡(luò)不能提供可靠的數(shù)據(jù)傳輸,因此視頻流在無線網(wǎng)絡(luò)中傳輸時經(jīng)常會發(fā)生誤碼等傳輸錯誤,從而導致數(shù)據(jù)包的丟失。由于壓縮過的視頻流對傳輸錯誤非常敏感,如果不對出錯碼流進行保護,將導致解碼圖像質(zhì)量的嚴重下降。因此,設(shè)計高效的容錯視頻編碼方法成為目前視頻傳輸研究的重點內(nèi)容之一。
在各類容錯編碼方法中,冗余片編碼是一項重要的技術(shù),對于有線Internet網(wǎng)絡(luò)和無線移動網(wǎng)絡(luò)都具有較好的抗誤碼能力。該技術(shù)通過在碼流中添加一定的冗余信息,可以達到增強視頻流容錯能力的目的。但該技術(shù)在提升視頻容錯能力的同時,降低了視頻編碼效率,因此在采用冗余片技術(shù)實現(xiàn)視頻流穩(wěn)健傳輸?shù)耐瑫r,必須設(shè)計一個合理的冗余片選擇策略,從而能在編碼效率和容錯能力之間取得較好的平衡。
為此,本文提出基于顯著度模型的冗余片編碼方法。通過改進顯著度建模時的運動特征提取方法,提升運動顯著度子圖的精確性。然后將改進的顯著度模型用于H.264視頻冗余片編碼中,對圖像中人眼關(guān)注區(qū)域進行冗余片編碼,從而有效地提高了視頻流的傳輸容錯能力。
1980年,美國普林斯頓大學心理學教授Anne Treisman[1]通過對人眼視覺系統(tǒng)進行實驗得出顏色、方向和亮度是人類視覺系統(tǒng)最關(guān)注特征的結(jié)論,并在此基礎(chǔ)上提出了特征融合理論,它是人類視覺系統(tǒng)一個重要的理論基礎(chǔ)。
近年來,關(guān)于顯著度模型的研究得到廣泛關(guān)注。1998年,Itti等[2]對視覺注意中的選擇和轉(zhuǎn)移工作機制進行了開創(chuàng)性的研究,提出了可計算視覺注意模型的框架,采用特征融合的方式計算顯著度圖,并將其用于圖像的顯著度提取。2003年,Itti等[3]通過考慮前后兩幀視頻信號的運動特征和閃爍特征,提出視頻信號的顯著度模型。2004年,Hu等[4]在Itti模型的基礎(chǔ)上,采用動態(tài)融合的策略決定每個特征子圖的權(quán)重,再將其融合成一幅關(guān)注度圖。Simone Frintrop等[5]則通過統(tǒng)計每個特征子圖的顯著點數(shù),調(diào)整特征子圖的權(quán)重來進行建模。2005年,Cheng Wen-huang等[6]針對Itti模型對緩慢運動處理不佳的缺點,將視頻序列分段,利用中值濾波得到時間分段的顯著度圖,但這種方法對于運動劇烈的序列效果不好。2006年,Zhai Yun等[7]根據(jù)圖像的活動強度動態(tài)地改變時域顯著度子圖和空域顯著度子圖的權(quán)值,提升關(guān)注度模型的準確性。2007年,You Jun-yong等[8]通過綜合考慮運動關(guān)注度、對比關(guān)注度、人臉識別、聲音識別及攝像機運動等多種高層語義要素,從而構(gòu)成視頻序列的顯著度模型。2009年,Liu Chang等[9]利用基于信息熵的時空域顯著度融合來彌補時域顯著度模型對于緩慢運動處理不佳的缺陷,但該方法對于時域顯著度本身沒有改進。
通過以上分析可知:現(xiàn)有顯著度模型通常利用前后兩幀圖像的信息提取運動參數(shù),再輔以其他手段對運動特征子圖進行建模。這種方法不能同時兼顧快速運動場景和慢速運動場景,從而導致能夠捕獲的物體速度范圍有限,容易造成漏判。為此,筆者提出基于多幀參考的運動特征提取方案對該問題進行改進。
此外,現(xiàn)有方法采用幀差法對運動特征進行檢測,這種方法容易將活動物體內(nèi)部標識成低顯著度區(qū)域,從而造成誤判。為此,筆者將時域運動矢量預(yù)測技術(shù)引入時域顯著度區(qū)域的提取中,對該問題進行改進。
顯著度提取模塊通常分為以下3部分:視頻特征提取、顯著度子圖處理和特征合并。
1.1.1 圖像特征值提取 對于原始視頻流中的第i幀,首先分別提取強度、顏色、閃爍、方向、運動5類特征量。其中,強度特征值、顏色特征值、方向特征值、閃爍特征值的計算基于文獻[3]所述規(guī)定。
本文在運動特征提取上,對原有顯著度模型做了擴展。在Itti提出的模型中,運動特征由第i幀和第i-1幀中的方向特征值co進行一個像素大小的偏移S(θ)計算得到

Itti模型利用高斯金字塔分解可以捕獲不同速率的運動,

其中v是物體的運動捕獲速度,Level是高斯金字塔分解層數(shù),dx、dy是提取運動特征時水平和垂直方向上的偏移量。當v<時,即當前景物體運動緩慢時,此模型很容易將緩慢運動誤判為背景噪聲,使得時域運動特征提取出現(xiàn)偏差。造成偏差的原因是Itti模型僅用了前后兩幀圖像進行運動參數(shù)的提取,使得運動參數(shù)提取時能夠捕獲的物體速度范圍有限。本方法對整個時間序列進行運動參數(shù)的提取,從而能夠適應(yīng)更多的運動情況。
在視頻序列上,假定物體在短時間內(nèi)視為連續(xù)運動,利用高斯金字塔分解可以捕獲不同速率的運動,

其中cur是當前幀的幀號,prei是參考幀幀號,這意味著運動特征提取時,其可以有多個參考幀。因此,運動特征參數(shù)的提取方法為

1.1.2 時域顯著度圖的處理 在得到時域顯著圖的時候,由于利用差分法做的運動提取,往往會將物體的邊緣提取出來,而物體內(nèi)部的關(guān)注度值并不高,這與事實不符。而空域顯著度對前景物體起到了較好的分割效果,本方法擬用空域顯著度圖對時域關(guān)注度進行處理,使得物體內(nèi)部的顯著度ROC值得以提升。具體計算步驟如下:
步驟1 得到當前幀的時域顯著度圖和空域顯著度圖,根據(jù)一定的閾值,將時域顯著度高的點標明出來。設(shè)高時域顯著度值的點集為。同理,根據(jù)一定的閾值,將空域顯著度高的點標明出來。設(shè)高空域顯著度值的點集為。
步驟3 針對每一個qi,設(shè)其鄰域為L,在其鄰域進行搜索,并設(shè)置其顯著性。

1.1.3 特征合并 將得到對應(yīng)的5類特征值(強度 I、顏色C、閃爍 F、方向O、運動 M)進行特征合并,并主要通過視頻特征提取、顯著度子圖生成、顯著度子圖處理及融合成最終的顯著度圖,從而得到對應(yīng)像素點的顯著度值SM:

其中 λ1、λ2、λ3、λ4、λ5為對應(yīng)的加權(quán)系數(shù)。
傳統(tǒng)的顯著度模型采用幀差法對運動特征進行檢測,容易將活動物體內(nèi)部標識成低顯著度區(qū)域,從而造成誤判。此外,傳統(tǒng)方法采用逐幀計算的方式,計算復雜度較高,對硬件設(shè)備提出了較高要求。由于視頻序列有較強的時域相關(guān)性,可以知道每幀的顯著度圖也有較強的時域相關(guān)性。根據(jù)這一假設(shè),可以利用已知的顯著度圖,預(yù)測出相鄰幀的顯著度圖。
進一步做出假設(shè):在短時間內(nèi),前景物體的顯著度強度不發(fā)生改變,那么顯著度圖的改變僅和前景物體的位置改變相關(guān)?;谠摷僭O(shè),將時域運動矢量預(yù)測技術(shù)引入時域顯著度區(qū)域的提取中。如圖1所示,預(yù)測方法與視頻序列的時域預(yù)測類似。
通過這種方法可以快速定位前景物體的位置改變信息,不僅可以降低將活動物體內(nèi)部標識成低顯著度區(qū)域的誤判現(xiàn)象,也可以降低生成時域顯著度圖的計算復雜度。

圖1 基于時域運動矢量預(yù)測的顯著度計算及關(guān)注度提取方法示意圖
在確定了圖像中的感興趣區(qū)域后,可以在編碼前利用H.264標準的FMO技術(shù)把一幀圖像中的感興趣宏塊和其他非感興趣宏塊分別劃分到兩個不同的片組中:感興趣片組和非感興趣片組。相應(yīng)的,對感興趣片組進行對應(yīng)的冗余片編碼策略。動態(tài)劃分兩個片組的策略不但可以避免產(chǎn)生大量過短冗余片,而且可以有效抑制發(fā)生在非感興趣區(qū)的解碼錯誤擴散到感興趣區(qū)中。
為了降低冗余片引入的碼率開銷,只有屬于感興趣片組中的片才會被冗余編碼。同時,對于冗余片筆者使用較大的QP值編碼。相對于主片而言,冗余片的重構(gòu)質(zhì)量相對粗糙但碼率較低。在實驗過程中,把冗余片的QP值設(shè)定為比主片的QP值大6,這大約相當于把冗余片的量化步長提高了1倍。
為了評估本方法的有效性,基于H.264的參考代碼JM12.2為實驗平臺,根據(jù)ITU-T技術(shù)文檔VCEG-N79r1[10]來搭建網(wǎng)絡(luò)丟包通用測試條件以及相應(yīng)的仿真程序,實驗中網(wǎng)絡(luò)丟包率設(shè)定為3%,使用標準QCIF視頻序列:Foreman、Carphone、Akiyo、Hall。
由于圖像全局的峰值信噪比PSNR不能很好地反映人眼對圖像局部區(qū)域內(nèi)容更關(guān)注的特點,因此本文進一步采用了感興趣區(qū)域峰值信噪比ROI-PSNR來評價重建視頻圖像的質(zhì)量。
從表1可以看出,本文算法對上述序列都取得了優(yōu)于傳統(tǒng)算法的PSNR和ROI-PSNR值,特別是對圖像的前景部分算法效果比較明顯。這是因為通過冗余片機制對圖像的前景部分施加了更高的保護力度,使其容錯能力得到了增強。

表1 解碼圖像PSNR比較
恰當?shù)厥褂萌哂嗥幋a技術(shù)可以增強視頻流的容錯能力,但該技術(shù)會明顯影響編碼器的壓縮效率。為了在編碼效率和容錯能力之間取得較好的平衡,通過視覺顯著度模型對圖像進行分析,提出一種基于視覺顯著度的冗余片編碼方法。實驗結(jié)果表明,該方法在丟包網(wǎng)絡(luò)環(huán)境下能有效提高視頻流的容錯能力,特別對于圖像中人眼感興趣的區(qū)域能取得較好的主客觀質(zhì)量。
[1]Treisman A M,Gelade G.A feature-integration theory of attention[J].Cognitive Psychology,1980,12(1):97-136.
[2]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions Pattern Analysis Machine Intelligence,1998,20(11):1254-1259.
[3]Itti L,Dhavale N,Pighin F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Proceedings of SPIE 48th Annual International Symposium on Optical Science and Technology,Bellingham,2003:64-78.
[4]Hu Y Q,Xie X,Ma W Y,et al.Salient region detection using weighted feature maps based on the human visual attention model[C]//Proceedings of 5th IEEE Pacific-Rim Conference on Multimedia,Shanghai,China,2004:993-1000.
[5]Frintrop S,Nüchter A,Surmann H,et al.Saliency-based object recognition in 3D data[C]//IEEE/RSJ International Conference on Intelligent Robots and System,2004:3167-3172.
[6]Cheng W H,Chu W T,Wu J L.A visual attention based region of interest determination framework for video sequences[J].IEICE Transactions on Information and Systems,2005,88(7):1578-1586.
[7]Zhai Y,Shah M.Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th Annual ACM International Conference on Multimedia,New York,2006:815-824.
[8]You J Y,Liu G Z,Sun L,et al.A multiple visual models based perceptive analysis framework for multilevel video summarization[J].IEEE Transactions on Circuits and Systems for Video Technology,2007,17(3):273-285.
[9]Liu C,Yuen P C,Qiu G P.Object motion detection using information theoretic spatio-temporal saliency[J].Pattern Recognition,2009,42(11):2897-2906.
[10]Wenger S.Common conditions for wire-line low-delay IP/UDP/RTP packet loss resilience testing[S].ITUVCEG document:VCEG-N79r1,2001.