馮自星,覃團發,岳曉峰,陳躍波
(廣西大學 計算機與電子信息學院,廣西 南寧530004)
隨著視頻處理技術的日益成熟,越來越多的視頻匹配技術,充分應用于在醫學、電視廣播系統等領域,極大改善了數據庫中多媒體視頻的大量重復現象,為網絡數據庫的綠色化提供了技術支持[1]。由于視頻數據量相當大,因此對匹配過程中的具體指標有相當嚴格的要求。
近年來,針對視頻識別的算法層出不窮,但大致都是單純基于運動特征或是單純基于內容的識別方法。對于視頻中存在的若干部分的非紋理幀的現象,參考文獻[2]提出一個有效的視頻幀登記策略,并設計修改了兩幀強度的匹配算法。該算法具有良好的性能,可處理包含若干部分非紋理幀的視頻。但是使用估計值造成運算結果中存在大量誤差。對于視頻處理的實時性,參考文獻[3]提出一種方法,能快速匹配長視頻流,或者在長視頻流中快速找到一個相對較短的視頻序列。該方法解決了視頻匹配的實時性問題,但對于視頻的配準率仍有所欠缺。參考文獻[4]則把每幅圖像預先劃分成紋理和非紋理區域,這種方法針對不同紋理區域采取相應的措施,增加了整個過程的效率,提高整體性能,不足之處在于只能匹配內容相近的視頻,無法確定是否為同一視頻。
本文提出一種基于主顏色和紋理特征的TS(Telescopic Shot)模型匹配方法,該方法忠實于視頻的內容,利用視頻關鍵幀的主顏色和紋理特征來進行部分視頻幀的圖像匹配。采用TS改進模型描述各個鏡頭與視頻處理算法的對應關系,提高了視頻圖像匹配的效率,同時也對相近視頻和同一視頻進行了分類處理。
顏色特征是圖像匹配的基本依據,提取顏色特征的方法主要有主顏色的直方圖、顏色矩、顏色集等。比較常用的是顏色的直方圖方法,該方法主要針對全局顏色的數量特征進行統計,得到顏色的直方圖,并反映出顏色的統計分布和基本色調。顏色直方圖包含某種顏色的頻率,拋棄了該色素所在的空間位置,因此計算量更少。
紋理特征是一個圖像匹配很好的方法,它不依賴于圖像的顏色和亮度。常見的紋理特征提取方法是灰度共生矩陣紋理特征提取以及基于小波變換的特征提取,灰度共生矩陣主要是把圖像的灰度值通過計算轉化成紋理特征。小波變化則是對時間以及頻率進行局域性的變換,具有分析多分辨率的特點。
TS模型適合鏡頭切換速度比較快、數量比較多的視頻。算法采用依次的鏡頭匹配實現其可伸縮性的特點。對于已經完成的N個鏡頭匹配,判定是否有決定性匹配,若沒有則對下一鏡頭進行匹配,直至完全匹配為止。其算法的計算量很小,目的就是判定目標視頻與源視頻是否為同一視頻。
對于網絡數據庫中的海量視頻,算法復雜度是算法處理的難點。對于一些毫不相關的視頻內容,可以采用一個簡單的算法進行識別和過濾,避免浪費數據處理的時間。為此,針對TS模型算法,本文提出了改進算法,圖1所示為對視頻的關鍵幀進行粗、細匹配相結合的比對。

對視頻所作的第一步處理是進行視頻鏡頭分割,每一個鏡頭提取關鍵幀,對該關鍵幀和目標視頻的首鏡頭關鍵幀進行圖像匹配,然后依次對后繼鏡頭進行關鍵幀匹配,如圖2所示。

鏡頭檢測算法在鏡頭分割技術中的地位很重要,對于傳統的鏡頭算法,最難以描述的就是視頻鏡頭切換較快而且無規律,如NBA中的比賽錄像,前后鏡頭內容變化量很大。對于這種視頻,采用參考文獻[5]提出的鏡頭邊界檢測算法進行分割。
通過對視頻中各幀圖像的灰度強度的熵信息進行運算分析,找到信息變化量巨大的幀,選取為鏡頭的邊界幀。設X是一個離散的隨機變量,Ax表示一系列事件{y1,y2,…,yn},Px表示相關概率。

圖3所示為通過鏡頭檢測處理得到的各幀的熵變化。實驗證明,采用此方法得到切割鏡頭的查準率達到97.8%,查全率達到99.3%。

關鍵幀的選取有多種算法,通常將鏡頭首幀作為關鍵幀及將變化量大的幀作為鏡頭的關鍵幀等。本實驗采用二者相結合的方法來確定關鍵幀,既在處理過程中減少了視頻內容的冗余量,也為后面的粗匹配做良好的準備。
提取顏色特征首先將RGB空間轉化為HIS空間(Hue、Saturation、Intensity),其中 H 代表色調,S 代表色飽和度,I代表亮度。將3個顏色分量表示成一維矢量,再計算其直方圖作為顏色特征,然后返回顏色直方圖特征向量。

紋理特征提取方法是基于灰度共生矩陣紋理特征提取,所用圖像灰度級均為256。將各顏色分量轉化為灰度,為了減少計算量,對原始圖像灰度級壓縮,將Gray量化成16級,計算4個共生矩陣 P,取距離為1,角度分別為 0°、45°、90°、135°。對于每個固定的值,Markov 隨機場都可以簡化為一階的馬爾可夫過程,即馬爾可夫鏈。
如果{Xt|t=1,2,…}是馬爾可夫鏈,則隨機變量Xt滿足馬爾可夫性質:


最后對共生矩陣歸一化,對共生矩陣計算能量、熵、慣性矩及相關4個紋理參數,求出能量、熵、慣性矩及相關的均值和標準差作為最終的八維紋理特征[6]。
(1)提取壓縮視頻的關鍵幀(此時關鍵幀選取為鏡頭第一幀),對數據源目標視頻首幀進行圖像匹配,對關鍵幀的相似度進行比對。
(2)若相似度>80%,則認為該視頻和源視頻處于同一視頻情景內,繼續進行操作,轉接到細匹配。
(3)若相似度<80%,則繼續對后繼鏡頭頭幀進行匹配,轉到步驟(2)。
(4)匹配結束,返回失敗提示。
運用TS模型進行視頻的細匹配。將首鏡頭的關鍵幀所提取的內容信息(即主顏色以及紋理特征)進行匹配,若相似度>80%,則認為該鏡頭匹配,繼續將第二個鏡頭所得到的關鍵幀進行圖像匹配,以此類推,直至達到鏡頭數量的閾值為止,此閾值為自適應閾值。根據經驗值,在鏡頭總數>200時,一般在總鏡頭數量的二分之一為宜,然后通過比對剩余鏡頭數量即可得到細匹配的效果。若鏡頭數很小,則自動執行至終鏡頭。在得到源視頻和目標視頻匹配的同時,可以將匹配的幀數放寬到源視頻幀數的90%,最后得到的視頻即為源視頻的相近視頻,并對匹配視頻和相近視頻做統一分類。通過這樣的順序匹配,配合TS模型的自動伸縮性閾值,既可以減少視頻的運算量,又可以保證基于內容匹配的精確度。
本實驗選用360個完全不同類型的長短視頻進行多次匹配,包括大量的、變化巨大的廣告視頻以及NBA比賽視頻等,鏡頭數量在160~2 500不等。
通過實驗證明,基于主顏色和紋理特征的圖像匹配應用到視頻匹配中,提高了視頻匹配的查準率和查全率。相對于基于運動特征的視頻匹配,提高了約20%,如圖4所示。其中曲線y1表示結合主顏色和紋理特征的TS模型匹配算法,曲線y2表示單純主顏色的視頻匹配,曲線y3表示單純紋理特征的算法,曲線y4表示傳統的基于運動特征的視頻匹配。從實驗結果可以看出,本文算法得到的查全率明顯優于傳統的基于運動特征的算法,比基于單一特征的算法更為精確。另外,由于應用TS模型算法大大降低了計算量,從計算復雜度方面衡量,本文算法比其他三種算法降低約45%。

本文提出一種基于主顏色和紋理特征的視頻匹配方法,不但將基于內容的圖像匹配應用到視頻中來,提高了視頻內容的查全率和查準率,而且應用TS模型改進算法,更有效地降低了視頻處理的計算量。本文算法較傳統的基于運動特征的視頻匹配算法精確率明顯提高;較基于內容的視頻匹配算法,精確度更高,計算量也降低高達45%,通過大量的實驗驗證,具有一定的通用性。
[1]陳秀新,賈克斌,鄧智玭.融合時序特征和關鍵幀的視頻檢索方法[J].電視技術,2011, 35(03):21-24.
[2]JIANCHAO Y.Alignment of non-texture video frames using kalman filter[C].IET Computer Vision,Jan,2011:77-85.
[3]PRIBULA O,POHANKA J,et al.Real-time video sequences matching using the spatiotemporal fingerprint[C].IEEE Mediter-ranean Electrotechnical Conference,2010.
[4]ABDOLLAHIAN G,BIRINCI M,et al.A region-dependent image matching method for image and video annotation[C].IEEE International Workshop on Content-Based Multimedia Indexing,2011.
[5]BABER J,AFZULPURKAR N,et al.Shot boundary detection from videos using entropy and local descriptor[C].IEEE International Conference on Digital Signal Processing,2011.
[6]薄華,馬縛龍.圖像紋理的灰度共生矩陣計算問題的分析[J].電子學報, 2006,34(1):155-158.