何水靜,羅靈芝
(南京信息工程大學,江蘇 南京 210044)
目前,大多數視頻檢索工作耗費大量時間,同時操作復雜,會使提取效果受到人工主觀影響,導致文字無法被全面提取,因此為了避免這種問題的發生,需要對視頻檢索中關鍵幀進行提取[1,2]。
張航[3]等人提出面向礦山監管的無人視頻關鍵幀影響動態提取方法,該方法優先對視頻采集帶來的影響進行預處理,并對影像中的關鍵信息進行提取,計算提取信息及相機參數,利用計算結果獲取動態間隔,并對其進行處理,從中提取關鍵幀,該方法的預處理效果不理想,存在提取誤檢次數多的問題。王群[4]等人提出視頻監視前景圖像估計的盲源提取方法,該方法首先構建出特征模型,再對前景圖像進行提取,將模型引入到提取方法中,以此提升提取效果,該方法構建的模型不完善,存在提取效率低的問題。邱一城[5]等人提出時空特征分析結合隨機密鑰的壓縮域數字視頻水印嵌入和提取方法,該方法首先將密鑰進行組成,并利用時空特征分析方法對視頻圖像特征進行分析,以此完成壓縮視頻的時空特征提取,該方法的分析效果存有誤差,存在視頻檢測查全率差的問題。
為了解決上述方法中存在的問題,提出基于虛擬現實的視頻檢索中關鍵幀提取方法。
在計算機領域中,虛擬現實技術應用廣泛,虛擬現實可以通過3D傳感技術及可視化技術生成虛擬環境,再通過指定設備就可以在虛擬環境中進行操作、感受及體驗。隨著虛擬現實技術的迅速發展,目前為止,虛擬現實技術已經可以在各個領域中使用,適用范圍極廣。
虛擬現實[6]與3D模擬技術不同,它主要分為四部分。
1)首先利用虛擬現實技術對虛擬場景進行建立,從而完成可交互的虛擬環境。在場景中用戶可以對任何事物進行觀察及研究。同時在場景中也包含一個數據庫,它主要通過軟件實現。
2)安裝一個存有虛擬現實軟件的計算機,它可以把虛擬場景的內容顯示到計算機內。
3)為了使人機接口和用戶之間的交互更加便利,設置了I/O接口設備,即輸入/輸出設備。
4)用戶,主要用來操縱虛擬世界。
通過上述分析,給出虛擬現實技術的基本框架如圖1所示。

圖1 虛擬現實框架
通過圖1可知,接入I/O接口設備后,用戶具備兩種權限,分別是對任務的接收及計算機訪問。由于接入設備后用戶可以對計算機進行訪問,同理,用戶也可以直接進入到虛擬場景中,對虛擬事物進行訪問,切身感受場景中的變化,具有較強的真實性。
在虛擬現實的基礎上,將視頻圖像投入到虛擬場景中,通過視頻鏡頭分割對關鍵幀進行提取。視頻鏡頭分割[7]是視頻檢索的關鍵部分,屬于視頻流的基礎。對視頻鏡頭進行分割時,需要對圖像內的鏡頭邊緣進行檢測,根據檢測結果進行分割,以此提升視頻檢索效率。
分割視頻鏡頭時,通常會出現漏檢或誤檢兩種情況。誤檢及漏檢的好壞決定了視頻鏡頭邊界性能的好壞,這時漏檢率recall及誤檢率precision用方程表達式定義如下

(1)
式中,Nc描述的是可以精準檢測出的鏡頭數量,Nm描述的是鏡頭漏檢的數量,Ni描述的是鏡頭誤檢數量。
1)視頻圖像互信息量
進行視頻圖像分割前,首先要獲取視頻圖像的互信息量[8]。在視頻鏡頭中,互信息量可以對圖像之間的相關性進行表示,以此表明圖像傳遞的信息。對鏡頭進行分割時,相鄰圖像的互信息量越高,就說明兩者的相關性越強,在同一鏡頭下的概率越大。因此,為了能夠對鏡頭進行精準分割,需要對閾值進行合理設置,通過互信息量及閾值大小,就能夠實現對鏡頭邊界的檢測。
選取HSV顏色空間,分別對兩個相鄰視頻圖像的三種分量H、S、V交互信息量進行計算,此時三種分量的互信息量定義為

(2)
式中,I描述的是互信息量,L描述的是H的量化級數,M描述的是S的量化級數,N描述的是V的量化級數。P(H)t,t+1(x,y)描述的是分量H圖像幀x、y的概率密度,P(H)t(x)描述的是t幀x的邊緣概率密度,P(H)t+1(y)描述的是t+1幀y的邊緣概率密度。同理,P(S)t,t+1(x,y)、P(V)t,t+1(x,y)標記概率密度。P(S)t(x)、P(V)t(x)標記邊緣概率密度,P(S)t+1(y)標記分量S的t+1幀邊緣概率密度,P(V)t+1(y)標記為分量V的t+1幀邊緣概率密度。
此時,利用直方圖歸一化對x與y的概率密度及邊緣概率密度進行表示,取得

(3)
式中,(x,y)標記為聯合概率密度[9],而x、y標記為邊緣概率密度。hx,y(x,y)描述的是聯合直方圖,它主要通過對視頻圖像的位置灰度進行統計獲取而來。
依據取得的互信息量,將最大的權值引入到H中,以此突出視頻圖像色調,而最小的權值引入到V內,這樣就可以有效降低視頻圖像的光效,以防閃光對視頻鏡頭檢測產生影響。這時賦予權值的兩幀圖像互信息量,用方程定義如下
Z×I(V)t,t+1)
(4)
式中,H、S、V賦予的權值分別通過J、K、Z進行表示。
2)基于互信息量的鏡頭切割
根據取得的視頻圖像互信息量可知,當鏡頭切變以后,轉換位置的互信息量就會降低,但在同一個視頻鏡頭的互信息量只會發生較小的波動。為了避免這種問題的發生,優先對視頻進行分割,形成連續幀圖像,對第一幀的相鄰幀間互信息量及相隔k幀的互信息量進行計算,再對鏡頭切換進行檢測,針對檢測結果計算分割視頻圖像的局部自適應閾值[10],再對互信息量的最小值及切變邊界進行判斷,依據判斷結果對漸變起始及結束幀進行檢測,從而實現切割,具體流程如下所示:
1)將視頻圖像劃分成N幀連續圖像;
2)對視頻內所有相鄰的互信息量It,t+1進行計算;
3).建立尺寸為2n+1的滑動窗口[11],在窗口內比較各個互信息量大小,以此用來檢測幀i,若i為最小值,就將窗口向右進行移動,便于對下一幀進行判斷,若i不是最小值,直接進行下一步驟;
4)對幀i的局部自適應閾值進行計算,表示為

(5)
式中,μ描述的是均值,σ描述的是標準差,Ti=μi-γσ描述的是局部雙閾值,u描述的是系數。
5)對It,t+1與Ti自適應閾值進行比較,若It,t+1 6)對所有幀的信息熵進行計算,若信息熵的值與0相近,那么就設置fs為各個幀的信息熵。當信息熵[12]上升趨勢逐漸提升時,那么就設置它的結束幀為fe,以此確認從左向右的fe、fs為鏡頭淡出,并以相同的方式對右方向進行搜索,將fs到fe作為鏡頭淡入; 7)對第k幀到第N-1幀的待檢測幀和It,t+k進行計算,當待檢測的第i幀對切變后的幀進行濾除后,It,t+k 通過對虛擬現實技術的分析描述,以此將視頻圖像投影到虛擬環境中,在虛擬環境內得到視頻圖像的互信息量,基于互信息量完成視頻流的切割。 根據視頻圖像的切割,依據切割視頻數據的時間及空間特性,采用K-slice算法[13]對關鍵幀進行提取。 1)由于分割后視頻的時間特性,設置原始的聚類中心數量為k,那么選取k+1的切割視頻,即num=fnum/(k+1),其中,num描述的是過程變量,fnum描述的是視頻總幀數。 此時的聚類中心定義為 center(i)=slice(i*num) (6) 式中,slice(i*num)描述的是視頻時空分割,center(i)描述的是像素值,即i=1,2,3,…,fnum。 2)聚類中心數量 由于分割的視頻不同,所以聚類中心的數量也大不相同。為了降低聚類中心數量對提取結果產生的影響,需要對最佳聚類中心數量進行確立。 采用K-slice對切割視頻進行聚類,即K=1,若聚類數目逐漸提升,那么類別之間的距離均值為 (7) 對ave的邊緣直方圖差均值Tave進行計算,取得的最佳聚類個數K為:K=min{k|ave(k) 根據選取的最佳聚類數量,對視頻檢索中關鍵幀進行提取,流程如下所示: 1)首先對切割的視頻圖像進行K-slice聚類; 2)對各類減少的連續幀進行處理; 3)對候選關鍵幀進行提取,切割圖像聚類后就會自動形成子鏡頭,將各個子鏡頭中圖像信息熵最大的幀值看作候選關鍵幀,并對其進行提取; 4)由于候選幀中,相鄰的兩個關鍵幀具有冗余[14,15],所以為了能夠精準地對關鍵幀進行提取,需要對冗余去除; 假設a為伸縮因子,T=a*Tave為閾值,當Tave≥0.05,T=0.5*Tave時,a=0.5;當Tave<0.05,T=1.5*Tave時,a=1.5,若候選關鍵幀滿足上述條件,就說明沒有冗余。 5)對沒有冗余的候選關鍵幀進行關鍵幀提取,實現視頻檢索中關鍵幀提取。 為了驗證基于虛擬現實的視頻檢索中關鍵幀提取方法的整體有效性,需要對該方法進行實驗對比測試。 采用基于虛擬現實的視頻檢索中關鍵幀提取方法(方法1)、面向礦山監管的無人機視頻關鍵幀影像動態提取方法(方法2)和時空特征分析結合隨機密鑰的壓縮域數字視頻水印嵌入和提取方法(方法3)進行實驗測試對比。 1)對視頻檢索中的關鍵幀進行提取時,其時效因子影響著整個關鍵幀的提取效率,為了驗證關鍵幀的提取效果,采用方法1、方法2和方法3分別對關鍵幀提取進行效率測試,以時效因子為參考指標,時效因子越大,說明該方法的提取效果越好,提取效率越高,具體測試結果如圖2所示。 圖2 關鍵幀提取效率測試 設置本次實驗測試時間為50s,分析圖2中的數據發現,在測試期間三種方法的時效因子都隨著時間的增加呈現出上升狀態。其中方法1的時效因子要高于方法2和方法3,可見方法1的關鍵幀提取效率較高,提取效果最優。 2)視頻檢索的關鍵幀提取方法中,視頻鏡頭被分割時容易出現漏檢或誤檢等情況,這往往會給視頻檢索的效率帶來影響。因此,為了確保視頻檢索中關鍵幀提取的精準度,需要采用方法1、方法2和方法3對切割鏡頭后的視頻檢測查全率進行測試,查全效果越高,說明該方法的提取精度最大。測試結果如圖3所示。 圖3 鏡頭分割后的視頻檢測查全率測試 根據圖3中的數據發現,視頻鏡頭分割后,三種方法的視頻檢測查全率均呈現出下降趨勢。第一次測試時,三種方法的查全率相同。隨著實驗次數增加后,方法2的查全效果要低于方法1和方法3,這說明方法2的視頻檢測效果差,導致關鍵幀提取的準確性較低。同時經對比發現,方法1的運動軌跡下降速度最慢,說明方法1的查全效果最高,關鍵幀提取的精準度最大。 綜上所述,方法1的查全率最高,這是因為方法1對關鍵幀進行聚類,并對存有冗余的關鍵幀進行去除,以此提升了視頻檢測的查全率,進而增強了關鍵幀提取的精準度。 3)基于上述分割視頻檢測查全率測試,為了驗證關鍵幀提取效果,設置本次實驗對關鍵幀共進行10次提取測試,利用方法1、方法2和方法3分別對關鍵幀進行誤檢實驗,誤檢次數越多,說明關鍵幀提取效果越差,具體測試結果如表1所示。 表1 不同方法的誤檢次數測試 分析表1中的數據發現,隨著提取次數的不斷提升,三種方法的誤檢次數也不斷增加。但從總體上看,方法1的誤檢次數最低,這說明方法1的關鍵幀提取效果要優于方法2和方法3。 隨著計算機應用領域的發展,信息技術也得到了廣泛關注,它可以應用于各個領域中,給人類帶來了巨大便利。但由于數據信息的增多,使人們對關鍵幀進行提取時容易出現漏檢的現象,所以針對視頻檢索中關鍵幀提取存在的問題,提出基于虛擬現實的視頻檢索中關鍵幀提取方法。該方法首先利用虛擬現實技術將視頻圖像放射到虛擬場景中,基于虛擬現實技術對視頻圖像互信息量進行獲取,依據獲取的互信息量對視頻鏡頭進行分割,采用K-slice聚類算法對分割后的視頻圖像進行聚類,以此完成對關鍵幀的提取。該方法對視頻檢索中關鍵幀提取方法有著顯著的幫助,在今后關鍵幀提取方法中占據著關鍵地位。3 視頻檢索中關鍵幀提取方法
3.1 K-slice聚類算法


3.2 關鍵幀提取算法流程
4 實驗與分析



5 結束語