LU Kyle
(上海交通大學,上海 200240)
視頻數據作為一種可儲存化的數字媒體,被廣泛地應用于各個信息鄰域之中。智能視頻文件分析技術現在已被廣泛應用于道路交通監控、犯罪偵查等系統中,達到了良好的效果。計算機視覺技術隨著其處理能力的不斷提高和改善,也有了很大發展。運動目標檢測算法在國內外均成為廣大專業學者們爭相研究的話題。有效識別運動目標的首要條件是對運動目標精準檢測。但當前,智能視頻文件分析技術和計算機視覺技術這兩種技術在現實生活應用中面臨著諸多困難,尤其是攝像機發生運動和光線發生變化將會造成運動目標檢測的難度提高[1]。
運動目標檢測意指在圖像序列的每一幀之間找到所需要物體發生移動的方位。其難點是如何從一幅圖像中快速可靠地提取并匹配相應目標。運動補償、視頻壓縮編碼和視頻理解是當前運動目標檢測技術需要實現的內容。數字視頻處理、數字圖像處理和分析等都依靠運動目標檢測技術。判斷運動目標檢測算法是否優秀的標準是衡量該算法是否具有實時性、可信性以及廣泛性,這也是視頻監控系統所必須要達到的期望。
運動目標檢測是指將背景圖像在視頻圖像序列中運動目標范圍內提取出來。一般情況下,對于運動目標行為的理解與分析,圖像中與之對應的運動區域是最需要考慮的因素。因此,有效提取出運動區域對視頻文件分析有著重要意義。本文研究的是監控視頻分析,在生活中,大多數視頻監控系統都是通過固定攝像機獲取監控視頻圖像的,因此其背景為靜態背景。而靜態背景下的常用方法是幀間差分法、光流法和背景差分法[2]。
當監控視頻中有移動過的物體時,視頻圖像序列中相鄰兩幀圖像就會發生較大變化。將這相鄰兩幀圖像通過算法相減,相減得到的絕對值就是這相鄰兩幀圖像的亮度差。將亮度差的值與閾值進行比較,就可以知道其運動特征,而從判斷視頻圖像序列中是否存在發生相對位移的物體。
幀間差分法的計算公式為
式中:It(x,y),It-1(x,y)分別為視頻圖像序列中的相鄰兩幀圖像。其運動檢測公式為
式中:Mt(x,y)為二值化圖像;T為門限值。選取T=20,幀間差分法的二值化圖像仿真實驗結果見圖1。

圖1 幀間差分法的二值化圖像仿真實驗結果
由圖1的仿真實驗結果可知,采用幀間差分法可以確切地檢測到運動目標。觀察圖1中的仿真實驗結果,能更清楚地獲得運動目標的輪廓。這種算法具有很強的適應場景更新的能力,這是因為隨著時間的推移,背景像素不會累積并且快速變化。然而,由于幀間差分法表示相鄰兩個位置的變化量,因此當運動物體相對比較大或者運動物體的內部顏色相近時,可能會產生一系列的錯誤判斷信息。在使用幀間差分法的情況下,需要考慮一個重要因素:如何選擇合理的時間差。而這個因素通常決定于運動目標的速度。如果運動目標的速度過快,就需要取較短的時間差。如果取的時間差不好的話,則會導致前后兩幀圖像中不重合,并被判斷為兩個單獨的運動目標。如果運動目標的速度相對緩慢,就需要取較長的時間差;如果取的時間差不好的話,會導致前后兩幀圖像重合,根本無法得出運動目標的輪廓以及具體位置。另外,在監控視頻中,由于多個運動目標的速度各不相同,因此會導致無法準確地選取時間差。
背景差分法是采用視頻圖像序列中的當前幀與背景參考模型進行比較來檢測運動目標,其中背景建模技術為該方法的核心,可以較為準確地分割出運動目標。
背景差分法分為主要的4步,分別為視頻圖像的預處理、背景建模、前景檢測以及后處理。
1)預處理是對數字視頻圖像進行相對簡單的空間濾波或者時間濾波,用來除掉一些瞬間環境噪聲,比如攝像機噪聲和自然天氣環境變化等。
2)背景建模可以分為建立一個背景圖像和搭建一個模型作為背景圖像,是算法的核心。
3)前景檢測其實就是閾值分割。
4)后處理是消除不存在于運動目標的準確參考像素,以獲得運動目標的準確前景,例如,去掉小的和非真實的前景像素,去掉重合影子和產生的陰影。
構建背景圖像最常用的方法是中值濾波。該方法的思路是:在視頻流動界面內創建長度為L、在該視頻流動界面中存儲時間間隔最小的L幀不間斷的視頻圖像,按照像素位置的坐標值相等的L幀視頻圖像以升序排列或者以降序排列。背景模型中每個像素的值的表達式為
背景差分法的二值化圖像仿真實驗結果見圖2。

圖2 背景差分法的二值化圖像仿真實驗結果
由圖2的仿真實驗結果可知,采用背景差分法可以確切地檢測到運動目標。該算法由于背景模型的建立和背景更新,產生的噪聲比幀間差分法少,檢測到的輪廓也比運用幀間差分法檢測到的輪廓更為清晰。因此,可以看出,如果圖2的仿真實驗結果是理想情況下的背景建模與背景更新,那么就可以得出如下結論:利用背景差分法比利用幀間差分法得出的仿真實驗結果更為理想。
對于一段監控視頻文件而言,如果將其以幀區分,那么必然會有很多極其相似的相鄰幀。因此這段監控視頻文件就會出現大量冗余信息,對于監控視頻的存儲以及分析非常不便。因而可以提取視頻中的關鍵幀進行存儲來代表這段視頻的信息,這將大大精簡視頻信息、壓縮視頻內容。
針對本研究中的監控視頻文件進行研究,可將其分為兩種視頻段:一種是關鍵視頻段;另一種是靜止視頻段。運動目標的視頻信息存儲在關鍵視頻段中;背景全為靜止片段的冗余視頻信息則存儲在靜止視頻段中。
本文運用背景差分法來判斷出現運動目標的視頻段的位置信息,即起始幀和結束幀。對出現運動目標的關鍵視頻段中有目的地提取關鍵幀,先判斷其背景中是否含有運動目標,如果有,則將這段視頻分割成相關的關鍵幀的視頻段,來達到無需進行鏡頭邊界檢測的目的。
本實驗關鍵幀的提取方法及操作步驟如下。
1)用背景差分法對視頻F中含有運動目標的關鍵幀的視頻段進行檢測,記錄關鍵幀的視頻段的起始幀f1和結束幀fn。
2)解析視頻,得到關鍵的視頻圖像序列(f1,f2,f3,…,fn),然后根據互信息量It,t+1<θ1,將解析得到的關鍵視頻段進行分類,分類得到N類子視頻段S={S1,S2,S3,…,SN},設類Ci:{Si}共有類數M=N。
3)通過計算得到每類中互信息量的平均值Ii(i=1,2,…,M),并計算得到相鄰類間的互信息量的差值Ici,ci+1(Ci,Ci+1)。
4)根據閾值θ2判斷類間的相似度。當Ici,ci+1(Ci,Ci+1)<θ2時,合并兩類作為新類,且M=M-1(程序代碼),轉到第3步;否則,i=i+1(程序代碼),轉到第5步。
5)檢查是否聚類完畢,若i<=M(程序代碼),則轉到第3步,繼續計算;否則,轉到第6步,對每類進行關鍵幀的提取;
6)選取每類中互信息量的最大幀、最小幀和接近該類平均互信息量的一幀,放入候選幀集合K,i=1;
7)若i<=n(程序代碼),則轉到第8步;否則,提取關鍵幀結束;
8)每類中最大幀、最小幀間差大于視頻頻率,則選擇這兩幀作為關鍵幀,i=i+3(程序代碼),轉到第7步;否則,選擇最接近類中平均互信息量的一幀最為關鍵幀,轉到第7步。
結合運動目標檢測技術,在互信息量的基礎上,運用關鍵幀提取技術進行實驗。
一段道路監控視頻段分割之后,提取含有運動目標的視頻段的關鍵幀。視頻時長約為8 s,數據速率為273 kb/s,幀速率為20幀/s。在這段視頻中,共有164幀,圖3為該視頻段中的視頻主要內容幀。

圖3 視頻主要內容幀
利用提取關鍵幀的方法,可以得到2幀關鍵幀,見圖4。

圖4 提取關鍵幀
本文主要運用基于背景差分法的運動目標檢測技術,并與幀間差分法作了對比,背景差分法可以確切地檢測到運動目標,該算法由于背景模型的建立和背景更新,產生的噪聲比幀間差分法少,檢測到的輪廓也比運用幀間差分法檢測到的輪廓更為清晰。在監控視頻中檢測到運動目標的情況下,對出現運動目標的視頻段進行關鍵幀提取,然而對于一段監控視頻文件而言,如果將其以幀區分,那么必然會有很多極其相似的相鄰幀,因此這段監控視頻文件就會出現大量冗余信息,對于監控視頻的存儲以及分析非常不便。因而可以提取視頻中的關鍵幀進行存儲來代表這段視頻的信息,這將大大精簡視頻信息、壓縮視頻內容。此外,這種對于關鍵幀的存儲方法也方便于快速查閱視頻內容。