(北京航空航天大學 計算機學院 數字媒體室, 北京 100083)
摘 要:將運動對象檢測技術分為變化檢測、運動檢測和特征檢測三類,介紹了各類技術的思想,對現有方法進行了歸類,指出各方法的本質區別,從理論和實驗兩方面剖析其優勢和不足并指出了適用場合。討論了目前視頻運動對象檢測技術存在的問題,展望了未來的發展方向。
關鍵詞:運動對象檢測; 變化檢測; 運動檢測; 特征檢測
中圖分類號:TP301.6 文獻標志碼: A
文章編號:10013695(2008)12353407
Prospects and current studies on motion object detection in video sequences
ZHENG Jin, LI Bo
(Digital Media Laboratory, School of Computer Science Engineering, Beihang University, Beijing 100083, China)
Abstract:
Classified the motion object detection technique into change detection,motion detection and feature detection, focused more on general characteristics and overall methods. Accordingly divided some issues into the three techniques, and pointed out the essential differences between them. Analysed the advantages and disadvantages of these issues from the theory and experiments,and indicated the applied occasions. At last,discussed the problems of current research and pointed out the future directions of motion object detection.
Key words:motion object detection; change detection; motion detection; feature detection
0 引言
運動對象檢測以視頻運動對象的分析作為主要內容,研究基于圖像序列的穩健、快速的運動對象位置提取、運動估計和對象描述算法。近年來,隨著運動對象檢測技術的發展及在視頻監視、編碼、基于內容的檢索等領域的重要用途,它得到了日益廣泛的研究與應用。例如,Olson等人[1]介紹了一種通過檢測幀間圖像變化來進行運動物體檢測和事件識別的系統;Yasushi等人[2]研制了一套利用光流進行運動估計的系統,處理速度可以達到15 fps;Kang等人[3]利用場景變化提取運動對象特征進行視頻檢索;Haritaoglu等人[4]研制的W4系統將外形分析與跟蹤技術相結合來跟蹤人體各部分的位置,并為人的外形建立模型,實現人的實時檢測和跟蹤。
一般來說,要檢測到視頻中的運動對象,需要預處理、運動對象檢測和后處理三步[5]。預處理主要針對攝像機運動、光照變化和噪聲分別進行幾何校正(圖像配準[6,7])、光照調整[8]和噪聲去除[9]。其中,光照調整用于補償光照變化造成的影響,又分為亮度歸一化、濾掉光源亮度的同態濾波、光照模型方法等;噪聲去除方法主要有幀平均、鄰域求均值、閾值處理、基于統計模型和多尺度濾波等。后處理主要是去除孤立點,進行區域連通和邊緣平滑,屬于圖像分割的范圍,常用的有形態學濾波、MarkovGibbs隨機分布模型等。事實上,很多運動對象檢測算法本身已經包含了預處理和后處理思想,如Li等人[10]提出的結合陰影模型的運動對象檢測算法,Yamamoto等人[11]提出在構造變化掩模時就加強空間先驗知識。由于本文主要論述運動對象檢測算法,對于預處理和后處理方法不再贅述。
視頻場景復雜,一個好的運動對象檢測系統應該能處理以下問題:光照漸變及突變、陰影、噪聲干擾(包括樹枝葉晃動、水波、窗簾抖動和傳感器噪聲等)、攝像機運動、偽裝、初始化(背景訓練階段存在前景的運動)、空洞(運動物體由于內部的一致性,內部點的亮度只保持微小變化)、對象由動到靜或由靜到動、目標較小或運動較慢等,系統應該檢測到重要或者需要關注的運動。現有的運動對象檢測方法雖然很多,但是一般只能解決以上一種或某幾種問題,在檢測速度和精度上也有差別,遠遠不能適應各種復雜的實際情況。此外,雖然有作者對背景減法[12]和光流法[13]中的部分方法進行了介紹和比較,或者提出了利用光流和特征計算視頻序列中的運動[14],但是還沒有專門講述運動對象檢測的比較全面的綜述性文章,各種方法的分類也不明確。
為了能夠對各種方法有較全面的了解,本文給出了視頻序列中運動對象檢測方法的分類,對現有方法進行了歸類及評估,對未來研究重點和發展方向進行了展望。本文把運動對象檢測分為變化檢測、運動檢測和特征檢測三類。這三類檢測技術的級別由低到高,變化檢測一般得到的是變化點或變化區域,運動檢測得到對象的運動矢量,特征檢測獲取運動對象的特征信息。
1 變化檢測
變化檢測利用幀間相關性,通過比較幀間差別獲取變化和未變化區域。變化區域被認為是由對象運動造成的,從而確定運動目標。差別可以基于亮度或者顏色通道進行,可以認為顏色比亮度更能確定低對比度區域中的目標以及抑制陰影的影響。變化檢測方法基本上可分為相鄰幀差法和背景減法,以這兩類方法為基礎,又涵蓋了概率統計、隨機過程、假設檢驗、線性預測等諸多思想。
11 相鄰幀差法
視頻序列中相鄰兩幀差的絕對值大于閾值的像素點被標志為運動點。這類方法主要需要解決噪聲干擾和空洞兩個問題:相鄰兩幀的對應點由于噪聲的存在會導致非運動點的差值超過閾值,常用的解決方法是通過小區域求均值(典型的3×3窗口和5×5窗口)消除噪聲的影響,但是這種方法會帶來運動對象輪廓模糊等不良效果;解決空洞問題的常用方法是只檢測運動物體的邊緣點,在運動邊緣檢測后進行運動物體聚合和分類。完成完整的運動對象檢測[15]。
隨著研究的深入,有學者提出了累積圖像差分法[16]和對稱圖像差分法[17]。累積圖像差分法既充分利用了時間序列圖像的歷史積累信息,又能適應低對比度的有噪時間序列圖像,因此可以判斷復雜情況下目標運動的多種狀態,檢測緩慢運動的目標和運動著的小目標,但該算法的判斷行為多、硬件實現復雜。對稱圖像差分法以連續三幀序列圖像為一組處理對象,保證了算法能很好地檢測出復雜背景中的低信噪比、運動小的目標,但該方法對進行差分的連續幀的選擇時機要求較高,選擇有賴于運動物體的速度。此外,Mech等人[18]提出利用相鄰幀差和全局閾值獲得變化檢測模板,使用深度為L的可調節存儲器檢測不連續運動的對象;Kim等人[19]提出相鄰兩個差分圖像的方差之比服從F統計分布,給出了在實際差分未知情況下檢測運動目標的方法;Sifakis等人[20]則認為幀間差分符合兩個零均值的拉普拉斯分布的混合,從而采用最大似然法估計分布參數,然后區分出背景和運動對象。筆者認為,充分利用時空相關性并結合概率模型,盡量排除噪聲干擾是相鄰幀差法的發展方向。
相鄰幀差法計算簡單、檢測速度快且不受光照緩慢變化的影響,適合攝像機無運動、噪聲較小的情況,但檢測結果受對象運動速度影響大,使用場合有限。
12 背景減法
在訓練階段初始化背景幀,進而與當前幀比較提取運動目標。常用的有以下六種方法:a)時域差分法,以每一個像素點取得的最大值、最小值作為背景,以幀間變化的最大值作為閾值[4];b)均值(中值)閾值法,假設背景幀由訓練階段各幀的均值(中值)構成,閾值一般與方差有關;c)高斯混合模型法,每個像素點的值由幾個高斯模型來模擬,根據每一個高斯模型偏離背景觀察值的頻率確定其權重,高斯混合模型又分為參數化[21]和非參數化方法[22];d)線性預測法,使用預測濾波器動態預測像素點的值,顯著偏離預測值的像素點被視為運動點[23];e)特征背景法,使用主成分分析決定最顯著的運動,當前值和投影到PCA子空間上結果的差別大于閾值的點被認為是運動點[24];f)歸一化塊相關法,把一幀圖像分為若干塊,各塊與背景塊相比較,歸一化后的相關值與期望值的差別大于閾值的塊被認為是運動塊。其中,均值(中值)閾值法面臨的最大問題是內存占用較大。為了解決該問題,一般采用運行期均值法[25],背景在訓練過程中及時更新,更新速度通過學習率控制;線性預測法由于每幀都需要計算濾波器的預測系數,比較耗時,且有從時間預測向空間預測發展的趨勢;特征背景法無法很好地更新背景幀使之適應背景變化;歸一化塊相關法的難點是塊大小的選擇和閾值的更新,此外基于區域級的處理會造成檢測精度較低。筆者已就這兩個問題進行了研究,在檢測到塊異常的基礎上進行像素級的二次檢測,能有效抑制光照、陰影和反光的影響,檢測到運動目標[26]。
以上六種常用的背景減法根據背景幀建立的空間尺度,前四種在像素級上處理,歸一化塊相關法在區域級上處理,特征背景法在幀一級上提取顯著的運動,而僅依靠一種空間尺度不能應對實際應用中的各種復雜問題。因此,背景建模的趨勢是各種方法的融合,如Wallflower[23]就是一種結合像素級、區域級和幀級的背景維護方法,在像素級用維納濾波器來預測期望的背景圖,在區域級填充前景物體,在幀級對背景圖進行全局更新。隨著研究的深入,在這些常用的背景減法基礎上又發展了許多新的觀點和思路,如Neri等人[27]認為背景變化服從高斯分布,而運動對象的變化為非高斯分布,從而利用四次高階統計量區分出運動對象區域和背景區域。結合時空變化,劉震等人[28]提出利用隱馬爾可夫模型和概率圖模型建立一個混合的貝葉斯網概率模型的背景建模方法。Rogers等人[29]首先將每幀圖像分為40×40個圖像塊,預處理后將這些圖像塊投影到一個線性濾波器組,得到不同的圖像模式,用訓練得到的神經網絡分類器來判斷圖像模式是否包含目標。Leclerc等人[30]提出使用最小描述長度(MDL)模型區分重要變化區域和不重要變化區域,MDL同時也是一種圖像匹配度量的方法,值得進一步研究。
背景減法雖然得到了廣泛應用,但是還存在一些固有的問題,如不能完全提取所有運動點,運動實體容易產生空洞,目標太小時容易被背景淹沒掉,檢測效果受場景中的遮擋、光線變化、樹葉晃動等的影響,容易出現誤檢。此外,背景運動情況下的檢測結果依賴于預處理效果,而且由于模擬圖像在數字化的時候存在誤差以及背景的位移未必一定在整像素點,目前還沒有一種匹配技術能夠完全消除背景的移動,即使采取措施來補償背景運動,通常也會產生大量的虛假目標。因此,在背景運動情況下背景減法不是一種合適的方法,采用運動檢測或者特征檢測更合理。但是作為一種效率較高的算法,背景減法仍然吸引了大量的研究。
13 常用變化檢測算法比較
相鄰幀差法和背景減法本質上可以統一到一個框架中,如圖1所示,包括參考幀/閾值初始化、閾值比較、參考幀/閾值維護。參考幀/閾值初始化和維護是關鍵,背景必須不斷更新以適應場景變化。
各種具體方法的差異主要集中在參考幀的初始化上,維護方式也與初始化方式有很大關系。大多數方法利用鄰近的歷史幀形成參考幀,比較特殊的是特征背景法,它的參考幀是當前幀投影到PCA子空間上的結果,考慮到該方法的效率和效果,值得進一步研究。維護方式常采用當前幀和與之匹配的背景幀加權作為新的背景幀。而閾值比較已經從單純的求差、求比值發展為求相似度、計算后驗概率等。
下面對常用變化檢測算法從速度、存儲要求和性能三方面進行比較,如表1所示。其中,檢測速度(s/幀)只計算檢測時間,不包括訓練時間,算法統一對亮度進行處理。算法只是基本思想的實現,未經過任何形態濾波或者優化處理。圖像大小為352×288(M=352,N=288),運行環境為P4 24 GHz CPU,MATLAB 70。
時域差分法 0.015 0(快) 最大、最小和最大幀間絕對差、當前幀,4MN(小) 不能適應攝像機運動、光照突變,受噪聲影響較大,對樹枝晃動等干擾需要后處理;不適用于訓練階段有物體運動的情況
均值(中值)閾值法 0.021 2(快) 背景幀、當前幀、閾值幀,3MN(小) 不能適應攝像機運動、光照突變。受噪聲影響大,不適用于訓練階段有物體運動的情況,對于大而慢的運動目標可能出現空洞
高斯混合模型法 0.044 3(較快) 每一個模型的均值、方差和權重以及當前幀,(3K+1)MN(較大) 不能適應攝像機運動、光照突變。能在一定程度上解決噪聲干擾、初始化問題、樹葉晃動、背景物體移動等問題,對緩慢運動處理不好
線性預測法 0.234 0(慢) 當前幀、用于預測的前p幀、預測系數、閾值幀,2(p+1)MN(大) 不能適應攝像機運動、光照突變,對光照漸變處理較好,但容易漏檢,訓練階段有物體運動也能有較好效果
特征背景法 0.096 2(較快) 特征向量矩陣、背景幀、當前幀,N2+2MN(小) 不能適應攝像機運動和噪聲干擾大的情況,對光照變化具有一定的適應性,結果受訓練階段的影響大
歸一化塊相關法 0.250 6(慢) 背景幀、背景子塊中值、當前幀、當前幀子塊中值,各塊的相關系數閾值,2MN+3MN/64(小) 不能適應攝像機運動情況,但對光照變化具有一定的適應性,能排除部分噪聲干擾,但可能漏檢小目標,只能檢測大致區域,更細致的檢測還需要與像素級檢測結合
注:上述方法中需存儲檢測結果,表中不再列出。高斯混合模型中模型數取3,線性預測法中采用Wiener濾波,預測幀數10幀,歸一化塊相關法中取8×8塊。
圖2是表1的檢測效果,顯示了一段場景復雜的視頻,主路和輔路上不斷有人和車輛經過,即使是訓練階段也是如此,樹枝葉不斷晃動,目標都比較小,有慢速運動也有較快的運動。第1~200幀是訓練幀,圖2(a)是原始視頻第500幀時的圖像,對該幀進行檢測;(b)~(h)是各種方法的檢測結果。綜合各種方法的性能,時域差分法和高斯混合模型法在實際系統中比較適用,背景使用多個高斯模型建模是背景減法技術的發展方向。
2 運動檢測
運動檢測通過視頻序列的時空相關性分析估計運動場,建立相鄰幀之間的對應關系,進而利用目標與背景表現運動模式的不同進行運動目標的檢測,它不僅可以定位運動物體,還可獲得物體的速度、運動距離等信息。運動檢測是一個運動估計的過程,代表方法為光流法。
21 光流法
光流的概念是Gibson于1950年首先提出的,當攝像機與場景目標間有相對運動時,所觀察到的亮度模式運動稱為光流。在亮度不變假設下求取連續圖像幀間的相對運動,像素點的運動矢量即構成光流場。光流中既包含了被觀察物體運動的信息,也包含了與其有關的結構信息,通過分割光流圖可以確定運動和對象在三維空間中的結構。
迄今為止,人們對光流法的研究已相當多,主要有微分法、匹配法、能量法、相位法和小波法。微分法(又稱時空梯度法)假定圖像在空間和時間上是連續的(可差分的),利用圖像強度的時空導數來計算每一像素點的速度矢量。當圖像間變化較小(小于2 pixels)時,該方法能取得較好的性能,但其要求“光流場全局平滑的假設”對許多自然圖像序列是不現實的;此外,求導操作造成噪聲放大,階數越高對噪聲越敏感,得到的光流越不可信。該方法以Horn、Lucas、Uras等人提出的方法為代表。Horn等人[31]將光流約束方程和一速度場整體平滑約束組合在一起來約束待估速度,最后得到一個致密的光流場;Lucas[32]通過在較小的鄰域內用加權的最小二乘法來求解光流;Uras等人[33]使用二次微分求解光流。
匹配法在相鄰圖像中查找像素(塊)之間的對應關系,兩幅圖像之間對應像素(塊)之間的位移即是所求的光流。匹配法在圖像變化適中時效果較好,但是不能處理亞像素級的變化,當出現遮擋時可能導致匹配錯誤。匹配法以Anandan[34]提出的方法為代表。該方法基于Laplacian金字塔由粗到細進行SSD匹配。
能量法(頻域法)基于速度調諧濾波器的輸出能量計算光流,由于速度調諧濾波器在傅里葉域中設計,也稱為基于頻域的方法。能量法可以分析運動的變化規律,使用多幅圖像提高速度和深度估計的穩健性及精度;但是該方法需要對輸入的圖像序列進行時空濾波,因此會降低光流估計的空間和時間分辨率,此外還存在計算負荷較高的問題。能量法以Adelson等人提出的方法為代表,將光流估計轉換為時空能量與頻率空間的最小二乘擬合問題[35,36]。
基于相位的方法因速度是根據帶通濾波器輸出的相位特性確定的而被稱為相位法,它根據與帶通速度調諧濾波器輸出中的等相位輪廓相垂直的瞬時運動來定義分速度。相位法的速度估計比較精確且具有較高的空間分辨率,對圖像序列的適用范圍也比較寬,具有一定的生物視覺合理性,但計算復雜性較高。相位法以Fleet等人[37]提出的方法為代表,該方法采用時空濾波器,根據比例、速度和定向利用帶通濾波器分解輸入信號,每個濾波器的輸出均以復數形式表示。
利用小波變換靈活的多尺度多分辨率框架計算光流是目前光流計算發展的主要趨勢。Magarey等人[38]提出利用小波多分辨率結構在不同的頻帶上構造特征匹配來計算光流;Wu Yute等人[39]用圖像配準(image registration)的方法調整相鄰圖像間的匹配,進而達到估計光流場的目的;Bernard[40]從理論和實驗結果上驗證了復值解析小波比實值小波更適合光流場的精確計算,并且構造近似的二維解析小波基進行求解。周兵[41]在解析小波濾波器的支撐集上計算運動向量,采用M估計子(穩健估計)減小光流估計誤差。許多研究者針對小波的選擇和多尺度多分辨率計算所帶來的累積誤差進行了相應的調整,進一步提高了小波光流估計的準確性,但小波法同樣面臨復雜度高的問題。
22 常用光流法比較
表2是以上提到的光流方法的性能比較結果。采用三個序列,A代表translating tree序列,B代表diverging tree序列,C代表Yosemite序列;比較的內容包括平均誤差和計算密度。平均誤差是指計算得到的光流場和測試序列的實際光流場的平均角度差;計算密度是指參與計算的像素點比例。相關數據來自相應作者的文章,空白項表示作者未提供相應的數據。
表2 主要光流法平均誤差、計算密度及綜合性能級別比較
注——方法1:Horn Schunck;2:Uras, et al(unthresholded);3:Uras, et al (det(H)≥2.0);對上面的數據進行分析可以得到,微分法中的Horn Schunck的性能最低;Uras, et al閾值能有效改善平均誤差,但會造成光流場稀疏;Lucas Kanade平均誤差比較小,但是產生的光流場稀疏,改變閾值雖能得到更準確的光流估計,但是也造成了計算密度的下降;匹配法Anandan性能居中,不同的視頻序列性能差別比較大;能量法Heeger性能也較低,實驗中選取了速度范圍和真實運動一致的金字塔層進行運動估計;相位法Fleet Jepson能產生較準確的光流場,特別是對序列A和B比較明顯。基于小波法的幾種光流計算在綜合性能上是最優的。其中,Magrey Kingsbury的方法得到最大的計算密度,但是其結果平均誤差較大;Wu Yute等人的方法得到的精度較高;Bernard的方法平均誤差較大;周兵的方法在計算密度和平均誤差兩方面都具有較好的結果。前四類方法基本上能做到實時,小波光流法的時間效率還有待提高。這些方法有些經過了預處理或平滑,有些基于光流平滑性假設或者具有約束條件,在算子的選擇上也有要求,因此在應用中需根據實際情況考慮選擇哪種方法更合適。
以上介紹了主要的光流計算方法,現有光流方法之間有許多共通之處。Singh等人[42]指出,現有的各種方法基本上可以統一在一個框架之中,這個框架將光流信息分成保持信息和鄰域信息兩類,通過這兩種信息的提取和融合來實現光流場的恢復。此外,有學者為避免光流受噪聲影響,提出累積光流的概念[43]。累積光流可以排除室外樹葉晃動和室內窗簾抖動等干擾,還可應用于目標跟蹤中進行運動預測、判斷目標是否反向運動,有助于行為識別,是光流研究的一個發展方向。光流法的另一個趨勢是與其他領域知識的融合。利用神經網絡建立視覺運動感知的神經動力學模型是對生物視覺系統功能與結構的更為直接的模擬。Grossberg等人[44]提出了運動邊界輪廓系統的神經網絡模型,雖然不能給出運動速度的大小,但對于整體運動方向的判別非常有效;Fay等人[45]提出了一個多層神經網絡,它涉及光適應、邊緣增強和邊緣速度提取等幾個處理階段,在并行機上實現了30fps速度提取,遺憾的是它僅能提供運動邊緣的法向速度估計,為了恢復整個模式的光流場,還必須用速度泛函方法將估計的法向流整合成一個致密的光流場;張忠偉等人[46]提出能流的概念,利用描述分子作無規則運動的麥克斯韋—玻爾茲曼分布律來描述圖像序列中像素的運動規律。
光流法可以用于攝像機運動下的運動對象檢測,因為不同的物體有不同的運動速度,大面積背景的運動會在圖像上產生較為均勻的速度矢量區域,這為具有不同速度的其他運動物體的檢測提供了方便。光流法盡管得到了廣泛研究,但還面臨一些問題,主要集中在三方面:a)光流和真實的運動一般是不同的,除非滿足特定的光照條件和對象約束條件;b)場景中存在多個運動物體時,克服孔徑問題和正確處理光流場不連續性的矛盾;c)相對于準確性的計算效率問題。光流法描述了物體的運動,比變化檢測包含更多的信息,但是目前光流計算的普適性、準確性和實時性仍是急待解決的問題。
23 參數運動估計
參數運動估計對得到的光流場進行分析,通過建立運動方程模型,并使用參數擬合估計模型參數最終得到對象的運動參數。參數運動估計可以是二維或者三維的,三維參數運動估計中假設有K個相互獨立的運動對象,每一個光流矢量對應于單個不透明體的三維剛體運動的投影,每一個不同的運動通過一系列映射參數來正確描述。
一個由三維剛體運動產生的平面二維運動場,考慮平移、縮放和旋轉變化,在正交投影下可用6個參數的仿射模型描述;若只考慮平移運動,可以使用2參數模型;而在透射投影下,則得到8個參數的透視模型。一般來說,參數模型使用的參數越多,對運動的估計越準確,但計算復雜性也越大。當前的研究主要集中在參數模型簡化上,以利用更少的參數來描述和估計運動,在保證準確性的同時簡化參數估計的復雜度。三維運動建模屬于立體視覺,三維參數運動不僅包括圖像平面的二維運動,而且還包括立體視覺中的第三維信息——視差的運動。由于增加了一維運動信息,立體參數運動能更準確地反映真實世界的三維運動,這也是該領域的一個發展方向。
相對于非參數模型,參數模型對每一區域的運動用一組參數來描述,計算量大。但是由于參數是由多個像素結合在一起估算出來的,受噪聲的影響較小;此外,對運動分割和跟蹤也有利。
3 特征檢測
特征檢測提取對象特征,建立特征之間的對應關系,從而檢測出運動對象。特征檢測不僅能夠得到運動,還能得到運動對象的結構;此外,不管攝像機是否運動、場景是否變化,特征檢測都適用。當前關于特征檢測的文獻很零散,歸納起來特征檢測一般可分為三步:特征提取、特征匹配和運動估計。由于實際情況中遮擋、噪聲等會造成特征出現或者消失、虛假特征存在,特征提取、描述和匹配很難,需要研究準確而魯棒的技術。
有很多特征可以利用,如形狀特征,包括點、線、面、邊緣、形狀、面積、圓形度和偏心度等;顏色特征,包括顏色直方圖、顏色矩和分塊主色等;紋理特征,包括粗糙性、方向性和對比度等。單個的特征往往不夠魯棒,很多系統都采用多特征的融合來增加系統的魯棒性,如Crowley等人[47]結合顏色、形狀和運動特征的多模態檢測,具體使用什么特征應該根據需要檢測的對象的特點而定。以人臉檢測為例,一般膚色、形狀是比較顯著的特征,如圖3(a)所示;使用基于KL膚色特征進行人臉的初定位,得到圖3(b);由于欄桿、燈的顏色與膚色近似,存在誤檢,經過形態學處理進一步剔除線狀區域,得到圖3(c);該圖包括七個連通對象,如圖3(d)所示,分別以不同的顏色標志出來;對每一個連通對象結合臉形、眼睛、嘴唇等特征可以精定位人臉,如圖3(e)所示,提取人臉的輪廓作為形狀特征來對人臉作檢測。
Aggarwal等人[48]把特征提取分為圖標法和結構法。圖標法一般提取模板,在后續幀中尋找該模板;結構法提取代表圖像屬性的一些標志,使用區域約束和結構模型在后續幀中尋找這些標志。后一種方法雖然計算更復雜,但更加魯棒。
提取特征后利用該特征在后續幀尋找對應特征稱為特征匹配。為了減少在對應特征尋找中查詢點的數量,Marr等人[49]提出了三個約束條件:相容性約束、惟一性約束和連續性約束。特征匹配完成后,利用得到的對應特征位置進行運動估計,實現特征檢測。本文把解決該問題的方法分為公式法和最優化法。公式法適用于剛體對象,其運動基本上為平移、尺度縮放、旋轉和扭曲,因此可以用仿射變化公式表示,利用二維圖像特征對應位置求解運動參數方程;最優化方法適用于非剛體對象,這些對象存在一定變形,可利用多次迭代求取最優解。同樣以變化檢測中使用的視頻為例進行特征檢測,選取第680幀中穿橙色衣服的行人作為對象,以矩形框標出,如圖4(a)所示。以該區域的顏色直方圖為特征,由于目標的外圍像素可能被遮擋或者受到背景影響,是相對不可靠的,對目標內不同位置的像素賦予不同的權重,位置與目標中心的距離越近,其相應的權值越大。 圖4(a)目標的顏色直方圖如(b)所示。利用Mean shift法對該特征進行最優化求解,這一過程就是在當前幀中尋找目標位置,使目標的顏色(紋理)特征和候選目標的顏色(紋理)特征最相似。圖4(c)為680~720幀的跟蹤軌跡。
針對特征檢測已經開展了一些研究,如Sethi等人[50]提出基于特征點的匹配方法。基于速度變化的平滑性,利用速度方向和大小的約束迭代求取最優解,并采用假設檢驗處理遮擋問題。但是由于特征檢測中的各個環節都是當前視頻分析的難點和熱點,而特征檢測本身又與具體應用有關,沒有比較通用的方法,本文不再列出常用方法比較結果。
特征檢測能夠在一定程度上抵抗噪聲、光照突變等因素的影響,其結果對后續工作更為有利,是目標跟蹤、識別、檢索的基礎。但是,如果在特征提取中采用結構法,得到的是相對稀疏的二維特征,而二維特征用于計算三維結構或運動估計是不準確的,但圖標法又容易受噪聲、遮擋、變形等的干擾;尋找特征對應關系中的最優化方法可能不收斂或者陷入局部最優解,公式法的前提條件對象為剛體,在實際情況中又往往不能滿足。此外,特征檢測一般要求根據先驗知識確定應提取什么樣的特征,特征描述需要準確而魯棒,特征匹配需要一定的約束條件,因此當前特征檢測適用范圍有限。
嚴格意義上來說,變化檢測和運動檢測只是檢測到了運動,要真正檢測到運動對象還需要進行運動分割,它是一個運動→對象的過程;特征檢測是先檢測到對象,再進行運動估計,是一個對象→運動的過程。運動和結構的緊密聯系使得這兩個過程可以相互融合并借鑒。
4 結束語
本文從視頻序列中運動對象檢測所涉及的關鍵技術出發,把運動對象檢測技術分為變化檢測、運動檢測和特征檢測三類,對現有的基本方法進行了歸類和比較。特征檢測是較高層次的檢測,但是需要一定的先驗知識,對復雜的室外環境適應性較差;而運動檢測的計算復雜度較高,存在約束條件,容易受噪聲干擾。因此,變化檢測是一般實時系統常用的技術。從國內外的研究狀況來看,運動對象檢測還存在以下問題:
a)由于場景中存在噪聲、光照變化、陰影、遮擋、變形等各種情況,運動對象檢測算法不僅要考慮檢測的準確性和算法的處理性能,還要考慮魯棒性,提高檢測精度,降低虛警率。
b)目前的視頻運動對象檢測技術缺少一個合理的分析框架,已有的分析框架都是針對特定技術,適用范圍有限,且過于依賴經驗,對運動對象檢測的進一步發展造成了阻礙。
c)運動對象檢測只是視頻分析的中低階段,目前的檢測結果包含的信息量較少,對目標分割、分類、跟蹤和行為識別等幫助有限。
通過對視頻運動對象檢測技術的分析,本文認為以下幾方面有望成為該領域發展的方向:
a)進一步研究變化檢測中的背景建立、維護以及參數自適應更新方法,引入對檢測結果的驗證。
b)研究解決光流場計算不適定問題的方法,克服對運動平滑性和連續性的要求,解決時空梯度對噪聲的敏感性問題;通過改變時空預濾波和光滑效果,突出主信息和時間混疊,以提升光流估計的能力;引入對比度、顏色、顏色梯度等進行光流場計算;研究多視光流場。
c)不同的視頻對象有各自的特點,需要挖掘出各種對象比較穩定的特征,建立特征的描述,研究特征匹配的快速算法。
d)各種算法之間存在互補信息,利用多算法融合提高檢測的準確性和適用范圍,如變化、運動、特征算法的結合,不同的尺度空間算法的結合,時域、空域、頻域信息的綜合,多種分析基元的選擇,針對環境適應性要求選擇可以解決相應問題的算法進行融合。
e)統一框架理論的完善建立,實現通用性和專用性的統一,并研究對檢測結果的有效度量方法。
f)與其他領域知識結合、與人類感知結合。各個領域知識互相滲透已成為技術發展的趨勢,如神經網絡動力學、模式識別方法已引入到運動對象檢測算法中;人類視覺和機器視覺存在差別,如人類視覺系統就能適應不嚴格的剛體運動,機器視覺對物體的變形、遮擋等都比較敏感。實現機器視覺對人類視覺的模擬能更好地提升機器的智能性。
運動對象檢測涉及到視頻分析理解中的諸多技術,同時與模式識別、神經網絡、概率統計等學科也有緊密聯系。運動對象檢測不僅用在監視系統中,而且其中的特征提取、運動估計也是視頻編碼的重點和難點。運動對象檢測對于視頻分析與理解的重要意義也決定了它在對象識別、視頻檢索等系統中具有重要作用。因此,綜合多領域知識、提高運動對象檢測的精確性和效率是當前十分典型和有意義的研究課題。
參考文獻:
[1]OLSON T J, BRILL F Z. Moving object detection and event recognition algorithms for smart cameras[C]//Proc of DARPA Image Understanding Workshop. 1997:159175.
[2] YASUSHI M, YOSHIAKI S, JUN M, et al. Object tracking in cluttered background based on optical flow and edges[C]//Proc of the 13th International Conference on Pattern Recognition. 1996:196200.
[3] KANG E K, KIM J, CHOI J S. Video retrieval based on scene change detection in compressed streams[J].IEEE Trans on Consumer Electronics,1999, 45 (3):932936.
[4] HARITAOGLU , HARWOOD D, DAVIS L S. W4: realtime surveillance of people and their activities[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000, 22 (8):809830.
[5] RADKE R J, ANDRA S, AlKOFAHI O,et al. Image change detection algorithms: a systematic survey[J].IEEE Trans on Image Processing,2005, 14 (3):294307.
[6] ZITOVA B, FLUSSER J. Image registration methods: a survey[J].Image and Vision Computing , 2003, 21 (11):9971000.
[7] DAI Xiaolong, KHORRAM S. The effects of image misregistration on the accuracy of remotely sensed change detection[J].IEEE Trans on Geoscience and Remote Sensing,1998, 36 (5):15661577.
[8] TOTH D, AACH T,METZLER V. Illuminationinvariant change detection[C]//Proc of the 4th IEEE Southwest Symposium on Image Analysis and Interpretation. Washington DC:IEEE Computer Society, 2000:37.
[9] TOUZI R. A review of speckle filtering in the context of estimation theory[J].IEEE Trans on Geoscience and Remote Sensing,2002, 40 (11):23922404.
[10] LI Liyuan, LEUNG M K H. Integrating intensity and texture differences for robust change detection[J].IEEE Trans on Image Processing, 2002, 11 (2):105112.
[11] YAMAMOTO T, HANAIZUMI H, CHINO S. A change detection method for remotely sensed multispectral and multitemporal images using 3D segmentation[J].IEEE Trans on Geoscience and Remote Sensing,2001, 39 (5):976985.
[12] PICCARDI M. Background subtraction techniques:a review[C]//Proc of IEEE International Conference on Systems, Man and Cybernetics. Piscataway:IEEE Press, 2004:30993104.
[13] BARRON J L, FLEET D J, BEAUCHEMINS S. et al.Performance of optical flow techniques[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 1992:236242.
[14] AGGARWAL J K, NANDHAKUMAR N. On the computation of motion from sequences of images:a review[J].Proceedings of IEEE , 1998, 76 (8):917934.
[15] YANG C H, CHUNG P C. Knowledgebased automatic change detection and positioning system for complex heterogeneous environments[J].Intelligence and Robotic Systems,2002, 33 (1):8598.
[16] JAIN R, NAGEL H. On the analysis of accumulative difference of picture from image sequences of real world scenes[J]. IEEE Trans on Pattern Analysis and Machine ,1979, 1 (2):206214.
[17] 陳朝陽,張桂林.基于圖像對稱差分運算的運動小目標檢測方法[J].華中理工大學學報,1998, 26 (9):3435,38.
[18] MECH R, WOLLBORN M. A noise robust method for 2D shape estimation of moving objects in video sequences considering a moving camera[J]. Signal Processing ,1998, 66 (2):203217.
[19] KIM M, CHOI J G, KIM D, et al. A VOP generation tool: automatic segmentation of moving objects in image sequences based on spatio temporal information[J]. IEEE Trans on Circuits and Systems for Video Technology,1999, 9 (8):12161226.
[20] SIFAKIS E, TZIRITAS G. Moving object localization using a multilabel fast marching algorithm[J].Signal Processing: Image Communication , 2001, 16 (10):963976.
[21] STAUFFER C, GRIMSON W E L. Adaptive background mixture models for realtime tracking[C]//Proc of IEEE Compter Society Conference on Computer Vision and Pattern Recognition. 1999:246252.
[22] ELGAMMAL A, DURAISWAMI R, DAVIS L. Efficient nonparametric adaptive color modeling using fast Gauss transform[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2001:563570.
[23] TOYAMA K, KRUMM J,BRUMITT J, et al. Wallflower: principles and practice of background maintenance[C]//Proc of the 7th IEEE International Conference on Computer Vision. 1999:255261.
[24] OLIVER N M, ROSARIO B, PENTLAND A P. A Bayesian computer vision system for modeling human interactions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2000, 22 (8):831843.
[25] CUCCHIARA R, GRANA C, PICCARDI M, et al. Detecting moving objects, ghosts, and shadows in video streams[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2003, 25 (10):13371342.
[26] ZHENG Jin, LI Bo, YAO Chuanlian. Robust abnormity detecting and tracking using correlation coefficient[C]//Proc of the 12th International MultiMedia Modeling Conference. 2006:7279.
[27] NERI A, COLONNESE S, RUSSO G, et al. Automatic moving object and background separation[J]. Signal Processing, 1998, 66 (2):219232.
[28] 劉震,趙杰煜.基于混合概率背景模型的視頻分割方法[J].計算機應用,2005, 25 (7):616618.
[29] ROGERSS K, COLOMBI J M, MARTINC E, et al. Neural network for automatic target recognition[J]. Neural Networks, 1995, 8 (7/8):11531184.
[30] LECLERC Y G, LUONG Q T, FUA P V, et al. Detecting change in 3D shape using selfconsistency[C]//Proc of IEEE Conference on Computer Vision and pattern Recognition. 2000:395402.
[31] HORN B K P, SCHUNCK B G. Determining optical flow[J]. Artificial Intelligence, 1981, 17 (12):185203.
[32] LUCAS B,KANADE T. An iterative image registration technique with an application to stereo vision[C]//Proc of DARPA Image Understanding Workshop. 1981:121130.
[33]URAS S, GIROSI F,VERRI A, et al. A computational approach to motion perception[J].Biological Cybernetics1988, 60 (2):7997.
[34] ANANDAN P. A unified perspective on computational techniques for the measurement of visual motion[C]//Proc of the 1st International Conference on Computer Vision. 1986:219230.
[35] ADELSON E H, BERGEN J R. Spatiotemporal energy models for the perception of motion[J].Journal of the Optical Society of America,1985,A2(2):284299.
[36] HEEGER D J. Model for the extraction of image flow[J]. Journal of the Optical Society of America, 1987,A4(8):14551471.
[37] FLEET D J, JEPSON A D. Velocity extraction without form interpretation[C]//Proc of the 3rd IEEE Workshop on Computer Vision: Representation and Control. 1985:179185.
[38] MAGAREY J, KINGSBURY N. Motion estimation using a complexvalued wavelet transform[J]. IEEE Trans on Signal Processing,1998, 46 (4):10691084.
[39] WU Yute, KANADE T, COHN J, et al. Optical flow estimation using wavelet motion model[C]//Proc of the 6th International Conference on Computer Vision. 1998:992998.
[40] BERNARD C P. Discrete wavelet analysis for fast optic flow computation ,RI415[R].[S.l.]:Ecole Polytechnique,1999.
[41] 周兵.運動對象檢測及其在視頻監控中的應用[D].北京:北京航空航天大學,2003.
[42] SINGH A, ALLEN P. Imageflow computation: an estimation theoretic framework and a unified perspective[J].CVGIP: Image Understanding , 1992, 56 (2):152177.
[43] WIXSON L. Detecting salient motion by accumulating directionallyconsistent flow[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000, 22 (8):744780.
[44] GROSSBERG S, MINGOLLAA E. Neural dynamics of visual motion perception: local detection and global grouping[C]//Proc of Neural Networks for Vision and Image Processing. Cambridge: MIT Press, 1992:293342.
[45] FAY D A, WAXMAN A M. Neural dynamics of realtime image velocity extraction[C]//Proc of Neural Networks for Vision and Image Processing. Cambridge: MIT Press, 1992:221246.
[46] 張忠偉,劉貴忠,李宏亮,等.基于能流信息的視頻分割[J].電子學報,2005, 23 (1):177180.
[47] CROWLEY J L, BERARD F. Multimodal tracking of face for video communication[C]//Proc of International Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 1997:640645.
[48] AGGARWAL J K, DAVIS L S, MARTIN W N. Correspondence processes in dynamic scene analysis[J].Proceeding of IEEE,1981, 69 (5):562572.
[49] MARR D.視覺計算理論[M].姚國正,等譯.北京:北京科學出版社,1988.
[50] SETHI S K, JAIN R. Finding trajectories of feature points in a monocular image sequence[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1987,9(1):5673.