柳 恭,劉 龍
(蘇州大學 計算機學院,江蘇 蘇州215006)
復雜交通場景中行人與車輛的行為分析一直是復雜動態場景行為分析的一個非常重要的研究領域。目前學者對行為分析中語義信息提取主要是借助視頻低層特征,生成視覺單詞,而后采用類似文本的語義建模方法進行行為的語義建模。該方法首次由Csurka等人[1]將詞袋引入計算機視覺領域,而后引起了學者的廣泛研究。如以稀疏時空興趣點作為時空局部特征的方法[2],基于視覺機制的視頻局部運動信息提取方法[3],基于興趣點跟蹤的稠密運動軌跡表示的運動信息提取[4],關注時空興趣點的空間位置分布的語義高層特征提取方法[5],基于在線判別字典學習算法的視覺詞典生成方法[6]等。而復雜交通場景的分析采用基于光流產生的目標移動方向特征量化構建,同時也出現了高層語義建模的擴展研究[7-9]。
Wang[7]等人將視頻序列劃分為一些短片段 (類似于文檔),并基于像素塊運動特征方向 (單詞)進行量化,而提出一個層次主題模型,主要應用于解決高空復雜街道視頻場景[7-9]。Kuettel等人[9]以及 Wang等人[7]都是在光流分析基礎之上建立視覺單詞模型,因此稱之為Flow視覺單詞模型。這種Flow視覺單詞模型主要提取空間特征及方向特征,由于僅包含空間信息以及方向信息,由于該單詞未包含運動的速度信息,無法表示目標運動的速度。主要不足在于:
(1)復雜交通場景信息量描述不足[7-9,11]
由于Flow視覺單詞模型通常只采用固定閾值提取光流強度超過該閾值的塊進行簡單的方向量化而成,這一過程丟失了場景中目標運動過程的速度信息,從而造成場景行為過程分析不精確。
(2)目標暫停造成視覺單詞丟失[8-11]
Flow視覺單詞模型在單詞建立過程不記錄特定目標跟蹤信息,無法表達目標運動過程的暫停信息,因此當目標暫停時,目標的視覺單詞丟失,造成運動目標丟失,行為分析過程無法建模該部分信息。
本文針對Flow視覺單詞模型存在的上述問題,設計了v-flow視覺單詞即包含{空間,速度,方向,暫停}。該方法在保留Flow視覺單詞方向信息的基礎上,添加速度信息和上下文運動暫停信息,以改善復雜交通場景中行為分析的精確性。在復雜交通場景中的實驗證明,該詞袋能夠較完整的表達復雜交通場景中的目標行為語義。
基于Flow視覺單詞模型,本文提出一種由空間、方向和速度3種信息構成的新的視覺單詞模型。由于添加速度信息和上下文運動暫停信息,復雜交通場景中行為分析的精確性得到進一步的提高。下面分別介紹v-flow視覺單詞模型中基本特征信息的描述以及單詞生成的步驟。
本文在視覺單詞中添加速度信息維度。由于無法直接預估光流強度的取值范圍,無法有效臨一個間隔選取問題。為了獲得一個規模適當的單詞集合,對于速度維連續數據空間的離散化可以映射為一個如何有效進行自適應聚類的問題,將聚出的類別設定為一個離散化間隔區間。因此速度信息的離散化求解就轉換為基于半監督無限混合高斯模型的一個聚類問題,所求解的離散化區間就是混合高斯模型的一個組件。離散化問題的映射模型為

其中uj、sj分別為組件j的均值和方差,πj為其混合系數,其中N為高斯分布,其中k為混合組件數即單詞個數,在該模型中k趨向于無窮大 (在實際實驗中一般設置k為一個較大值即可),模型通過吉布斯采樣的方法來自動生成混合組件個數。其中的某一數據ci屬于j類的后驗概率為

其中組件的合并概率為

對其求解可以通過吉布斯采樣,構建采樣鏈,即采用MCEM算法迭代求解直至收斂。其中組件聚焦參數α影響新類生成個數,通常保證α/(n+α)的值控制在0.4%左右,其中n為數據個數。β為形狀參數,為控制其個數較為有效的參數,通常選定為5-6之間。當聚焦參數α變大,聚類個數會變少。當β值變大時,高斯形狀會變得扁平,聚類個數開始下降。其中收斂終止條件通常采用固定迭代次數的方法,本文中結束條件為迭代1000次。其算法下所示。

輸入:速度值樣本數據點1:N輸出:聚類中心開始For n=1:N依據式 (2)、式 (3)采樣當前數據點i End更新組件數k更新混合組件權重πj=Nj/(N+α)更新未知組件權重π=α/(N+α)For j=1:k更新uj更新sj End迭代直至收斂
在實現離散化后,我們按照速度值從小到大的順序,將速度信息分為慢速、中速和高速幾大類,現記作V={vlow,vmoderate,vhogh}。經過大量試驗即將生成的速度離散化信息回寫畫面,我們發現慢速通常為行人運動速度或者是車輛等較大較快目標即將停止前的運動速度,中速為大部分車輛等運動目標通常行駛條件下的運動速度,高速為車輛的運動目標在接近或超過正常行駛的運動速度,超高速點數極少,通常發生在車輛運動過程中,回溯畫面我們可以此類單詞通常為運動目標行駛過快,可以認為是運動目標超速行駛的異常事件。
在復雜交通場景中,運動目標在運動過程中可能會減速到靜止,然后繼續運動。這種行為是一種比較普遍的現象,但傳統的視覺單詞建模無法表達該信息[7-9],因此一個運動目標的行為在停止之后繼續停止之前的行為通常被識別成兩個不同的行為軌跡。為了解決這種運動目標中間停止缺乏信息描述的問題,專門增加停詞信息來描述運動目標的這種狀態信息,現記作V={vstop}。
通過對運動目標運動停止過程的狀態分析,發現目標以一定的速度運動到停止過程實質是一個從較高光流值下降到低光流值的過程,在即將停止時刻幀圖像會產生一個全低速光流區域塊。因此,如果某一塊聯通區域的光流值在t1時刻均從屬于低速點,則向前遍歷t-PRE幀,如果此幀存在中高速點,則此幀對應區域被設定為觀察區域,在后續幾幀的觀察區域中如果發現低速區域丟失,則將該設定區域標識為停詞區域,即目標可能從運動變成暫時靜止。為了其連續性,如果前一幀為停詞且當前速度仍小于低速閾值vT,則繼續標為停詞。其停詞定義為

為了便于比較提出的v-flow視覺單詞生成算法在行為分析中的性能,本文選擇數據集 Hospedales ICCV09[10]作為實驗數據集。該數據庫截取自倫敦某街道岔口的交通視頻,視頻畫面大小為360(288,25幀每秒,視頻時長2小時。該數據集由文獻[10]第一次引用,后期該領域的相關文獻[7-10]等均引用該數據進行實驗分析。選擇該數據集可以比較方便與現有的相關文獻的方法進行對比,同時由于該數據集相對較典型,容易進行量化分析。為了充分驗證提出的v-flow視覺單詞生成算法對復雜交通場景中不同行為信息的描述,本實驗采樣將交通場景行為聚類訓練結果數據回寫畫面進行一個直觀的驗證。本文采用與Kuettel等人方法[8]中相同模型 (HDP模型)進行一個直觀的比較。在模型訓練過程中,HDP模型中超參均采用相同參數,參數設置與文獻[8]中的設置一致,迭代次數均采用1000次以保證算法完全收斂。在訓練完成后,對訓練模型中生成的主題回寫到訓練視頻幀畫面中進行一個直觀的對比,實驗結果如圖1和圖2所示。圖1中畫面交通線路圖給出了這個點場景中存在的行為軌跡,從圖1中可以看出,Kuettel等人方法[8]聚類結果為7類,其中1、2、3、4類分別為車輛在主干道上的行駛路線。5、6、7為行人路線。
本文提出的算法聚類效果如圖2所示,其方向箭頭表示停止前其目標的運動方向。從圖2中可以看出,提出的v-flow算法聚類個數為16個,同時從表3也可以看出,Kuettel等人方法[8]中的每一個類都能在v-flow算法中找到相關類,同時v-flow算法可以看到更多原本無法表示的一些數據信息,如v-flow算法的2與Kuettel等人方法[8]的1相比,可以發現車輛運動過程中在左上角末端區域,車速漸漸開始下降,同時有一定的停滯現象,同時從v-flow算法7、11、13畫面可以看到該交通區域中左半區域道路呈現出了較大的紅色區域,即存在較嚴重的交通擁堵情況,回溯原實驗幀畫面進行驗證,在第800、41062、44360、69262幀畫面出均出現了較嚴重的擁堵事件,其對應幀畫面如圖3所示。同時可以從圖2畫面中發現一些關于行人過馬路時的細節信息。從v-flow算法畫面4中可以看到在馬路兩旁行人行走路徑中,行人的速度為綠色即慢速行走,在道口過馬路時為黃色即中速行走,這與現實中行人在過馬路時會加快自己的行進速度的現象相吻合,同時在畫面3、6、15中可以看到在人行道上存在少量的藍色運動箭頭,回溯試驗畫面,我們發現在第19612、64237、75112、37462幀等處均發現有行人快速穿行馬路,其對應幀如圖4所示,畫面中均有一個或多個人行走速度較快,和多數行人相比行走速度較快。如上述分析所示我們可以發現本文方法可以解決目標運動過程中運動速度細節信息,運動停止信息完整的表達出來,而這是以前方法無法實現的。聚類結果相似類別人工對應表見表1。

圖1 Kuettel等人方法[8]行為分析實驗結果

表1 聚類結果相似類別人工對應表
上述實驗將本文提出v-flow視覺單詞于傳統的flow視覺單詞進行在復雜交通場景行為分析的對比。從對比中可以得出如下結論,相比于傳統的flow視覺單詞本文的vflow視覺單詞能夠對復雜場景中行為進行更多細節的建模,能夠對運動目標的速度信息進行一個較為合理的表達,其離散化結果與實際運動狀態結構具有一定匹配度。通過利用目標運動上下文速度信息,引入目標暫停標注,能夠有效的建模場景目標的暫停信息。從畫面上可以得到本文算法能夠對運動過程中細節信息進行更加具體的表述而非僅僅一個軌跡方向。在一定層度上解決了文獻[8-11]中無法描述運動過程的速度信息以及目標暫停造成的零速目標丟失問題。

圖2 v-flow視覺單詞行為分析實驗結果

圖3 較嚴重的擁堵事件回溯幀

圖4 行人快速穿馬路時間回溯幀
本文提出的v-flow視覺單詞算法通過自適應速度量化算法以及非基于跟蹤的目標暫停自動標注算法加入速度信息以及目標暫停上下文信息,解決了Kuettel等人方法[7-11]中缺乏目標運動信息,目標零速丟失問題,復雜行為鑒別信息不足的問題。在今后的研究中可以基于視覺中的連續特征,將視覺單詞進行一定的軟化以及對軟化的單詞進行主題建模的結合,減少目標建模過程中的信息損失。同時針對視點移動情況下,在視覺單詞中如何攜帶較準確的空間信息也是一個非常值得研究的課題。
[1]Yang Y B,Pan L Y,Gao Y,et al.Visual word coding based on difference maximization[J].Neurocomputing,2013.
[2]Chakraborty B,Holte M B,Moeslund T B,et al.Selective spatio-temporal interest points[J].Computer Vision and Image Understanding,2012,116 (3):396-410.
[3]Escobar M J,Kornprobst P.Action recognition via bio-inspired features:The richness of center-surround interaction[J].Computer Vision and Image Understanding,2012:593-605.
[4]Wang H,Klaser A,Schmid C,et al.Action recognition by dense trajectories[C]//Colorado:IEEE Conference on Computer Vision and Pattern Recognition,2011:3169-3176.
[5]Yan X S,Luo Y P.Recognizing human actions using a new descriptor based on spatial-temporal interest points and weighted-output classifier[J].Neurocomputing,2012,87 (15):51-61.
[6]WANG Bin,WANG Yuanyuan,XIAO Wenhua,et al.Human altion recognition based on discrimination sparse coding video Repres[J].Robot,2012,34 (6):745-750 (in Chinese).[王斌,王媛媛,肖文華,等.基于判別稀疏編碼視頻表示的人體動作識別[J].機器人,2012,34 (6):745-750.]
[7]Wang X,Ma X,Grimson E.Unsupervised activity perception by hierarchical Bayesian models[C]//Minnesota,USA:Proc of IEEE Computer Society Conference on Computer Vision and Patter Recognition,2007:1-8.
[8]Kuettel D,Breitenstein M,Gool L V,et al.What's going on?Discovering spatio-temporal dependencies in dynamic scenes[C]//In CVPR,2010:1951-1958.
[9]Wang X,Ma X,Grimson E.Unsupervised activity perception in crowded and complicated scenes using hierarchical Bayesian models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009 (31):539-555.
[10]Hospedales T,Gong S,Xiang T.A markov clustering topic model for mining behavior in video[C]//Florida,USA:IEEE Conference on Computer Vision,2009:1165-1172.
[11]Hospedales T,Gong S,Xiang T.Video beha-viour mining using a dynamic topic model[J].International Journal of Computer Vision,2012,98 (3):303-323.