林國余 柏 云 張為公
(1東南大學儀器科學與工程學院,南京 210096)
(2東南大學蘇州研究院,蘇州 215123)
人體行為識別已經成為智能視頻監控中的一個重要研究方向.近年來,國內外研究者對于單人步態和行為已展開深入研究,可識別出標準姿勢、常規動作和簡單的危險行為.人與人之間的交互行為如打架、搶劫、尾隨等也是人的行為識別中的一個重要組成部分.隨著機器視覺的發展,以動態貝葉斯網絡和隱馬爾科夫模型(hidden Markov models,HMM)[1-4]為代表的基于統計模型的交互行為識別方法日益受到重視.如Oliver等[1]采用耦合隱馬爾可夫模型 (coupled HMM,CHMM)實現了對太極拳過程中人雙手動作的識別;杜友田等[2]對交互動作進行分層分解,將其看成一個多模態的多元隨機過程,并采用耦合層級連續性狀態的動態貝葉斯網進行統計建模;Xiang等[3]提出了一種多連接的HMM來識別混亂場景中的多目標交互事件;朱旭東等[4]提出一種新穎的主題HMM實現自然分組視頻中的人體行為識別.
由于HMM能夠提供動態時間規整,因此可用于描述物體在時間域上的運動模式,并可進行動態行為建模和分析.HMM及其改進算法已經成為時間序列建模的常用方法之一.在交互行為中,每個目標在某一時刻的運動狀態不僅依賴于自身在前一時刻的狀態,同時也取決于另一目標在前一時刻的狀態,HMM的結構卻不能體現出這種相互的關系.另一方面,隨著目標人數的增長,觀察序列的長度、HMM中狀態的數目和參數都會迅速增長,從而增加了參數估計的復雜程度.CHMM是由 Brand等[5]提出的一種用于描述2個或多個相互關聯(條件概率依賴)的隨機過程統計特性的概率模型,它可以看成是通過在多個 HMM 狀態序列之間引入耦合條件概率而得到的一種多HMM鏈模型,可用于對2個相互關聯的隨機過程進行建模和分類,因此適合用來學習和描述多個數據之間的交互作用.目前CHMM已經在字符識別、語音識別、行為分析以及故障診斷等領域取得很好的識別效果[6-9].因此,本文提出一種基于CHMM的異常交互行為檢測方法,通過與基于HMM方法的對比,表明利用CHMM檢測兩人之間的交互行為更加簡單高效.

圖1 耦合隱馬爾可夫模型
CHMM可以用每條鏈的參數和鏈之間的耦合關系參數來共同表示[10]:
λ={N(0),π(0),A(0),B(0),N(1),π(1),
A(1),B(1),A(0,1),A(1,0)}

由于CHMM是HMM的一種衍生模型,因此可借鑒HMM中的向前、向后算法和Baum-Welch算法來解決CHMM中的模型參數估計和概率估算問題.
1) 估算問題
(1)
2) 學習問題

(2)
其中,1≤i,m≤N(0),1≤j,n≤N(1).在此基礎上,將新參數代入進行迭代計算,如此反復,直至參數收斂.如果估算概率滿足以下條件,則終止計算:

(3)
如何從視頻序列中提取出能夠合理表示行為特征的數據對交互行為識別的準確性有重要的影響.現有監控攝像機的監控場景往往較大,受分辨率限制,視頻中人體的肢體細節特征表現不明顯,難以構建人體模型.考慮到打斗、搶劫這2類異常交互行為發生時,運動激烈,運動特征差異較大,同時由于人體是非剛性的,人的體態形狀應能很好地描述當前的行為細節.因此本文直接以視頻圖像中的運動信息和形態信息作為特征,不僅充分表現了人體行為特征,而且有效避免了計算的復雜性.本文一共選取了5個運動特征和1個形態特征.5個運動特征如下:

通過計算感興趣區域內的光流特征,并對光流特征進行統計得到目標光流特征的加權方向直方圖[12],最后計算出運動方向和速度幅值.
(4)

(5)
(6)

(7)

5) 2人之間的運動方向角度差
(8)


(9)

(10)
式中,矩陣每一列代表某一幀中HOG特征向量經過降維后能夠反映目標95%以上特征的100個特征值.
基于CHMM異常交互行為識別的核心在于構建CHMM模型,其流程如圖2所示.圖2(a)描述了模型的離線訓練過程,首先提取出訓練樣本中感興趣的運動特征和形態特征,構成訓練數據,通過離線訓練構建各種不同類型的異常行為模型.圖2(b)描述了利用訓練好的模型進行異常交互行為判別的流程,將提取出的目標特征代入到不同異常行為模型中計算概率值,進而判斷是否屬于相應的異常交互行為.

圖2 基于CHMM異常交互行為檢測的訓練和識別流程

(11)
式中,β1和β2分別表示運動特征模型和形態特征模型的權重,其計算公式為

(12)

(13)
概率值P(o|λ)大于閾值T時,則認為該行為屬于異常行為.假設訓練過程中參數收斂時模型λ1的概率值為P1,模型λ2的概率值為P2,則閾值T可按下式計算:
T=(β1P1+β2P2)×1.25
(14)


表1 CHMM參數選擇
綜合特征訓練的實際情況,最終確定實驗中表示異常交互行為的CHMM狀態數目設置為8,混合高斯元數也設置為8.
實驗中的視頻選自中國科學院自動化研究所的行為分析數據庫CASIA和CAVIAR數據庫、IVIPC數據庫、SDHA數據庫以及作者在校園環境中拍攝的視頻數據,主要包括打斗、搶劫、握手、并行等交互行為.圖3為相關視頻的截圖.
模型訓練時將打斗和搶劫歸納為異常交互行為,并從30個打斗視頻、20個搶劫視頻中采集了運動特征和形態特征組成數據集,對不同數據集分別進行訓練得到模型λ1和λ2、每個CHMM的初始狀態概率π、狀態轉移概率矩陣以及每一條鏈中的觀察值概率函數的參數值.根據模型訓練最終收斂時的對數似然值和式(14)可以得到閾值T為-94.
根據式(4)和(12)的融合決策方式計算幾種典型行為在模型下的概率值,分別為打斗行為F1和F2,搶奪行為F3和F4,并行F5,握手F6,計算結果見表2.從表中可看出,打斗、搶劫這2種行為的概率值大于閾值,被判斷為異常行為,并行和握手行為的概率值小于閾值,被判斷為正常行為.

表2 幾類行為的對數似然值
表3為實驗獲得的識別率,其中打斗、搶劫行為識別率較高,而2人握手的行為由于過程中人的面積變化率、長寬比變化率等都有較大的變化,因此被誤檢為異常行為的概率較高.

表3 基于CHMM的異常行為識別準確率


表4 基于HMM的異常行為識別準確率
由于CHMM中每個隨機過程狀態之間存在的相互依賴關系恰好可以反映2人之間的交互影響狀態,因此本文提出一種基于CHMM的少人異常行為識別算法,其識別準確率要優于HMM.然而,利用CHMM對多人之間的多種復雜交互動作進行識別還有待研究,一方面需要在特征選取和模型建立方面進行改進,另一方面要對CHMM結構進行改進優化,比如增加隱馬爾科夫鏈路以及改進模型學習方法等,這些將在后續工作中進一步展開.

圖3 各種數據庫中的打斗、搶劫、握手、并行等視頻
)
[1] Oliver N M, Rosario B, Pentland A P. A Bayesian computer vision system for modeling human interactions [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2000,22(8): 831-843.
[2] 杜友田, 陳峰, 徐文立. 基于多層動態貝葉斯網絡的人的行為多尺度分析及識別方法[J].自動化學報, 2009, 35(3): 225-227.
Du Youtian, Chen Feng, Xu Wenli. Approach to human activity multi-scale analysis and recognition based on multi-layer dynamic Bayesian network [J].ActaAutomaticaSinica, 2009,35(3): 225-227. (in Chinese)
[3] Xiang Tao, Gong Shaogang. Beyond tracking: modeling activity and understanding behavior [J].ComputerVision, 2006,67(1): 21-51.
[4] 朱旭東, 劉志鏡. 基于主題隱馬爾科夫模型的人體異常行為識別[J]. 計算機科學, 2012, 39(3): 251-255, 275.
Zhu Xudong, Liu Zhijing. Human abnormal behavior recognition based on topic hidden Markov model[J].ComputerScience, 2012,39(3): 251-255, 275. (in Chinese)
[5] Brand M, Oliver N, Pentland A. Coupled hidden Markov models for complex action recognition [C]//ProceedingsoftheIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition. San Juan, PR, USA, 1997: 994-999.
[6] Che Hao, Tao Jianhua, Pan Shifeng. Letter-to-sound conversion using coupled hidden Markov models for lexicon compression[C]//Proceedingsofthe2012InternationalConferenceonSpeechDatabaseandAssessments. Macau, China, 2012: 141-144.
[7] Luo Ronghua, Min Huaqing, Xu Yonghui, et al. Coupled hidden semi-Markov conditional random fields based context model for semantic map building[C]//ProceedingsofInternationalConferenceonMachineLearningandCybernetics. Xi’an, China, 2012: 785-791.
[8] Alippi C, Ntalampiras S, Roveri M. A cognitive fault diagnosis system for distributed sensor networks [J].IEEETransactionsonNeuralNetworksandLearningSystems, 2013,24(8): 1213-1226.
[9] Cao Longbing, Ou Yuming, Yu P S. Coupled behavior analysis with applications [J].IEEETransactionsonKnowledgeandDataEngineering, 2012,24(8): 1378-1392.
[10] 任海兵. 非特定人自然的人體動作識別[D]. 北京: 清華大學計算機科學與技術系, 2003.
[11] 王建東. 基于視頻圖像的人體異常行為識別技術研究[D]. 重慶: 重慶大學通信工程學院, 2009.
[12] 杜鑒豪, 許力. 基于區域光流特征的異常行為檢測[J]. 浙江大學學報:工學版, 2011, 45(7): 1161-1166.
Du Jianhao, Xu Li. Abnormal behavior detection based on regional optical flow [J].JournalofZhejiangUniversity:EngineeringScience, 2011,45(7): 1161-1166. (in Chinese)
[13] Dalal N, Triggs B. Histograms of oriented gradients for human detection [C]//IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition. San Diego, CA,USA, 2005,1: 886-893.