基于關鍵幀特征庫統計特征的雙人交互行為識別

2016-09-29 19:08:54姬曉飛左鑫孟

計算機應用 2016年8期

姬曉飛　左鑫孟

摘要：針對雙人交互行為識別算法中普遍存在的算法計算復雜度高、識別準確性低的問題，提出一種新的基于關鍵幀特征庫統計特征的雙人交互行為識別方法。首先，對預處理后的交互視頻分別提取全局GIST和分區域方向梯度直方圖（HOG）特征。然后，采用k-means聚類算法對每類動作訓練視頻的所有幀的特征表示進行聚類，得到若干個近似描述同類動作視頻的關鍵幀特征，構造出訓練動作類別對應的關鍵幀特征庫；同時，根據相似性度量統計出特征庫中各個關鍵幀在交互視頻中出現的頻率，得到一個動作視頻的統計直方圖特征表示。最后，利用訓練后的直方圖相交核支持向量機（SVM），對待識別視頻采用決策級加權融合的方法得到交互行為的識別結果。在標準數據庫測試的結果表明，該方法簡單有效，對交互行為的正確識別率達到了85%。

關鍵詞：GIST特征；方向梯度直方圖；關鍵幀特征庫；直方圖相交核；UT-interaction數據庫

中圖分類號：TP18； TP391.413

文獻標志碼：A

0引言

在大數據時代的背景下，計算機視覺領域備受關注，其中人體交互行為識別算法研究已成為熱點問題。它使用視頻分析的方法從存在交互行為的視頻中檢測、識別人體及動作對象，并對其交互行為識別與理解。交互行為的識別算法研究具有較高的實用價值和現實意義，其研究成果在智能監控系統、視頻檢索、智能家居以及虛擬現實中有著廣泛的應用前景[1]。

目前，對于交互動作識別的研究有許多的技術和方法。一些學者提出了基于共生原子動作的識別方法：文獻[2]提出了一種基于共生視覺詞典的方法，該方法通過統計動作執行人間共生視覺詞的發生頻率對雙人交互行為進行表示和識別；文獻[3]將視頻表示成一系列具有一致空間結構和一致運動的組件，通過對比成對組件的時空關系對交互視頻進行識別。該類方法特征表示簡單，但識別的準確率十分低。

有一些研究者提出了構造時空匹配核函數的方法進行交互行為的識別：文獻[4]中提出時空上下文對局部時空特征及其相互關系進行描述，通過構造時空上下文核函數（Spatio-Temporal Context Kernel， STCK）進行復雜交互視頻的識別；文獻[5]采用基于語義基元的詞典（Bag Of Semantic Texton， BOST）對視頻的局部時空體進行描述，并利用金字塔時空關系匹配（Pyramidal Spatiotemporal Relationship Matching， PSRM）核對交互動作進行識別。以上兩種方法的問題在于時空匹配核函數較為復雜，且準確度不高。

為此，一些研究者提出采用相對復雜的時空特征的方法對交互行為進行描述，以期提高準確度：文獻[6]結合運動上下文的全局特征和局部時空興趣點的時空特征相關性對交互行為進行描述，以提高識別的準確性；文獻[7]組合了密集軌跡（Dense Trajectory Shape， DTS）、方向梯度直方圖（Histogram of Oriented Gradient， HOG）、光流直方圖（Histogram of Optic Flow， HOF）和運動輪廓直方圖（Motion Boundary Histogram， MBH）等四種特征對多尺度密集軌線進行特征提取，并采用矢量量化（Vector Quantization， VQ）、局部軟分配Locality Soft-Assignment， LSA）、稀疏編碼（Sparse Coding， SC）和局部約束線性編碼（Locality-constrained Linear Coding， LLC）等四種先進的特征編碼對交互動作描述，進行識別與理解。然而，無論是構造時空匹配核的方法，還是復雜時空特征的方法，計算復雜度都很高，大大地限制了算法的實用性。

而在一些單人動作識別研究中，曾提出使用提取關鍵幀的方法能夠降低動作識別的復雜度：文獻[8]提出使用關鍵幀提取和縮略視頻的提取技術來解決人體動作識別算法的時間復雜度的問題；文獻[9]提出利用弧長的方向函數對關鍵幀中的人體輪廓進行描述。以上兩種基于關鍵幀的方法優點在于效率高，空間信息描述較為充分。

根據以上分析，考慮到詞袋（Bag Of Words， BOW）框架[2，7]是一種較好的描述特征簡易模型，因此本文采用BOW框架來解決交互行為識別技術計算復雜度高、準確性較低的問題，提出一種新的基于關鍵幀特征庫統計的雙人交互行為描述及識別方法。在訓練過程中，該方法對訓練視頻中的所有幀圖像提取簡單的全局GIST和HOG特征，采用改進的k-means聚類方法建立關鍵幀特征庫；再根據相似度量函數，對于每個訓練視頻統計視頻幀特征在特征庫中出現的頻率，生成該訓練視頻的直方圖統計描述；然后利用訓練視頻得到的直方圖特征描述訓練直方圖相交核支持向量機（Support Vector Machine， SVM）[10]分類器。在識別過程中，對輸入測試視頻幀特征進行直方圖統計描述，再將其輸入到SVM分類器中，融合兩種特征分別得到的識別結果，給出測試視頻的最終識別的結果。該算法的優勢在于特征簡單，無需進行建模，識別效果較好，基本可以實現實時處理。

1視頻預處理

為了提高識別的準確性和有效性，在特征提取及描述之前對視頻預處理必不可少。采用幀差法以及判斷兩個個體的體心距離的方法，分別得到2-D空間的感興趣區域（Region of Interest， ROI）和1-D時間上的感興趣片段。算法的具體步驟如下：

步驟12-D空間預處理。對視頻采用幀間差法來獲得感興趣的前景區域邊界輪廓，然后找到包含前景區域的最小矩形，進行前景定位。這樣能夠減少視頻中的冗余信息，效果如圖1所示。

步驟21-D時間預處理。考慮到一些交互行為在交互前階段和交互后階段可能會有很大的相似性，比如：“推人”和“踢打”的動作，這導致二者的特征描述可區分性較差，因此，本文提出判斷兩個個體的體心距離T（綜合考慮不同交互行為發生時個體之間的距離得到的體心距離）的大小來得到主要交互的視頻片段。具體算法如下：

2特征提取及描述

2.1算法簡介

傳統的BOW描述框架往往與局部特征（如興趣點）進行結合，但是該描述依賴于局部特征的準確提取，存在空間信息和語義信息不足的問題。本文提出的方法則以整幀的特征作為形成詞袋的備選單詞，并在初始聚類時進行等時間段特征采樣，最終完成視頻的特征描述。該算法在一定程度上體現了空間信息的整體性以及時間信息的完備性。

算法的基本思想是先對視頻中的幀圖像提取兩種簡單的特征（GIST特征[11]、HOG特征[12]），并采用k-means聚類方法（初始時采用等時間段特征采樣）建立關鍵幀特征庫，再根據相似度量函數統計視頻幀特征在特征庫中出現的頻率，最后得到交互動作視頻的統計直方圖表示。具體算法如圖2所示。

2.2GIST特征

目前常用于動作識別的全局特征主要包括人體輪廓、全局光流等。全局GIST特征一般應用在圖像的分類檢索[13]，它通過對動作圖像的多方向和多尺度濾波，可以捕捉動作的整體結構信息，尤其對于真實場景的圖像序列，GIST特征比同為全局特征的輪廓特征更穩定可靠，而且其計算復雜度低于全局光流特征。

近幾年，一些學者已將它應用在了人體動作識別[11，14]中，并且取得了較好的結果，因此本文選擇對交互行為的視頻提取全局GIST特征。其基本思想是：利用Gabor濾波器多尺度多方向的特點對幀圖像進行處理，得到多幅特征圖；然后將特征圖采取分塊處理，每塊像素點的平均值作為幀圖像的一個特征。這樣將特征聯接在一起，得到了一個1×nGIST

2.3HOG特征

HOG特征采用分區域的方法對像素點求取梯度的幅值和方向[12]，能夠更好地描述細節和分布特征。該特征在單人的動作識別研究中已經取得了較好的效果，因此將GIST特征與HOG特征結合很有意義。算法的具體描述如下：

2.4關鍵幀特征庫統計特征描述

在同類動作的視頻中，存在一些出現頻率較高的關鍵幀，而BOW模型是一種統計關鍵詞頻的簡易模型，在動作識別領域取得了不錯的效果。為此，本文在BOW框架下提出了基于關鍵幀特征庫的描述方法。基本思想是將視頻中整幀圖像的特征進行聚類，得到的一系列類心作為關鍵幀的特征，形成關鍵幀特征庫，再采用統計直方圖對整個交互視頻進行特征描述，使得視頻的信息表示更加完整和準確。其算法的具體步驟如下。

步驟1提取圖像序列每一幀的特征向量，組合起來表征整個視頻的特征向量組。

步驟2采用初始化等間距采點的k-means聚類方法，得到mk-means個類心；然后對ptrain個訓練視頻聚類得到的共mk-means×ptrain個類心，再次聚類，最終得到關鍵幀特征庫。其中特征庫的特征向量個數為qword。

步驟3根據相似度量函數對視頻集視頻幀特征在關鍵幀特征庫中出現的頻率進行統計，得到一組qword維視頻統計直方圖表示。

3交互行為識別

在交互行為識別過程中，通常會根據特征描述的數據特點進行識別方法的判斷與選擇。在本文中，由于每個視頻（測試、訓練）經過關鍵幀特征庫的描述，都會得到一個qword維的視頻統計直方圖描述，即測試集和訓練集中的數據維數是相同的。考慮到實驗中視頻樣本的數量是很有限的，而支持向量機在解決小樣本、高維及非線性的模式識別問題中表現出一些特有的優勢[15]；同時直方圖相交核[16]能夠較好地描述兩個直方圖的相似性，有效地解決圖像分類以及模式識別問題[17]。所以，本文選擇了直方圖相交核函數支持向量機進行交互行為的識別。其中，直方圖相交核函數的定義如下：

實驗過程中采用留一交叉驗證法對數據庫進行實驗。所有實驗在主頻為2.40GHz，內存2GB，32位Windows 7操作系統下的Matlab 2014a軟件平臺上完成。

4.1不同特征識別結果

本文先通過Gabor濾波器（尺度個數為1，方向個數為8）獲得8幅特征圖，并選用8×8的網格分塊提取GIST特征，獲得了特征維數為512維的向量。在提取HOG特征時，采用6×6的網格進行分塊，并選取12個方向區域進行直方圖統計，其特征維數為432維。在生成關鍵幀特征庫時，實驗參數mk-means取值為10，qword為30。在進行決策級融合之前，分別測試了GIST特征描述和HOG特征描述下的交互行為識別結果，為確定決策級融合時加權數值的分配提供參考。

由表1的實驗結果可以看出，除了“踢打”和“推人”的動作外，GIST特征的識別效果在其他四類動作中表現得較好，而在“踢打”的動作中，HOG的識別效果占優，在“拳擊”的動作中，GIST的識別效果更好一些。總的來說，HOG以80%的識別率略高于GIST的76.67%的識別率。這也說明了本文對GIST特征和HOG特征進行決策級融合的意義所在。

4.2決策級特征融合識別結果

為了兼顧GIST特征和HOG特征各自的優勢和特點，本文對這兩種特征的支持向量機進行決策級特征融合，根據4.1節所得到的結果，這里選擇決策級融合的系數比為0.6∶0.4，HOG融合系數較高一些。這里，采用歸一化后的混淆矩陣來表示最終的識別結果，如圖6所示。

從混淆矩陣中可以看出，經過決策級特征融合后的識別結果為85.00%，優于單一特征的識別結果。在“拳擊”和“推人”的兩類動作中，仍然存在較高的識別誤差（“拳擊”這一行表示為在實驗過程中，有30%的“拳擊”動作視頻被識別成“推人”的交互動作；而在“推人”這一行中，則有20%的“推人”動作視頻被識別成“拳擊”交互動作），原因在于這兩組動作存在較高的相似性。在計算時間復雜度方面，單幀圖像平均識別所用的時間為0.193s，基本上可以實現實時處理。

4.3實驗結果與其他文獻的比較

為了保持算法測試數據的一致性，本文將同樣在UT-interaction數據庫上進行算法測試的文獻所得到的識別結果與本文方法進行比較和分析，如表2所示。

從表2可以看出，本文提出的新框架特征表示得到了較好的結果。與文獻[2-5]相比，本文的方法識別準確性有了較大幅度的提升，且無需進行建模和構造復雜時空匹配核。盡管文獻[6]（結合全局特征和時空特征相關性）和文獻[7]（組合了4種特征）得到的識別結果很高，但是其算法較為復雜，例如文獻[6]中的遺傳算法（Genetic Algorithm， GA）部分，需要大量時間進行訓練，而文獻[7]中本身已經組合了四種特征，且其中的HOF的計算量很大，更加增大了計算的復雜度。而本文方法的優點在于無需建模以及構造匹配核函數，且特征簡單、復雜度較低，基本可以實現實時操作。

5結語

本文提出一種新的基于關鍵幀特征庫統計的人體交互行為識別方法，來解決交互行為識別技術復雜、準確性較低的問題。該方法在較為成熟的BOW框架下，充分利用全局特征GIST簡單有效的優勢以及HOG特征注重細節描述和特征分布情況的優點，進行合理的結合，獲得了較理想的識別結果。實驗結果表明本文方法簡單、實時性好。不足之處在于識別的準確性還有待進一步的提高，后續工作中考慮在此方法的基礎上，進一步并完善運動特征的選取及關鍵幀特征庫的構建，以期進一步提高識別的準確率及算法的魯棒性。

參考文獻：

[1]RAPTIS M， SIGAL L. Poselet key-framing： a model for human activity recognition [C]// CVPR 2013： Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2013： 2650-2657.

[2]SLIMANI K， BENEZETH Y， SOUAMI F. Human interaction recognition based on the co-occurrence of visual words [C]// CVPRW 2014： Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington， DC： IEEE Computer Society， 2014： 461-466.

[3]YUAN F， PRINET V， YUAN J. Middle-level representation for human activities recognition： the role of spatio-temporal relationships [C]// ECCV 2010： Proceedings of the 11st European Conference Computer Vision. Berlin： Springer， 2010： 168-180.

[4]YUAN F， SAHBI H， PRINET V. Spatio-temporal context kernel for activity recognition [C]// ACPR 2011： Proceedings of the 1st Asian Conference Pattern Recognition. Washington， DC： IEEE Computer Society， 2011： 436-440.

[5]YU T， KIM T， CIPOLLA R. Real-time action recognition by spatiotemporal semantic and structural forests [C]// BMVC 2010： Proceedings of the 21st British Machine Vision Conference. Durham， UK： BMVA Press， 2010： 1-12.

[6]LI N， CHENG X， GUO H， et al. A hybrid method for human interaction recognition using spatio-temporal interest points [C]// ICPR 2014： Proceedings of the 22nd International Conference on Pattern Recognition. Piscataway， NJ： IEEE， 2014： 2513-2518.

[7]PENG X， PENG Q， QIAO Y. Exploring dense trajectory feature and encoding methods for human interaction recognition [C]// ICIMCS 2013： Proceedings of the 5th International Conference on Internet Multimedia Computing and Service. Piscataway， NJ： IEEE， 2013： 23-27.

[8]NEDA A， ZOHREH A. A new approach to speed up in action recognition based on key-frame extraction [C]// MVIP 2013： Proceedings of the 2013 8th Iranian Conference on Machine Vision and Image Processing. Washington， DC： IEEE Computer Society， 2013： 2166-6776.

[9]成勛，常飛，吳志杰.基于關鍵幀的人體行為識別方法[J].計算機工程與應用，2013，49（18）：134-137.（CHENG X， CHANG F， WU Z J. Human behavior recognition based on key frame [J]. Computer Engineering and Applications， 2013， 49（18）： 134-137.）

[10]余思泉，曹江濤，李平，等.基于空間金字塔特征包的手勢識別算法[J].智能系統學報，2015，10（3）：429-435.（YU S Q， CAO J T， LI P， et al. Hand gesture recognition based on the spatial pyramid bag of features [J]. CAAI Transactions on Intelligent Systems， 2015， 10（3）： 429-435.）

[11]WANG Y， LI Y， JI X. Recognizing human actions based on GIST descriptor and word phrase [C]// MEC 2013： Proceedings of the 2013 International Conference on Mechatronic Sciences， Electric Engineering and Computer. Piscataway， NJ： IEEE， 2013： 1104-1107.

[12]WEIZMAN L， GOLDBERGER J. Urban-area segmentation using visual words [J]. IEEE Geoscience and Remote Sensing Letters， 2009， 6（3）： 388-392.

[13]HAN Y， LIU G. A hierarchical GIST model embedding multiple biological feasibilities for scene classification [C]// ICPR 2010： Proceedings of the 2010 20th International Conference on Pattern Recognition. Piscataway， NJ： IEEE， 2010： 3109-3112.

[14]JI X， ZUO X， WANG C， et al. A simple human interaction recognition based on global GIST feature model [C]// ICIRA 2015： Proceedings of the 8th International Conference Intelligent Robotics and Applications. Berlin： Springer， 2015： 487-498.

[15]衣治安，呂曼.基于多分類支持向量機的入侵檢測方法[J].計算機工程，2007，33（5）：167-169.（YI Z A， LYU M. Intrusion detection method based on multi-class support vector machines [J]. Computer Engineering， 2007， 33（5）： 167-169.）

[16]GAO X， MIAO Z. Generalized histogram intersection kernel for image classification [C]// ICSP 2014： Proceedings of the 12th International Conference Signal Processing. Piscataway， NJ： IEEE， 2015： 866-870.

[17]SHARMA G， JURIE F. A novel approach for efficient SVM classification with histogram intersection kernel [C]// BMVC 2013： Proceedings of the 24th British Machine Vision Conference. Durham， UK： BMVA Press， 2013： 1-10.

[18]RYOO M， AGGARWAL J. Spatio-temporal relationship match： Video structure comparison for recognition of complex human activities [C]// ICCV 2009： Proceedings of the 12th International Conference on Computer Vision. Piscataway， NJ： IEEE， 2009： 1593-1600.