周 霞,柳絮青,王 憲,孫子文,鄧 源
◎圖形圖像處理◎
基于特征融合的人體行為識別算法
周 霞,柳絮青,王 憲,孫子文,鄧 源
針對HOG特征在人體行為識別中僅僅表征人體局部梯度特征的不足,提出了一種擴展HOG(ExHOG)特征與CLBP特征相融合的人體行為識別方法。用背景差分法從視頻中提取出完整的人體運動序列,并提取出擴展梯度方向直方圖ExHOG及完備局部二值模式CLBP兩種互補特征;利用K-L變換將這兩種互補特征融合生成一個分類能力更強的行為特征;采用徑向基函數神經網絡RBFNN對行為特征進行識別分類。在KTH和Weizman行為公共數據庫上進行了多組實驗,結果表明提出的方法能夠有效地識別人體運動類別。
行為識別;梯度方向直方圖;完備局部二值模式;徑向基函數神經網絡
近年來,人體運動的視覺分析已經成為計算機視覺領域中的研究熱點[1]。人體行為識別作為一個重要的研究方向,在智能視頻監控、視頻注解、人機交互和虛擬現實等領域有著廣泛的應用價值。人體行為識別解決的主要問題,是通過計算機對傳感器(攝像機)采集的原始圖像或圖像序列數據進行處理、分析、學習并理解其中人的動作行為[2]。目前對于人體行為識別的方法主要有三種:(1)模板匹配的方法;(2)狀態空間的方法;(3)基于模型的方法。這些方法通常在提高識別準確度和降低計算復雜度間進行折中。作為相互制約的兩個指標,如何同時提高行為識別準確度和降低計算復雜度,始終是這一領域研究所關注的焦點。
Huang[3]等人對運動歷史圖像序列(Motion History Image,MHI)數據進行處理,從中提取HOG特征作為人體行為描述,并利用SVM進行行為分類。但是高維的特征限制了樣本的訓練數量,也增加了計算的復雜度。Naiel[4]等人提出采用2DPCA-HOG特征作為人體行為描述,再通過K-NN分類。但是單獨采用HOG特征表征人體行為姿態會忽略圖像中較多的其他細節信息,影響識別效果。
本文提出一種ExHOG特征與CLBP特征相融合的人體行為識別方法。首先對人體行為的圖像序列進行規范化處理,從中提取具有互補性的ExHOG特征和CLBP特征,采用離散K-L變換對這兩種互補特征進行信息壓縮、融合,這樣在消除多特征中冗余信息的同時也最大程度上保留了有效鑒別信息;最后通過RBFNN對行為特征進行識別分類。實驗結果表明該方法具有較好的性能。
背景減除法在攝像機靜止的情況下,通過輸入圖像和背景圖像的比較,將區別較大的部分判定為運動目標區域。實際運用中,先產生一個背景模型,然后利用統計學中的假設檢驗方法來判斷當前輸入圖像的像素是否屬于背景。它的優點就在于能獲得較完整的運動目標區域。通過背景減除法截取運動圖像并歸一化成48×48的灰度圖,如圖1所示。

圖1 背景減除法提取圖像信息
2.1 擴展的梯度方向直方圖特征
梯度方向直方圖HOG是一種局部描述符,它描述了圖像局部區域的梯度強度和梯度方向的分布情況。該分布情況能很好地表征局部區域目標的外觀和形狀,因而可將HOG特征應用于人體行為識別。傳統的HOG的算法問題在于,一個cell里相反方向的梯度會映射到直方圖同一個通道,從而導致兩個不同的模型可能擁有相同的特征表示,因此無法區分一些不同的模型。本文采用一種ExHOG特征[5]算法來解決上述問題,描述如下。
設梯度方向θ選0°~360°有符號的梯度方向空間,充分考慮不同方向的梯度,提取的梯度直方圖特征為HG,梯度方向θ選0°~180°無符號的梯度方向空間,提取的梯度方向直方圖特征為HOG,i為量化的梯度方向θ的通道,MHG()
i為HG第i通道的值,L為HG通道的數目,則HOG可以通過公式(1)計算得出。為了解決HOG存在的問題,設DiffHG為HG每個cell中的差的絕對值,如式(2)所示;將HOG和DiffHG串聯起來就得到一個cell中的ExHOG,如式(3)所示。

由于復雜背景下的人體圖像往往存在輪廓噪聲點和強度突變,提取的HG(圖2(a))特征會出現極大的梯度峰值。由公式(1)、(2)可見,由于HOG和DiffHG特征分別由HG特征經加操作和減操作變換得出,因此HOG和DiffHG特征也會出現極大的梯度峰值。這樣上述提取的ExHOG特征并不能對噪聲抑制,即使對梯度峰值截短,也只能抑制ExHOG中HOG部分的梯度峰值,對DiffHG部分的梯度峰值沒有影響。因此,在提取每一個cell的HG特征后,即采用L2范數對梯度直方圖進行歸一化,并對梯度峰值進行截短,再重新歸一化HG特征。這樣提取的ExHOG特征對其HOG和DiffHG部分的梯度峰值達到同時抑制,使其對噪聲干擾具有很好的魯棒性。
2.2 CLBP特征

圖2 一個cell中的ExHOG提取過程
LBP[6]是一種有效的紋理描述算子,能夠提取圖像中局部鄰近區域的紋理特征,具有高分辨率、對灰度單調變化不敏感和高可計算性等優點。然而基本的LBP算子提取的局部特征并不完整,它僅僅對局部差異的符號值進行分析,忽略了局部幅度差值的信息。為了完善LBP算子所提取的特征,本文提出的分塊CLBP增加了對中心像素灰度值和局部差異的幅度值進行編碼,提取了豐富的局部特征,完善了基本LBP算子提取的特征。敘述如下:
定義gc為中心像素的灰度值,gp為中心像素鄰域內的第 p個采樣點的灰度值,dp=gp-gc為gc與 gp之間灰度差值。局部差異向量[d0,d1,…,dp-1]表示中心像素 gc的局部結構,dp可以進一步表示為:


其中,c是閾值,設置為整幅圖像的mp均值。中心像素的灰度值表征圖像的局部灰度水平,同樣具有鑒別信息。利用全局閾值將中心像素的灰度值轉換成二進制數值。定義:CLBP_CP,R=t(gc,cI)。t函數的定義如式(6),閾值cI的取值為整個圖像的平均灰度值。由于CLBP_CP,R的取值只有0和1,所以該算子提取的特征只有兩維。算子與均勻LBP算子相同,記為
分塊CLBP特征提取的過程如圖3所示。首先將人體圖像進行分塊處理,對每一個分塊分別進行中心像素灰度值和局部差異值分析。然后利用算子來提取每個分塊的局部差異符號值特征、幅值特征以及中心像素灰度值特征,并求取它們的統計直方圖,將求取的三種特征的直方圖連接起來,作為這一分塊的直方圖特征CLBP_SMC。最后再將所有分塊的特征連接起來,作為這幅人體圖像的特征。
2.3 特征融合
本文采用離散Karhunen-Loeve(K-L)變換,對提取的特征進行信息壓縮與融合。K-L變換是一種在均方誤差準則下的最優正交變換,具有保熵性、保能量性、去相關性以及能量重新分配和集中等優點。在ExHOG特征和CLBP特征融合之前,需要對其分別進行歸一化處理。采用Z-score[7]方法進行歸一化,設 XExHOG表示ExHOG特征,XCLBP表示CLBP特征,則歸一化后的特征向量為:

其中,μExHOG和 μCLBP分別表示ExHOG特征向量均值和CLBP特征向量均值;σExHOG和σCLBP分別表示ExHOG特征向量和CLBP特征向量的標準差。
采用離散K-L變換對歸一化后的ExHOG和CLBP特征數據進行融合。設Y為N維隨機向量,則Y的K-L展開可表示為:其中,T為正交變換矩陣,其元素由Y的協方差的特征向量組成,即。Y的協方差矩陣為:


圖3 分塊CLBP特征提取過程


對提取的特征向量進行K-L變換后,得到若干組新的特征數據,其中每個特征點均是原來N個特征的線性組合,然后在其中選出前K個數據組成一個子集來描述被處理對象的特性。雖然特征個數由N個降為K個,但在這K個特征中均包含了原N個特征的影響。
徑向基函數神經網絡(RBFNN),屬于前饋神經網絡[8-9],具有良好逼近的能力同時也具有較強的聚類分析屬性。本文所用的RBFNN的結構示于圖4,它有三層:輸入層、隱含層和輸出層。這里是輸入向量,為一個視頻序列的融合特征;G為隱藏層的映射函數;y是 p維輸出向量,而K是樣本數。
RBF第i個輸出單元為:

其中,‖‖˙是歐幾里得范數,U是一個m維輸入矢量,Ci為第i個隱單元的中心矢量,與U維數相同。n是隱單元數,Gi(x)為第i個 RBF單元,本文選擇Gi(x)為高斯函數:

RBF的第 j個輸出 yj() x為:

其中,wji是第i個隱藏節點到第 j個輸出的權重。

圖4 RBF網絡結構
為了使用RBF神經網絡進行人體動作識別,設置輸入層的節點數為特征向量U的維數,每一個輸入節點對應樣本特征向量的一個分量;輸出節點數量等于數據庫中行為的類別數,所有輸出節點組成一個輸出列向量,一個輸出列向量對應一個類別。RBF神經網絡的訓練主要是決定高斯函數的中心和標準偏差。本文采用K-average算法來獲得基函數中心,使用如下公式來確定基函數方差。

當上述步驟完成后,就可以把RBFNN看做一個從輸入到輸出的線性方程,然后通過最小二乘法獲得輸出層的權重。
在KTH公共數據庫(分辨率為160×120,25幀/s)和Weizmann公共數據庫(分辨率為180×144,25幀/s)上,對本文提出的行為序列識別方法進行驗證。KTH數據庫由25個人分別完成6種行為:box、clap、jog、run、walk、wave。Weizmann數據庫由9個人分別完成10種行為:bend、jack、jump、run、side、skip、walk、wavel、wave2、piump。實驗在Core2 2.0 GHz的CPU,2 G內存,Matlab 2010a的計算機上進行仿真。算法基本過程如下:
步驟1用背景差分法提取出視頻序列10幀到20幀的人體運動序列,并歸一化成48×48的灰度圖。
步驟2分別提取人體運動序列的ExHOG特征和CLBP特征。
步驟3使用K-L變換將兩種特征融合成一個特征向量作為一個視頻序列的特征向量。
步驟4采用RBFNN進行行為的訓練和識別。
實驗中,將KTH數據庫中每個人行為分成了4個場景,本文選取室外、視角水平的場景,從中隨機選取10個人的行為作為訓練樣本,剩余15人的行為作為測試樣本,20次隨機實驗結果如表1所示。Weizmann數據庫中視頻隨機分成9組,每組擁有10種行為的各1個樣本。選取其中8組來訓練,1組用來測試,并重復使每組樣本都可以用來作為測試樣本,隨機分組30次實驗結果如表2所示。實驗定義識別率為正確的識別樣本數和總樣本數的百分比。

表1 KTH數據庫識別結果
文獻[3]采用運動歷史圖像序列中人的運動,從中提取HOG特征作為行為描述特征;文獻[4]采用2DPCA-HOG特征作為行為描述特征。圖5給出了本文與文獻[3]和文獻[4]的描述特征在Weizmann庫和KTH庫的實驗結果比較。在Weizmann庫中本文平均識別率、文獻[3]和文獻[4]平均識別率分別為95.0%、83.8%、91.6%。在KTH庫中平均識別率分別為95.6%、92.5%、92.3%。

圖5 三種特征在Weizmann庫和KTH庫中的識別率對比

表2 Weizmann數據庫識別結果
由圖5的實驗結果可知:雖然MHI-HOG、2DPCA-HOG方法在KTH和Weizmann數據庫中均能取得一定的識別效果。但是HOG特征僅僅能夠表征人體形態的局部梯度特征,這樣單獨提取HOG特征來表征人體形態容易導致相近人體姿勢的誤判。相對于MHI-HOG、2DPCA-HOG方法,本文采用ExHOG特征與CLBP特征相融合的運動人體行為識別算法,能夠很好地把HOG提取的人體輪廓形狀特征和CLBP提取的紋理特征相結合,達到表征人體行為,取得了更好的分類效果。
本文提出了一種基于特征融合的人體行為識別方法。將ExHOG和CLBP兩種具有互補性的特征采用K-L變換進行融合后用于人體行為識別,使用RBF神經網絡作為分類器,在KTH庫和Weizmann庫的基礎上進行實驗;實驗結果表明提出的方法用于人體行為識別效果較好。今后的工作方向是選擇更為優越的融合特征和融合策略,以達到更好的分類效果。
[1]Ronald P.A survey on vision-based human action recognition[J]. Image and Vision Computing,2010,28(6):976-990.
[2]Aggarwal J K,Ryoo M S.Human activity analysis:a review[J]. ACM Computing Surveys,2011,43(3).
[3]Huang C P,Hsieh C H.Human action recognition using histogram of oriented gradient of motion history image[C]// Proceedings of the International Conference on Instrumentation,Measurement,Computer,Communication and Control,2011.
[4]Naiel M A,Abdelwahab M M.Simultaneous human detection and action recognition employing 2DPCA-HOG[C]//Proceedings of the Circuits and Systems(MWSCAS)Conference,2011.
[5]Satpathy A.Extended histogram of gradients with asymmetric principal component and discriminant analyses for human detection[C]//Proceedings of Canadian Conference on Computer and Robot Vision,2011.
[6]Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,8(12):2037-2041.
[7]敦文杰,穆志純.基于特征融合的人臉人耳多生物身份鑒別[J].天津大學學報,2009,42(7):636-641.
[8]Katidiotis A,Tsagkaris K,Demestichas P.Performance evaluation of artificial neural network-based learning schemes for cognitive radio systems[J].Computersand ElectricalEngineering,2010,36(3):518-535.
[9]Srinivasan S,MitalD P,HaqueS.A novelsolution for maze traversal problems using artificial neural networks[J]. Computers and Electrical Engineering,2004,30(8).
ZHOU Xia,LIU Xuqing,WANG Xian,SUN Ziwen,DENG Yuan
江南大學 輕工過程先進控制教育部重點實驗室,江蘇 無錫 214122
Key Laboratory of Advanced Process Control for Light Industry Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China
For the inadequate of Histogram of Oriented Gradients(HOG)feature for local gradient features of the human body in human action recognition,this paper presents a recognition algorithm of human action based on multi-features fusion using extended HOG feature and Complete Local Binary Pattern(CLBP)feature.The background subtraction algorithm is used to extract the complete human motion sequence in the video,and it extracts Extended HOG and CLBP feature of human body which are complementary.Then it fuses these two group features by K-L transform to get a new feature which has a higher discriminating power.At last,the paper uses radial basic function neural network to realize the action of multi class classification. The experimental results in the KTH and Weizmann behavior databases show the effectiveness of the proposed algorithm.
action recognition;Histogram of Oriented Gradients(HOG);Complete Local Binary Pattern(CLBP);radial basic function neural network
A
TP391
10.3778/j.issn.1002-8331.1210-0077
ZHOU Xia,LIU Xuqing,WANG Xian,et al.Multi-features fusion algorithm for human action recognition.Computer Engineering and Applications,2013,49(7):162-166.
國家自然科學基金(No.60574051);江蘇省產學研聯合創新資金-前瞻性聯合研究(No.BY201267)。
周霞(1970—),女,講師,主要研究方向為嵌入式及圖像處理;柳絮青(1989—),男,碩士研究生,研究方向為模式識別與智能系統。E-mail:zhouxia501@163.com
2012-10-10
2012-12-03
1002-8331(2013)07-0162-05