999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進堆疊獨立子空間分析模型的行為識別

2019-05-24 14:17:58郭晶晶劉歡歡
軟件導刊 2019年5期

郭晶晶 劉歡歡

摘 要:視覺特征提取與特征表達方法在圖像分類及識別中十分重要,從特征學習和特征表達角度出發,提出一種基于改進堆疊獨立子空間分析模型提取特征的行為識別算法。首先采用兩層獨立子空間神經網絡構建堆疊網絡,在特征學習過程中融入正則化約束項,并結合時空卷積算法,獲取視頻時空層次化不變性特征基元;然后以堆疊卷積網絡兩層特征基元的非線性映射獲取一種規則網格劃分下的視頻塊狀局部特征描述符;最后結合時空金字塔匹配模型構建時空層次特征,采用一對多支持向量機分類方法對視頻中的動作進行分類。在KTH視頻數據庫中進行實驗。結果表明,該算法學習到的特征基元可對視頻構建低維高效的特征描述符,與現有多種行為識別算法進行對比,改進行為識別算法有效性進一步提高。

關鍵詞:行為識別;堆疊獨立子空間分析;時空卷積;正則化;時空金字塔

DOI:10. 11907/rjdk. 191103

中圖分類號:TP317.4 文獻標識碼:A 文章編號:1672-7800(2019)005-0192-05

Abstract: Aimed at the importance of effective feature extraction and expression method of visual features in an image classification and recognition, a behavior recognition algorithm based on improved stacking independent subspace analysis Model to extract features is proposed. First of all, this algorithm adopts two layers of independent subspace neural networks to form stacked networks. The regularized constrained items are assimilated into in the process of learning features, and the spatio-temporal hierarchical invariant feature primitives of the video are obtained by combining with spatio-temporal convolution algorithm. Then, the video block local feature descriptors are obtained by the nonlinear mapping of the two layer feature primitives of the stacked convolutional network. Finally, the spatio-temporal hierarchical feature descriptors are constructed based on the spatio-temporal pyramid matching model and the actions in the video are classified by using a one to many support vector machine classification method. Experimental results on KTH video database show that the proposed algorithm can form the feature descriptor with low dimension and efficiency, and compared with a variety of existed algorithms, the proposed algorithm is proved to have better effectiveness.

Key Words: action recognition; stacked independent subspace analysis; spatio-temporal convolution; regularization; spatio-temporal pyramid matching

0 引言

人體行為識別指從輸入視頻提取描述行為特征的信息,通過機器學習理解特征信息,并依據學習到的特征對新的視頻進行識別[1]。隨著模式識別和機器學習的發展,包括稀疏編碼、局部感受野、視覺信息層次式處理等新思想被引入特征提取研究中[2]??傮w上,視覺特征研究經歷了3個階段:基本視覺特征提取階段、視覺特征表達階段、視覺特征學習階段。其中,有效的特征表達可提升圖像分類與識別性能[3]。特征學習相對于基本視覺特征提取而言,在方法上具有通用性,即針對不同形式的輸入圖像,可采用同樣的網絡進行特征提取,無需對問題儲備較強的先驗知識,可減少人工設計特征的復雜性。因此,特征表達與特征學習具有廣泛的應用價值,成為重點研究方向。

經典特征表達方法有基于詞匯包的詞帶(BOW)模型[4]。Lazebnik[5]在此基礎上引入金字塔模型,提出空間金字塔匹配模型(Spatial Pyramid Matching,SPM)。常見的特征學習包括兩種結構:單層網絡結構的特征學習與深度學習的特征學習[6]。單層網絡結構參數少,特征學習速度較快,且能夠取得較好的效果,最典型代表為斯坦福大學Coates等[7]描述的一層單層網絡學習框架,包括網絡訓練階段和特征提取階段。在訓練階段,通過單層網絡從圖像塊學習一個特征映射矩陣,該映射矩陣即為學習核心部分,然后對新輸入的圖像按照一定規則通過特征映射矩陣映射成一個特征向量。獨立成分分析[8](ICA)是一種可有效學習單層網絡映射的結構。Hyvarinen等[9]在ICA基礎上提出獨立子空間分析(Independent Subspace Analysis, ISA),這是一種可以有效模擬人類視覺系統V1區簡單細胞與復雜細胞感受野響應模式的層次化結構模型。

本文從特征學習和特征表達的角度出發,構建一種堆疊獨立子空間分析網絡(stack Independent Subspace Analysis,SISA),該網絡可直接作用于原始視頻圖像,并結合時空卷積算法提取局部抽象特征,在優化過程中引入正則化函數項,并采用時空金字塔匹配模型對視頻圖像進行分類,將其應用于高維度數據可獲得較好的分類效果。

1 理論與方法

1.1 獨立子空間分析

ISA是一種從無標簽數據集上無監督學習獲得圖像內部隱含嵌入信息的網絡結構[10]。ISA網絡神經網絡結構如圖1所示。

1.2 SISA神經網絡結構與訓練方法

為提高深度網絡性能,在ISA神經網絡中引入堆疊和時空卷積思想,提取視頻特征描述符,即構建兩層堆疊的ISA神經網絡,通過用一個時空卷積核在多個連續視頻幀中進行時空卷積獲取運動信息。僅提取一種特征不足以分類,因此從原始視頻塊的時域和空域中分別選擇不同的特征組合進行卷積,從而獲得不同的時空特征。該算法提取的特征具有平移不變性,且對于輕度變形不敏感。

在本文實驗中,SISA神經網絡隱含層共有兩層ISA網絡,第一層為卷積層,SISA神經網絡結構如圖2所示,其訓練步驟為:

步驟1:選取大量視頻圖像對視頻進行采樣,分塊大小為[16×16×10],將經過PCA降維、白化后的輸出作為輸入,訓練單層ISA神經網絡獲得特征基元。

步驟2:把步驟1得到的特征基元作為ISA1卷積神經網絡卷積核,對原視頻重新采樣,分塊大小為[20×20×14],將采樣得到的視頻塊作為輸入,通過不同組合的卷積映射得到對應輸出響應。

步驟3:把步驟2得到的輸入響應作為ISA2網絡的輸入,訓練ISA2網絡獲得特征基元。

步驟 4:獲取SISA的特征基元之后,把視頻塊以不同的輸入組合分別帶入式(3)中,計算ISA1基元響應P1,將P1再次帶入式(3)中,計算 ISA2基元響應P2,把兩層網絡得到的基元響應經過PCA降維,作為視頻塊特征描述子,用于后續分類任務。

2 算法設計

2.1 正則化批量投影特征學習算法

在SISA神經網絡基元特征訓練過程中,一般情況下通過梯度下降的優化算法學習特征基元,由于視頻數據特征量較大,在尋找目標函數極小值時,學習得到的特征基元大小不一,導致該優化算法泛化能力較差(對未知數據的預測能力降低)[14]。因此本文對目標函數增加一個L2正則項,防止數據在迭代過程中造成過擬合現象,使整個網絡可學習到一個更好的權值矩陣,增強泛化能力。

按照金字塔劃分方法對視頻進行劃分,得到不同的層,第一層有1個子部分,第二層僅從時間維度上劃分,得到2個子部分,第三層、第四層分別從時間和空間維度上劃分,各自得到4個子部分和8個子部分。圖3中的金字塔為4層,對每個子部分在SISA神經網絡中的特征描述符構造一個K維詞頻直方圖,在金字塔級數為L的模型中,統計所有視頻詞匯在金字塔級別下所有子部分的直方圖,最后結合所有子部分直方圖生成特征向量維數為[D=(2L-1)K],該向量為輸入視頻的STPM表達。

提取訓練樣本在SISA神經網絡局部特征描述符,通過K-means聚類的方法計算得到字典,對新輸入的視頻進行STPM表達,用于后續分類任務。該匹配模型可與支持向量機判決算法很好地結合,完成不同動作的分類。

3 仿真實驗與結果分析

3.1 測試數據集

為驗證本文算法的有效性,采用KTH視頻數據庫對本文模型進行仿真試驗。KTH數據集共有600個視頻片段,在4種不同場景下采集25個人的6種不同行為,每種行為重復若干次,圖4給出了KTH視頻庫6類行為,分別為拳擊(box)、拍手(clap)、揮手(wave)、慢跑(jog)、跑(run)、走(walk)。

3.2 特征學習與分析

本實驗基于Matlab平臺實現,如圖5、圖6為梯度下降特征學習算法和本文提出的正則化批量投影特征學習算法在KTH數據集上經過300次迭代之后學習出的權值(即大小為[300×2560]的矩陣[W]),選出權值的前12行,并將每行轉換成圖像塊進行顯示,這些圖像塊是將原始視頻塊的像素塊映射到隱含層的一個節點。圖中每個小塊大小為[16×16]。將梯度下降(Gradient Descent)特征學習算法簡寫為GD特征學習算法[20],將基于正則化(Regularization)的優化學習算法簡寫為RGD優化學習算法。從圖中看出,本文優化算法較原算法能夠更好地學習出視頻塊局部、邊緣及方向性特征。

比較兩種特征學習算法在SISA神經網絡下的識別效果,在特征表達階段采用經典BOW模型構建詞頻直方圖,并結合SVM分類器對視頻進行分類。兩種優化算法迭代次數均為300次,結果如表1所示。

由表1可知,在設置迭代次數相同的情況下對SISA網絡進行訓練,本文提出的優化算法高于梯度下降算法約兩個百分點。總體上看,由于迭代次數影響,該算法沒有達到很高的識別準確率要求。

3.3 測試結果分析

本文基于正則化批量投影特征學習算法訓練SISA神經網絡,獲取訓練視頻特征描述符,采用經典BOW模型和本文設計的STPM,在不同字典數下對測試視頻進行特征表達,比較平均準確率。兩種特征表達算法均采用Average Pooling的方法構建視頻詞頻直方圖,結合SVM分類器對視頻進行分類,統計不同字典維數上兩種特征表達算法平均識別準確率,如圖7所示。

圖7的兩條曲線分別表示STPM特征表達算法和經典BOW模型在不同字典數目下的識別準確率,從平均識別準確率隨字典變化的情況看,兩種算法隨字典數目的增加識別率均有提高,本文算法在字典維數為3 000時效果最佳,平均識別率高于BOW模型特征表達算法最優效果。

為了更進一步說明本文算法對視頻中行為識別的有效性,利用本文算法在KTH數據庫進行仿真實驗,將其結果和其它識別方法在KTH數據庫的實驗結果進行對比,如圖8所示,分別列出Harris3D+HOG特征[22]、3DCNN[23]和本文算法在KTH數據庫的6種動作識別率,本文算法對拳擊、揮手、跑3個動作的識別率明顯高于其它兩種算法,拍手、走兩個動作識別率略低或持平于其它兩種算法,由此說明本文方法能夠準確把握視頻中動作基本成份,給出有效的場景編碼表達。

表2展示了本文算法和現有行為識別算法在KTH數據集上的平均識別率。由于文獻[21]在特征學習過程中,對特征基元沒有約束性限制,使得代過程中泛化能力較差,降低了分類準確率。文獻[21]在對視頻進行表達時,針對一個整體視頻進行量化,而本文算法對視頻進行金字塔劃分,然后對劃分的金字塔子區域進行量化,因此總體上較原算法提高了最終分類效果。從表2可以看出本文算法在識別精度上超越了部分現有算法,說明本文算法在動作識別方面的有效性。

4 結語

本文結合SISA網絡和時空卷積,并在特征學習中引入正則化約束項學習層次結構化的特征基元,該算法在保證稀疏特征學習的同時對基元矩陣進行約束,增強了算法泛化能力;然后以層次特征基元的非線性映射獲取局部特征描述符,解決了特征自動選擇和高層特征提取的難題,構造了低維高效的特征描述子;最后在特征表達階段,采用平均池的時空金字塔匹配模型對視頻進行多尺度劃分提高分類效果。

本文網絡模型可自動化和層次化提取、選擇特征,高層次不同類別之間共享低層次特征,使高層次特征比低層次特征具有更高的全局性與不變性。如何實現合理的網絡框架、高效的特征學習算法和有效的特征表達算法是下一步研究重點。

參考文獻:

[1] 朱煜,趙江坤,王逸寧,等. 基于深度學習的人體行為識別算法綜述[J]. 自動化學報,2016, 42(6):848-857.

[2] 張盛博,劉娜,霍宏,等. 基于層次形狀特征提取模型的圖像分類[J]. 高技術通訊,2016,26(1):81-88.

[3] 李欽,游雄,李科,等. 圖像深度層次特征提取算法[J]. 模式識別與人工智能,2017,30(2):127-136.

[4] LI F F, PERONA P. A Bayesian hierarchical model for learning natural scene categories[C]. Proceedings of the IEEE Computer Society, 2005:524-531.

[5] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[J]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006, 2:2169-2178.

[6] 李寰宇,畢篤彥,楊源,等. 基于深度特征表達與學習的視覺跟蹤算法研究[J]. 電子與信息學報, 2015, 37(9):2033-2039.

[7] COATES A, LEE H, NG A Y. An analysis of single-layer networks in unsupervised feature learning[C]. Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011: 215-223.

[8] HYVARINEN A,OJA E. Independent component analysis:algorithms and applications.[J]. Neural Networks,2000,13(4-5):411-430.

[9] HYVARINEN A, HOYER P. Emergence of phase and shift invariant features by decomposition of natural images into independent feature subspaces[J]. Neural Computation, 2000, 12(7): 1705-1720.

[10] 鐘忺,王燦,鐘珞. 一種圖像場景的獨立子空間ISA分類方法[J]. 小型微型計算機系統, 2018, 39(7):205-210.

[11] 仿射不變子空間特征及其在圖像匹配中的應用[J]. 紅外與激光工程, 2014, 43(2):659-664.

[12] LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]. Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 609-616.

[13] LE Q V,NGIAM J,CHEN Z, et al .Tiled convolution neural networks[C]. Workshop on Neural Information Processing Systems, 2010:1279-1287.

[14] RANZATO M,HUANG F J,BOUREAU Y L,et al. Unsupervised learning of invariant feature hierarchies with applications to object recognition[C]. Computer Vision and Pattern Recognition Conference,2007:1-8.

[15] 孫艷豐,張坤,胡永利. 基于深度視頻的人體行為特征表示與識別[J]. 北京工業大學學報,2016, 42(7):1001-1008.

[16] 程海粟,李慶武,仇春春,等. 基于改進密集軌跡的人體行為識別算法[J]. 計算機工程,2016, 42(8):199-205.

[17] YANG J C,YU K,GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2009: 1794-1801.

[18] WANG H,ULLAH M M,KLASER A, et al. Evaluation of local spatio-temporal features for action recognition[C]. London:British Machine Vision Conference, 2009.

[19] 趙曉麗,田麗華,李晨. 基于稀疏編碼局部時空描述子的動作識別方法[J]. 計算機工程與應用, 2018(7):29-35.

[20] 王功鵬, 段萌,牛常勇. 基于卷積神經網絡的隨機梯度下降算法[J]. 計算機工程與設計, 2018, 39(2):441-445+462.

[21] LE Q V,ZOU W Y,et al. Learning hierarchical invariant spatial-temporal feature for action recognition with independent subspace analysis[C]. Computer Vision and Pattern Recognition,2011,42: 3361-3368.

[22] LAPTEV I,MARSZALEK M, SCHMID C,et al. Learning realistic human actions from movies[C]. Computer Vision and Pattern Recognition, 2008:1-8.

[23] JI S, YANG M, YU K. 3D convolution neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.

[24] WANG J, CHEN Z Y, WU Y. Action recognition with multiscale spatio-temporal contexts[C]. IEEE Computer Society Conference on Computer Vision and Patter recognition.,2011,32(14): 3185-3192.

(責任編輯:江 艷)

主站蜘蛛池模板: 精品無碼一區在線觀看 | 国产区福利小视频在线观看尤物| 亚洲精品天堂自在久久77| 免费啪啪网址| 狠狠躁天天躁夜夜躁婷婷| 国产一区二区福利| 国产日韩欧美黄色片免费观看| 国产激爽大片高清在线观看| 色噜噜中文网| 久久青草精品一区二区三区| 亚洲无码A视频在线| 国产91精品最新在线播放| 免费女人18毛片a级毛片视频| 亚洲精品波多野结衣| 亚洲品质国产精品无码| 久久精品女人天堂aaa| 久热中文字幕在线| 综合亚洲网| 久久国产高清视频| 国产女主播一区| 欧美成人h精品网站| 精品国产网| 四虎成人精品在永久免费| 欧美黑人欧美精品刺激| 在线观看无码a∨| 国产亚洲欧美在线专区| 国产激情无码一区二区三区免费| 91毛片网| 中文字幕精品一区二区三区视频 | 国产成人综合亚洲网址| 欧美性久久久久| 国产精品久久久久久久久kt| 欧美中文一区| 欧美激情伊人| 影音先锋丝袜制服| 91精品久久久久久无码人妻| 精品一区二区三区自慰喷水| 国产真实二区一区在线亚洲| 欧美一级高清片久久99| 国产乱视频网站| 精品久久久无码专区中文字幕| 日韩中文无码av超清| 成人字幕网视频在线观看| 亚洲一区二区成人| 欧美激情二区三区| 亚洲三级成人| 欧洲av毛片| 熟女日韩精品2区| 天天躁夜夜躁狠狠躁躁88| 1769国产精品免费视频| 亚洲视频在线网| 成人精品午夜福利在线播放| 午夜视频免费试看| 老司机精品一区在线视频 | 又大又硬又爽免费视频| 爱色欧美亚洲综合图区| 女人18毛片久久| 国产一级视频久久| 一级全免费视频播放| 婷婷丁香色| 白丝美女办公室高潮喷水视频| 四虎亚洲国产成人久久精品| 亚洲成人免费在线| 久996视频精品免费观看| 97se亚洲综合不卡| 91久久精品国产| 91av成人日本不卡三区| 91精品福利自产拍在线观看| 欧美α片免费观看| 亚洲一级无毛片无码在线免费视频| 99久久精品免费看国产免费软件 | 国产精品美女自慰喷水| 免费观看三级毛片| 国产精品白浆在线播放| 欧美笫一页| 91小视频在线观看免费版高清| 亚洲国产成人精品一二区| 男女性午夜福利网站| 亚洲人成人伊人成综合网无码| 亚洲欧洲综合| 日韩第一页在线| 伊人91在线|