岳 頎,馬彩文
(1.中國科學院 西安光學精密機械研究所, 西安 710119; 2.中國科學院大學, 北京 100039; 3.西安郵電大學, 西安 710121)
指數彈性動量卷積神經網絡及其在行人檢測中的應用
岳 頎1,2,3,馬彩文1
(1.中國科學院 西安光學精密機械研究所, 西安 710119; 2.中國科學院大學, 北京 100039; 3.西安郵電大學, 西安 710121)
針對深度卷積神經網絡存在規則化參數多、未利用淺層先驗知識、參數隨機初始化后易導致權值更新梯度彌散及訓練早熟等問題,采用PCA非監督學習方式獲取導向性初始化參數數值方法,并基于對網絡誤差的傳播分析,提出指數自適應彈性動量參數學習方法. 以復雜場景下行人目標為例進行目標檢測試驗,實驗表明: 與人工特征檢測識別方案及傳統深度卷積模型相比,該模型可有效提升目標檢測精度,檢測速度提升20%以上;與其他動量同源更新機制相比,該算法收斂速度更快,收斂曲線更平滑,泛化能力強,可在不同深度模型均可取得較好檢測效果,準確率分別平均提高1.6%,1.8%和6.19%.
深度神經網絡;彈性動量;目標檢測;模型優化
隨著科技的不斷進步,目標智能檢測算法作為視頻監控、交通管理、醫藥檢驗以及工農業產品監管等高層應用系統的技術基礎,應用范圍日益廣泛,其相關算法研究受到了國內外學者的廣泛關注. 目前,圖像檢測算法通常基于人工設計特征進行模式識別. 該類特征提取方法場景適應能力弱,且需以深厚的理論知識和特征設計經驗為基礎進行設計,實現起來費時費力[1]. 深度學習算法具有自主學習抽象特征和概念的能力,可以根據數據信息提取底層特征和多層次、抽象化的高級特征[2-3],因而成為當前模式識別領域研究熱點. 深度卷積神經網絡提取特征具有旋轉、縮放和平移不變性,較深度信念網絡架構和深度自編碼器等深度模型來說,更適宜進行圖像檢測和識別.
近年來,國內外學者開展了大量基于深度卷積神經網絡的目標識別算法研究,并已取得很多研究成果. 歐陽萬里等[4]提出UDN算法,該算法基于深度模型框架,聯合處理目標特征提取、形變遮擋和分類問題;Ross 等[5]提出基于興趣區域的CNN特征提取算法,該算法通過視覺顯著性提取興趣區域,提升CNN提取特征的辨識能力;羅萍等[6]提出分類特征提取算法,該算法在傳統的CNN結構中引入可切換的RBM層,并將目標分為整體和部件兩類進行分布特征提取;張寧等[7]提出部件-CNN深度模型,該模型將部件算法和CNN特征提取算法進行融合,并采用分塊圖片訓練方法提升CNN特征提取泛化能力;張陽等[8]提出融合深度模型,該模型將受限波茲曼機和BP神經網絡結合起來組建深度學習網絡;曾敏等[9]提出變結構深度模型,該模型將遮擋層和變形層引入深度架構,降低遮擋行人誤檢率. 上述研究成果多以深度模型結構為關注要點,忽視了輸入數據對網絡結果的影響及網絡訓練算法對模型特征提取時間及提取特征辨識力的影響,且忽略了深度模型梯度彌散及早熟問題的研究.
就以上問題,本文構建基于深度卷積神經網絡的目標檢測框架,并在深入分析深度卷積神經網絡誤差傳播過程的基礎上,提出指數自適應彈性動量參數學習方法. 仿真實驗結果表明:與人工特征檢測方法相比,本文方法可有效提升目標檢測精度;與其他動量同源更新機制相比,本文方法收斂速度快、振蕩小,且能顯著改善檢測準確率.
深度卷積神經網絡由單層卷積神經網絡堆疊產生. 卷積核尺寸選取、閾值參數設置、網絡深度設計和輸出層特征維數選取是深度卷積神經網絡特征提取算法的4個重要問題. 卷積核表述“視覺感受野”大小,卷積核過大,則提取特征超出卷積核可表達的特征范圍;卷積核過小,則無法提取有效局部特征. 閾值參數用于控制網絡模型對特征子模式的反應程度. 網絡深度表述模型對復雜問題的非線性表達能力. 網絡層數越多,特征表達能力越強,但網絡層數過多易導致過擬合及實時性差等問題. 輸出層特征維數決定了網絡收斂的速度,當樣本集有限時,輸出層維度過低則無法保證特征的有效性,輸出層維度過高會產生特征冗余.
除此之外,由于深度網絡架構是根據輸入圖像自主進行特征提取的,因此深度模型的輸入數據對最終特征提取的影響也是至關重要的[10]. 傳統深度卷積神經網絡模型直接將原始圖像作為輸入數據. 這樣的方式雖然可使深度模型獲得全面的數據信息,但是會大幅降低網絡收斂速度,并在一定程度上影響深度模型特征提取能力. 因此,對輸入圖像進行預處理,用以提高特定模式分類問題收斂速度及分類精度是有必要的.
基于以上分析,本文針對行人檢測識別問題,設計深度卷積神經網絡模型,具體模型架構如圖1所示.

圖1 深度卷積神經網絡模型
基于卷積神經網絡的目標檢測深度模型共分為七層. 輸入圖像在進行歸一化、光照增強預處理后,計算其顏色特征及顯著Centrist特征. 以原始數據、顏色特征及顯著Centrist特征三幅圖像作為輸入圖像. 網絡中,第一層C1、第三層C3和第五層C5為卷積層,實現從低級到高級的特征提取;第二層S2、第四層S4和第六層S6是下采樣層,用于特征降維;第七層F7為輸出層,通過全連接方式提取最終抽象特征. 該模型利用線性SVM對特征進行模式分類. 為了提取具有更佳區分性能的特征,卷積層濾波器大小分別設為9×9、5×5和3×3,下采樣層均采用形變最大下采樣方法進行采樣,激發函數采用LRel函數,輸出層為全連接層.
傳統卷積神經網絡通常采用隨機初始化、非監督訓練初始化等方法初始化模型參數. 隨機初始化方法易導致模型收斂時間增加、權值更新梯度消失、非最小值收斂等問題. 非監督訓練初始化方法多采用非監督深度網絡預訓練方式獲取,該方法復雜度高、訓練時間長. 為克服以上問題,本文提出采用主成分分析法(PCA)初始化深度模型參數方法. PCA算法與受限自編碼神經網絡學習方式具有高度的相似性[11-12],因此可通過對原始數據進行主成分分析獲得的特征向量來近似代替受限自編碼器訓練結果,用其作為深度卷積神經網絡的初始化參數. 并且,為了避免主成分分析算法降低深度模型泛化能力,初始化時的輸入數據集均為經過圖像特征檢索擴充法和數據增強算法處理后的樣本集.
本文方法屬于非監督算法,可簡單快速地獲取較好的初始化參數,具體算法流程如下.


Step 2 獲取濾波器取片樣本集矩陣.
1)在Ii中按k1×k2無重疊分塊,獲得(m-k1+1)(n-k2+1)個取片圖像.
2)柵格化取片圖像為向量形式{xi},xi∈Rk1k2×1.
3)獲得取片樣本集矩陣,并去平均后,得
Step 3 求解矩陣X的主成分特征向量.

3.1 網絡誤差傳遞
誤差傳遞通過前向傳播和反向梯度下降兩步生成和調整權值. 梯度下降法更新權值方法如式(1)所示,偏置更新方法如式(2)所示[13]:
(1)

(2)

由式(1)、(2)可知,要想實現權值和偏置尋優,首先必須獲得誤差對權值的梯度及誤差對偏置的梯度.
1)卷積層誤差傳播. 對卷積層來說,其輸出如式(3)所示為

(3)

根據敏感度函數求導公式可知,卷積層敏感度可由式(4)表示為
).
(4)

由式(4)可推導獲得卷積層誤差對偏置的梯度如式(5)所示為
(5)
式中(u,v)為靈敏度矩陣的元素位置.
卷積層誤差對權值的梯度,如式(6)所示為
(6)

2)采樣層誤差傳播. 采樣層神經網絡的輸出可由式(7)表示為
(7)

根據梯度下降敏感度公式,可知采樣層敏感度如式(8)所示為
).
(8)
由此可得采樣層偏置更新公式,如式(9)所示為
(9)
將式(9)帶入式(2)即可獲得偏置值更新數值.
3.2 指數自適應彈性動量優化
上述權值更新方法只是單一的層間傳遞梯度誤差,沒有考慮到上一時刻的梯度變化方向,即以前神經網絡權值修正的經驗. 因此,在訓練過程中常會出現過調和振蕩現象,導致網絡收斂緩慢. 文獻[14]提出采用動量方法可以加快收斂,文獻[15]提出自適應動量梯度下降(traingdx). 但上述方法均未考慮上一時刻的梯度變化方向、動量方向以及當前誤差對權值梯度方向的一致性. 且動量因子沒有促進收斂,提升學習性能能力.
本文采用誤差對權值梯度的指數函數調整動量因子步伐,使其在誤差平坦區時,動量因子增大,加快網絡收斂速度;誤差陡峭區時,減小動量因子,避免網絡收斂過快,錯過極小點出現的不穩定. 并且,基于符號函數判別方法,促使動量因子在前后兩次梯度方向相同時比例增大,在前后兩次梯度方向相反時比例減小. 動量因子更新公式如式(10)、式(11)所示為
(10)
Ak=-λ1‖Dk‖-λ2.
(11)

由式(10)可以看出,‖Dk‖增大,則a減小;‖Dk‖減小,則a增大. 即誤差曲面陡峭,動量因子減小;誤差曲面平坦,動量因子增大.
為了提升行人檢測的實時性及準確度,受R-CNN目標檢測算法思想的啟發,根據模式識別分類框架設計粗細二級行人檢測框架,如圖2所示. 為提升深度卷積神經網絡提取特征分類能力,采用圖像特征檢索擴充法和數據增強算法對樣本集進行擴充. 為了快速檢測行人目標區域,采用二值梯度規范法和選擇搜索法級聯選取行人預選區域,并根據行人寬高比和頭部梯度范圍進一步縮小特征提取窗口數量. 對需提取特征的窗口進行大小、亮度均衡預處理,輸入深度模型提取特征. 最后,通過線性SVM分類器進行分類,獲得行人最終檢測結果.

圖2 基于CNN的行人檢測算法架構
5.1 樣本集選取
行人檢測主流數據集有Caltech數據庫、INRIA 數據庫等. Caltech數據庫分辨率多樣,具有多種遠近行人樣本;INRIA數據庫背景復雜,具有光照變換和遮擋等情況. 為使網絡具有更強的適應能力,以Caltech數據集、INRIA 數據集和現實場景數據集為基礎,根據圖像特征相似度檢索擴充法以及數據增強法對訓練集進行擴充,最終選擇正樣本12 316個,負樣本162 000個作為樣本集. 將樣本隨機分為6組,正負樣本均衡化后,前五組作為訓練集,后一組作為測試集.
5.2 網絡閾值選取
準確率、召回率和F值是行人檢測算法的主流評價指標. 由于準確率與查全率之間有互逆性與相關性,因此,查全率低則準確率高,反之會低. 為了使兩者達到平衡,閾值選取至關重要. 以行人作為研究對象,使用歐式距離作為度量方法,來觀測各區間的曲線變化,通過實驗確定閾值取值范圍. 圖3為取不同閾值時,行人檢測算法F值、查重率以及準確率之間的變化趨勢圖. 由圖3可以看出,在閾值<0.3時,查全率相對較低,準確率相對較好,但與之相對應的F值卻相對較低,而當閾值>0.5時,查重率相對較高,而準確率卻有所下降,所以在閾值為[0.3,0.5]之間,得到的F值較優.

圖3 行人查重率、準確率與閾值之間的關系
Fig.3 Relationship between the rate of recall rate, the accuracy rate and the threshold value
5.3 網絡訓練與測試
為檢測文中設計深度模型的有效性,將本文算法與經典行人檢測算法HOG+SVM、HOF+CCS以及傳統CNN檢測方法進行比較,獲得如圖4和表1所示實驗結果. 由圖4和表1結果可知,本文算法相對人工設計特征算法和傳統深度卷積模型算法來說,漏檢率、誤檢率更低,檢測準確率更高. 與傳統深度卷積模型相比,算法檢測速度提升20%以上.

圖4 檢測算法結果比較
表1 檢測速率對比表
Tab.1 Comparison of detection speed

方法平均時間/msHOG+CSS+SVM59.32HOG+SVM42.49傳統CNN32.15OURS25.84
5.4 真實場景行人檢測
對手機拍攝校園內圖書館和教學樓前行人自然真實場景進行檢測,效果如圖5所示. 由圖5可見,本文算法可在行人尺寸適中,光照具有一定差異,存在垂直梯度干擾的情況下取得較好的檢測效果. 能檢測出遮擋小于40%的行人,標示窗口與行人尺寸基本相符.

圖5 實際場景行人檢測結果
5.5 動量算法比較
為評估本文所提指數彈性動量網絡訓練算法的有效性,將本文算法與標準動量(taingdm)、自適應動量(traingdx)及彈性動量機制(traingdfm)算法比較,以收斂速度、收斂震蕩性能、檢測準確率作為評價指標,在上文所述數據集上獲得結果如圖6和表2所示.

圖6 動量算法收斂均方誤差曲線對比
Fig.6 Convergence mean square error curve of momentum algorithm

表2 算法準確率對比表
圖6為收斂均分誤差曲線對比圖,圖中橫坐標為訓練輪數,縱坐標為均方誤差. 由圖6可見,本文算法與標準動量( taingdm)、自適應動量(traingdx)算法及彈性動量機制(traingdfm)相比收斂速度更快,收斂曲線更平滑. 表2為算法準確率對比表. 由表2可知,指數彈性動量算法在不同深度模型均可取得較好檢測效果,準確率均有不同程度提高. 提高幅度平均值分別為1.6%,1.8%和6.19%.
本文基于深度卷積網絡構建目標檢測識別框架,在分析深度架構誤差傳播基礎上,提出指數自適應彈性動量的參數學習方法. 仿真實驗表明,本文方與同人工特征檢測算法相比,檢測精度高,漏檢率低,與同源誤差優化算法相比,收斂速度更快,收斂曲線更平滑.
[1] 劉操,鄭宏,黎曦,余典. 基于多通道融合HOG特征的全天候運動車輛檢測方法[J]. 武漢大學學報(信息科學版),2015,40(8):1048-1053.
LIU Cao, ZHENG Hong, LI Xi, et al. A method of moving vehicle detection in all-weather based on melted multi-channel HOG feature[J]. Journal of Wuhan University (Information Science Edition), 2015,40(8):1048-1053.
[2] KULKARNI P, ZEPEDA J, JURIE F, et al. Hybrid multi-layer deep CNN/aggregator feature for image classification[C]// IEEE International Conference on Acoustics, Speech and Signal Processing.Brisbane: IEEE, 2015.
[3] SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks the Official Journal of the International Neural Network Society, 2015, 61:85-117.
[4] OUYANG Wanli, WANG Xiao. Joint deep learning for pedestrian detection[C]// IEEE International Conference on Computer Vision.Sydney: IEEE Computer Society, 2013:2056-2063.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision & Pattern Recognition. Columbus: IEEE, 2014:580-587.
[6] LUO P, TIAN Y, WANG X, et al. Switchable deep network for pedestrian detection[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Columbus: IEEE Computer Society, 2014:899-906.
[7] ZHANG N, PALURI M, RANZATO M, et al. PANDA: Pose aligned networks for deep attribute modeling [C]//IEEE Conference on Computer Vision & Pattern Recognition. Columbus: IEEE, 2014:1637-1644.
[8] 張陽. 結合紋理特征和深度學習的行人檢測算法[J]. 遼寧工程技術大學學報(自然科學版),2016(2):206-210.
ZHANG Yang. Pedestrian detection method of texture feature and deep learning[J]. Journal of Liaoning Technical University (Natural Science), 2016(2):206-210.
[9] 曾敏, 周益龍. 基于深度學習模型的行人檢測研究與仿真[J]. 南京郵電大學學報(自然科學版),2015,35(6):111-116.
ZEN Min, ZHOU Yilong. Simulation of pedestrian detection based on deep learning model [J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science),2015, 35(6):111-116.
[10]DONG C, CHEN C L, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(2):295-307.
[11]BALDI P, HORNIK K. Neural networks and principal component analysis: learning from examples without local minima [J]. Neural Networks, 1989, 2(1):53-58.
[12]CHAN Tsunghan, JIA Kui, GAO Shenghua, et al. PCANet: a simple deep learning baseline for image classification[OL]. http://arxiv.org/abs/1404.3606, 2014.
[13]BHM Sadeghi. A BP-neural network predictor model for plastic injection molding[J]. Journal of Materials Processing Technology, 2000, 103(3):411-416.
[14] MITCHELL T M,曾華軍,張銀奎.機器學習[M]. 北京: 機械工業出版社,2003.
MITCHELL T M, ZENG Huajun, ZHANG Yinkui. Machine learning [M]. Beijing: Machinery Industry Press, 2003.
[15]AGRAWAL S S, YADAVA V. Modeling and prediction of material removal rate and surface roughness in surface-electrical discharge diamond grinding process[J]. Materials and Manufacturing Processes, 2013, 28( 4) : 381-389.
(編輯 王小唯 苗秀芝)
A deep convolution neural network for object detection based
YUE Qi1,2,3, MA Caiwen1
(1. Xi’an Institute of Optics and Precision Mechanics, Chinese Academy of Sciences, Xi’an 710119, China; 2. University of Chinese Academy of Sciences, Beijing 100039, China; 3.Xi’an University of Posts and Telecomunications, Xi’an 710121, China)
Deep convolutional neural network(CNN) has too many parameters to initialize, and the usual random initialization method is easy to disappear of modified gradient and the problem of premature. The unsupervised PCA learning method is used to obtain oriented initialization parameters. And the gradient descendent method with exponential flexible momentum for updating free parameters of the network is proposed on the basis of analyzing the error propagation of the network. Image detection experiments are respectively carried out on pedestrian detection, and the results show that, compared with other artificial feature detection algorithms, this method can effectively improve target detection accuracy and the detection speed of this method is 20% faster than that of classical CNN; compared with homologous updating mechanism of other momentum, our method has faster convergence and smaller oscillation, and can improve the detection accuracy by 1.6%, 1.8% and 6.19% respectively in different depth models.
deep neural network; elastic momentum; target detection; model optimization
10.11918/j.issn.0367-6234.201603145
2016-03-24
國家高技術研究發展計劃(2010AA7080302)
岳 頎(1981—),女,博士研究生; 馬彩文(1965—),男,教授,博士生導師
岳 頎,yueqi6@163.com
TP391.41
A
0367-6234(2017)05-0159-06