徐 輝,李海翔,唐世軒,劉威龍,王雨晨
(1.內蒙古智能煤炭有限責任公司,內蒙古鄂爾多斯 017100;2.中國礦業大學信息與控制工程學院,江蘇徐州 221116)
行人檢測是一項綜合技術,涉及人工智能、模式識別和圖像處理等多個領域,可應用于駕駛輔助系統、視頻監控、智能交通等[1]。隨著煤礦機械化、自動化程度的提高,信息化和智能化成為安全高效綠色現代化煤礦的發展方向,其中煤礦井機器人是減少煤礦井下作業人員的有效措施[2-3]。在礦井危險區域機器人的巡檢中,為避免在工作面里行進中的人員與機器設備危險接近造成生產事故,基于圖像的可視化行人檢測成為要解決的關鍵問題。
由于圖像和視頻中的環境條件是多樣的,從不同角度拍攝到的行人姿態也會發生變化,且圖像或視頻中的行人行為動作各異,具有多樣性等特點,目前在各類應用中對行人進行檢測與識別的準確性仍有一定的提升空間[4]。
行人檢測算法若按照算法實現原理進行區分,大致可分為兩大類:基于運動檢測的行人檢測算法和基于機器學習的行人檢測算法[5]。其中基于機器學習的行人檢測算法是目前行人檢測算法的主流研究方向。2005 年,在著名的學術會議CVPR 上,Dalal 等[6]提出了基于提取圖像的方向梯度直方圖(Histogram of Oriented Gradients,HOG)特征,并使用支持向量機(Support Vector Machine,SVM)分類器進行分類識別的行人檢測算法;之后,便有學者參考了Viola 等[7]提出的VJ(Viola-Jones,VJ)人臉檢測器的設計思想,提出了將HOG 特征與自適應增強(Adaboost)分類器進行結合的行人檢測算法,以提高算法運行速度;Ojala等[8]提出了局部二值模式(Local Binary Pattern,LBP)特征提取算法,并將其應用于紋理識別方向;Wang等[9]將LBP特征與HOG特征結合,并使用SVM 分類器分類,提出了HOG-LBP 行人檢測算法;隨著Krizhevsky等[10]將卷積神經網絡應用于較大規模的圖像分類問題中以來,研究者們發現基于深度學習方法所提取的特征比傳統的人造特征具有層次表達能力更好且魯棒性更佳等優勢,紛紛開始從事基于深度學習的檢測方法的研究。Angelova 等[11]根據Adaboost 算法中級聯分類器的思想,提出了一種基于級聯的卷積神經網絡的行人檢測算法,實現了快速排除圖像中的大部分背景區域的效果;Ouyang 等[12]提出聯合深度學習(Joint Deep)算法,即基于一種混合策略,將HOG特征與級聯樣式表(Cascading Style Sheets,CSS)特征融合并使用SVM 分類器分類來設計第一級檢測器對樣本預過濾,再使用卷積神經網絡進行接下來的判斷。
在眾多行人檢測算法中,HOG-LBP行人檢測算法由于其在檢測精度以及處理被遮擋問題等方面的優秀表現,引起了眾多學者的極大關注。但是,HOG 特征對于梯度空間特性描述不佳。而LBP 特征的二值編碼策略使得其對于光照和噪聲的魯棒性有待提高,并且非線性內核SVM分類器的算法復雜度較大,檢測的實時性也需要改進。本文基于HOG-LBP 算法框架,并針對以上問題,提出了一種基于級聯特征分類器的行人檢測算法。其中,為有效表征梯度空間特征,本文算法計算了圖像的方向梯度共生直方圖(Cooccurrence Histograms of Oriented Gradients,CoHOG)[13]特征。同時,為了提高算法對光照和噪聲的魯棒性,計算了圖像的魯棒局部二值模式(Robust Local Binary Pattern,RLBP)[14]特征。最后基于以上特征提取方法,以此構建了一種實時性較強的將多級特征弱分類器級聯的分類器,實現最終的對行人目標的分類與檢測。對于檢測窗口的融合,采用軟性非極大值抑制(soft-Non Max Suppressed,soft-NMS)[15]算法,避免了在處理行人之間出現部分黏連或遮擋的情況時,容易將其中一個行人的檢測窗口誤去除的問題。
由于圖像中光照與噪聲變化,圖像局部灰度差異較大,傳統的LBP 特征無法反映出這一局部差異變化,此時特征的光照與噪聲魯棒性較差,對于局部細節特征描述效果一般。
Ojala[16]證明通過將LBP 特征的中心像素替換為局部量化閾值可有效解決以上問題。在特征提取中有時需要中心像素的特定信息,為在提高噪聲魯棒性和單個像素的信息之間取得平衡,定義了一個加權局部灰度(Weighted Local Gray,WLG):

式中:g為中心像素點的灰度值;gi(i=0,1,…,8)為相鄰像素點的灰度值;α為可被設置的一個參數,用于平衡特征的兩種特性。
定義函數s(u),進行計算:

則RLBP可表示為:

式中:s為符號函數;u=gp-WLG 為相鄰像素點的灰度值與加權局部灰度值的差;gc為中心像素點的灰度值;gp(p=0,…,P -1)為一個半徑為R的圓上相鄰像素點的灰度值;P為在此圓上的相鄰像素的總數;gci(i=0,…,8)為gc的相鄰像素點的灰度值。Bodla[15]已證明,當α=7 時,RLBP 算子不僅在復雜的光照和視點變化條件下表現更穩定,而且抗噪聲的性能較好。
CoHOG特征使用成對的漸變方向作為單位,從中構建直方圖,以下將此直方圖稱為共生矩陣。
相鄰梯度方向的組合可以詳細描述目標的形狀,有助于提高算法的行人檢測精度[17]。通過數學式形式,共生矩陣C定義在一幅尺寸大小為n×m的圖像I上,可由偏移量(x′,y′)參數化為:

式中:參數(x′,y′)為一對坐標偏移量。
由于CoHOG特征是一種基于梯度的直方圖特征描述子,因此它具有與HOG特征相同的抗變形和光照變化的魯棒性。CoHOG特征具體可按以下過程進行計算:
通過式(4)計算共生矩陣,如圖1 所示為本文所使用的偏移量。偏移量小于大的實線圓圈,中心的小白色圓圈為零偏移,其與其他30 個黑色圓圈為一組。因為在計算共生矩陣時,其中一半的偏移量與另一半相同,所以僅使用一半偏移量便可進行計算,即可以獲得包括一個零偏移在內的31 個偏移量。共生矩陣是針對每個小區域進行計算的[13],小矩形區域平鋪為互補重疊的3 ×6 的網格區域。將圖像所有共生矩陣的分量連接成一個向量,即圖像的CoHOG特征向量。

圖1 本文使用的共生矩陣偏移量
傳統的非極大值抑制算法(Non Max Suppressed,NMS)[19],是在當所輸出的檢測窗口重疊面積較大時(高于某個閾值),將置信度最高的檢測窗口作為最終輸出窗口,其他檢測窗口則直接舍棄。這種方法雖然簡單快速,但在處理行人之間出現部分黏連或遮擋的情況時,容易將其中一個行人的檢測窗口誤去除。
為了避免此類現象的發生,提高檢測率,在進行檢測窗口融合時采用soft-NMS算法。soft-NMS算法平滑處理置信度評分:

式中:M 為當前得分最高的檢測窗口;Nt為重疊抑制閾值,取0.7;bi為當前比較序列的檢測窗口;iou 為兩個窗口的交并比。
上述函數會將高于閾值Nt的置信度評分si衰減為與M重疊窗口的線性函數的值。因此,與M相距較遠的所輸出的矩形檢測框不會被影響,而將更大的懲罰分配給與M 相距較近的所輸出的矩形檢測框。當出現檢測窗口重疊且懲罰函數不是連續的時,可能導致排序的矩形檢測框列表突發性改變的情況。當無重疊情況發生時,連續懲罰函數應未施加懲罰,并且在高重疊處的懲罰應該很高。此外,當重疊較低時,因為M不應該影響與其重疊度非常低的檢測窗口的分數,所以懲罰函數應該逐漸增加懲罰。當檢測框bi與M 的重疊且交并比與1 接近時,bi應當受到顯著的懲罰。綜上原因,soft-NMS算法將高斯懲罰函數加入式(5):

式中,D為級聯分類器的檢測率。
Soft-NMS也是一種貪婪的算法,并沒有找到全局最佳的檢測框重新評分。檢測窗口的重新評分以貪婪的方式進行,因此不會抑制具有高局部得分的那些檢測窗口。如圖2 所示為傳統的NMS 算法與soft-NMS算法輸出檢測窗口的對比圖,其中圖2(a)為融合前的窗口輸出效果圖,圖2(b)為傳統NMS 算法處理效果圖,圖2(c)為soft-NMS算法處理效果圖。在融合前的效果圖中,不同行人分別被若干窗口包括。為解決此問題,融合了傳統NMS算法。但是在行人遮擋的情況下,算法僅選擇置信度最高的檢測窗口,發生了誤去除現象,soft-NMS算法在傳統NMS算法的基礎上避免了窗口誤去除的問題,提高了檢測率。

圖2 改進前后窗口融合效果對比
基于HOG-LBP 算法框架,若直接將CoHOG 特征和RLBP特征進行串行融合,則生成的最終圖像特征描述子維度過高,對于算法實時性影響較大,基于對檢測速度改進的思路,本節設計一種級聯的特征分類器算法實現檢測。
如果僅使用單一特征對最簡單的AdaBoost 弱分類器進行訓練,那么可將此弱分類器稱為單個特征上的弱分類器(a Weak Classifier upon a Single Feature,WCSF)[20]。通過樣本集的訓練可找到最佳分類閾值,該閾值取決于最小分類誤差標準。參考AdaBoost 的方法,在INRIA數據庫中提取RLBP特征和CoHOG特征生成兩個特征集,并分別訓練兩個WCSF。與AdaBoost弱分類器不同,本節弱分類器的最優閾值計算不僅取決于最小分類誤差準則,還取決于正樣本最大檢測率。對于弱分類的訓練步驟[19]如下:
步驟1對于特征f,計算N個正負訓練樣本的特征值。
步驟2對特征值進行排序以生成特征值表。
步驟3對1≤i≤N中的元素i:計算所有正樣本的權重之和T+;所有負樣本的權重之和T-;計算第i個元素之前所有正樣本的權重之和;計算第i個元素之前所有負樣本的權重之和。
步驟4選擇第i-1 個元素和第i個元素之間的值作為閾值,此時弱分類器的分類誤差和正樣本檢測率分別為:

步驟5若通過步驟4 僅計算得一個閾值Ti滿足以上條件,則Ti就是最佳閾值T;若同時計算出多個閾值滿足條件,則需要使用式(8)計算出各閾值對應的值,最佳閾值為具有最大正樣本檢測率的閾值。
Zhang等[20]提出了兩層級聯分類器,具有高分類速度的簡單特征分類器放在第1 層中,而具有慢速的復雜特征分類器放在第2 層中,以提高檢測速度。基于此思想,在本小節中,級聯順序由特征提取的計算復雜度決定。當簡單特征分類器位于復雜分類器的前面時,前一個分類器過濾掉的負前景對象將不會被后一個分類器處理。因此,作為復雜特征分類器的輸入的對象的數量減少,并且計算時間也減少。RLBP 特征在計算效率上相對CoHOG 特征有著較大優勢,本小節將4 級RLBP特征級聯分類器串聯1 級CoHOG 特征分類器作為預處理環節添加到最終的CoHOG-RLBP特征分類器之前,最后一級CoHOG-RLBP 特征分類器使用的是串聯融合的CoHOG-RLBP 特征,廣義上此分類器仍為WCSF,因此該弱分類器訓練方法與前5 級弱分類器相同,這樣就構成了一個6 級級聯分類器。如圖3 所示,為本文分類器設計與算法流程圖。本文最終提出基于級聯特征分類器的行人檢測算法(以下稱為級聯CoHOG-RLBP算法)。

圖3 基于級聯特征分類器的行人檢測算法
為對算法各改進部分的有效性進行驗證,在HOG-LBP算法框架下將CoHOG特征分別和LBP特征與RLBP特征融合,使用SVM 分類器分類,構建兩種對比算法:CoHOG-LBP 算法和CoHOG-RLBP 算法,選取HOG算法[5]、HOG-LBP算法[9]來作為對比算法,通過比較在INRIA 行人數據集測試集上的分類結果以及畫出各算法關于INRIA 行人數據集的DET(Detection Error Tradeoff)曲線來進行對比,以論證本文所提出算法在檢測性能上的優越性,同時比較各算法檢測效果的優劣。
實驗所采用硬件平臺為一臺處理器為Intel(R)Core(TM)i7-7800X CPU @ 3.50 Hz 的臺式機,顯卡為雙NVIDIA Corporation GP102[GeForce GTX 1080 Ti],操作系統為Ubuntu 18.04.1 LTS。實驗實現算法所用軟件平臺為Matlab R2016b。
為驗證本文算法的優越性,比較各算法在INRIA行人數據庫上的分類準確率與召回率,得到如表1 所示的分類準確率與召回率匯總情況。由表1 可知,將CoHOG-LBP算法和CoHOG-RLBP算法與傳統算法進行比較,準確率和召回率均有所提升,其中CoHOG-RLBP提升幅度較大,可知CoHOG特征和RLBP特征相較于傳統的HOG 特征和LBP 特征對算法的檢測精度均具有提升作用。將本文算法與CoHOG-RLBP算法進行比較,兩種算法的準確率與召回率均幾乎持平。綜上,本文所使用的特征提取方法與傳統算法相比在檢測精度上具有明顯優勢,且本文算法所使用的級聯特征分類器與傳統的將特征融合與SVM分類器相結合的算法相比并不會造成檢測精度下降。

表1 各算法分類準確率和召回率匯總
圖4 所示為各算法的檢測誤差權衡(Detection Error Tradeoff,DET)曲線對比圖,表示給定樣本圖像數目為N的樣本集中(其中每張圖像可能存在也可能不存在目標,且已對存在的目標進行標定),錯誤判定圖像中的目標則計為錯誤正例(false positive)。橫坐標是每個樣本中的錯誤正例的次數(false positive per image,FPPI);縱坐標為漏檢率(miss rate)。行人檢測算法的DET曲線越偏向坐標系的左下方就越表明算法的識別精度越好。由圖4 實驗結果可得到與表1 相同結論,可驗證本文算法所使用的特征有效提高了檢測精度,且級聯特征分類器對檢測精度并不會有較大影響。

圖4 不同算法DET曲線對比圖
圖5 所示為各場景下本文算法對行人目標的檢測效果圖。圖5(a)為噪聲較多圖像較模糊的場景,圖5(b)為光照不均且部分區域光線較為昏暗的場景,圖5(c)為背景與前景均較為復雜的場景,本文算法基本可準確檢測出圖中各行人目標,對光照和噪聲具有較強的魯棒性。

圖5 不同場景下級聯CoHOG-RLBP算法檢測圖
本文使用INRIA 行人數據庫的測試集的正樣本集進行速度對比實驗。由于測試集正樣本集共288 張圖片,當中圖片大小不同且其中大多數像素尺寸為480 ×640 的行人圖片,則選取其中211 張圖像像素尺寸為480 ×640 的圖片組成新的測試集,進行運行速度對比實驗。實驗運行行人檢測算法10 次,計算這10次實驗的平均每幀檢測時間作為評價標準。實驗結果見表2。
由表2 可知,本文算法由于在分類器設計上使用了6 級級聯特征弱分類器,大幅提升了算法的檢測速度,本文算法在檢測實時性上具有明顯優勢。綜合算法的檢測精度性能,本文所提出的基于級聯特征分類器的行人檢測算法與傳統算法相比性能有大幅度的提升,本文所設計的分類器不僅可以明顯提升行人檢測算法的檢測速度,而且不會影響對算法的檢測精度產生負影響。

表2 各算法平均檢測時間匯總
本文基于HOG-LBP 行人算法框架,提出了一種基于級聯特征分類器的行人檢測算法。本文分別提取圖像的CoHOG特征與RLBP特征,同時針對檢測實時性問題設計了一種包含4 級RLBP特征弱分類器、1 級CoHOG特征弱分類器及1 級CoHOG-RLBP 融合特征弱分類器在內的6 級級聯特征分類器實現最終分類,并使用soft-NMS 算法進行檢測窗口融合。本文算法有效提高了檢測精度,對噪聲和光照具有較好的魯棒性,能夠很好描述行人與背景之間的梯度空間特性,而且具有較好的檢測實時性,本文算法相較傳統算法具有顯著的優越性。
但是本文算法所使用的CoHOG 特征維數較高,可嘗試使用對其進行改進或做降維處理來進一步提升算法的檢測速度。并且,相較于深度學習方法,本文算法在檢測精度上仍具有改進空間。在未來研究中,可嘗試使用深度學習的方法進行檢測,來進一步提高檢測精度。