余子航,于鳳芹
(江南大學 物聯網工程學院,江蘇 無錫 214122)
車載成像行人檢測是高級駕駛輔助系統和智能汽車領域的關鍵技術之一[1]。過去對行人檢測技術的研究主要基于單一可見光或單一紅外圖像。紅外圖像對光照變化不敏感,在全黑夜間、雨雪霧霾天氣或對面車燈眩光等情況下表現出比可見光圖像更佳的檢測能力[2,3],但其缺乏顏色和紋理等信息,并且在目標與背景熱輻射差異較小的情況下檢測效果較差。因此,車載紅外圖像并不能完全替代可見光圖像作為行人檢測的輸入信息,可以通過結合這兩者信息的多光譜圖像實現行人檢測以改善檢測效果。
文獻[4]采用視差表決的方法對可見光圖像與遠紅外圖像進行配準得到多光譜圖像對,并利用梯度方向直方圖(histogram of oriented gradient,HOG)特征結合支持向量機(support vector machine,SVM)實現行人檢測。文獻[5]提取遠紅外圖像中顯著的局部行人區域作為感興趣區域(region of interest,ROI),采用不變性特征對ROI內的可見光與長波紅外圖像進行特征提取和級聯融合,輸入SVM進行分類得到行人檢測結果。這些算法結合可見光與遠紅外兩種信息進行行人檢測,但將簡單的特征進行級聯并不能顯著提升檢測的準確率。Hwang等人[6]提出了一個基于可見光和紅外圖像對準的多光譜行人數據集(KAIST),并在聚合通道特征(aggregate channel feature,ACF)[7]的基礎上,加入紅外圖像的通道特征,提出了新的多光譜聚合通道特征(multispectral aggregate channel feature,MACF),比傳統的多光譜行人檢測方法獲得了更高的檢測率。但該方法對于特征的選取并沒有考慮到紅外圖像較于可見光圖像的優勢和區別,簡單的THOG特征對行人的描述能力不強。文獻[8]提出局部去相關通道特征(local decorelation channel features,LDCF),該方法利用各通道特征進行主成分分析得到的本征值構建濾波器組,同時去除通道特征中數據的局部相關降低了誤檢率,但漏檢率依然較高。文獻[9]在MACF特征的基礎上,加入紅外圖像的紋理特征來增強行人輪廓描述,但由于紅外圖像缺乏紋理信息,檢測效果改善不明顯。文獻[10]利用預訓練的卷積神經網絡(convolutional neural network,CNN)來學習多光譜圖像特征,并評估了早期融合和后期融合兩種網絡結構,算法識別率較高,但預訓練方法模型大、參數多,結構靈活性較差。文獻[11]使用更快的區域卷積神經網絡(faster region-based convolutional neural networks,faster R-CNN)用于多光譜行人檢測,并利用檢測框分割監督框架替代原先的錨框訓練,提升了檢測識別率,但是模型較為復雜。
基于以上分析,本文以MACF算法為基本框架,提取特征時著重分析紅外圖像的優勢,利用鄰域像素強度差異估計和區域信息熵分析來改進原有的HOG特征,構建新的熵加權強度差異直方圖(entropy weighted histogram of intensity difference,EWHID)特征,加強對行人目標的描述能力。傳統的多光譜行人檢測方法并沒有探究融合特征的表示能力。由于受光照和溫度等環境條件變換影響,多光譜特征在晝夜不同時段存在差異,導致全天候的檢測效果低下。本文利用Real Adaboost分類器對數據集中白天和黑夜圖像分別進行訓練,得到日用和夜用檢測器。在檢測階段,利用圖像的HSV空間直方圖信息進行晝夜判別,實現對輸入圖像的分時段檢測。仿真實驗表明,所提方法能夠提升行人檢測器的性能,降低了誤檢率和漏檢率。
1.1.1 特征描述
MACF的基本結構是通道,它融合了可見光和紅外波段的特征對圖像進行描述。這種混合通道的特征構建方式很大程度上提高了描述子對不同種類信息的分類表示能力,有助于提高復雜背景下目標的檢測結果。尤其是紅外通道信息在夜間檢測發揮著很大的作用,使得總體特征在全天候的行人檢測中有著良好的性能。MACF特征的主要計算流程如下:
1)通道組合:MACF定義了具有12個通道的組合特征,分別是可見光圖像的3個LUV顏色通道、1個梯度幅值通道(GM)、6個梯度方向通道(GO)以及紅外圖像的1個熱強度通道(T)和1個梯度直方圖通道(THOG)。
2)特征計算:聚合通道的特征計算十分簡單,首先給定一個多光譜圖像對作為輸入,計算預定義的通道。然后,根據預設因子對通道特征進行平均池化采樣,將下采樣得到的矩陣矢量化為像素查找表,該矢量即為最終的特征描述子。
3)多尺度計算:在行人檢測中由于目標大小不一,采用相同的尺度檢測目標會導致漏檢和誤檢,采用多尺度計算能夠有效解決這一問題。傳統方法將圖像縮放到各個尺度,然后對每個尺度都計算相應的特征通道,這種方法計算通道時會產生大量的冗余信息,耗費大量時間。MACF特征采用快速特征金字塔的方法進行多尺度檢測,并不需要將待檢測圖像縮放到所有尺度分別計算通道特征,而僅需要在每個尺度組內計算其中一個尺度層的通道特征,然后利用當前尺度的通道特征近似估計相鄰尺度上的通道特征,表達式如下所示
Cs≈R(C,s)·s-λi
(1)
式中C為當前尺度特征,s為尺度縮放因子,s∈{1,1/2,1/4},λi為每個通道特征對應的系數,在構建過程中,先計算原圖1/2和1/4倍的降采樣圖像,并針對尺度1,1/2,1/4提取通道特征,其余尺度的通道特征由已有的特征估計得到。
1.1.2 改進的熵加權強度差異直方圖特征
傳統MACF特征的THOG通道提取的是紅外圖像的HOG特征,該特征在可見光圖像中應用普遍,其基本原理是通過統計局部區域的像素梯度分布來描述目標形狀。而紅外圖像由于成像特性,行人目標的強度變化相對穩定,內部缺乏有效的信息,但目標的整體像素強度值通常高于背景,具有相對突出的邊緣輪廓區域和局部形狀。根據這些特點,本文在提取特征時,利用局部區域的像素強度差值直方圖估計來替代原先的梯度直方圖估計,并引入信息熵來分析各區域的直方圖分布,進一步加強邊緣區域對整體特征的貢獻程度。如圖1所示,改進的EWHID特征具體實現過程為:首先把圖像分成若干個4×4大小的元胞,計算元胞中每個像素與其周圍八鄰域像素的最大差值絕對值,計算表達式如下所示
D(x,y)=max|di-c|i=1,2,…,8
(2)

圖1 EWHID特征計算示意
式中c為當前像素的強度值,di為鄰域像素的強度值。通過D(x,y)來確定當前像素的大小和方向。統計元胞內所有像素的方向,并將幅值大小加權到對應方向上,得到一個元胞內的強度差異直方圖分布。與構建HOG特征的原理相似,將元胞以2×2的數量合并成一個區域,能夠得到區域的強度差異直方圖分布。通過區域的直方圖信息計算該區域的信息熵值,第k個區域的熵值計算表達式如下所示
(3)
(4)
式中hs為該區域中第s個強度差異直方圖的值,m為每個區域中的元胞數為4。r為每個元胞中的方向數,r的值等于鄰域數為8。將得到的熵值加權到對應的區域,得到該區域的EWHID特征。對區域直方圖進行L2范數歸一化處理,處理方程為
(5)
式中e為常數參數,它的值非常小。
在連接所有區域的直方圖向量后,最后得到整張圖像的EWHID特征。
MACF特征由可見光圖像特征和紅外圖像特征級聯融合得到,由于可見光特征易受環境的光照變化影響、紅外特征易受環境的溫度變化影響,因此,MACF特征在晝夜不同時段具有差異性,對白天和夜晚圖像的區分訓練檢測能夠使特征對同時段行人目標的表述更具針對性,本文提出一種基于HSV空間直方圖信息的晝夜圖像分類方法。亮度和顏色信息是判別白天和黑夜的主要條件,圖像的HSV顏色空間模型中的色度(H)通道直方圖和亮度(V)通道直方圖能夠很好地反映圖像的顏色和亮度信息。由于車載圖像的下半部分為道路場景,關鍵有用的信息都在圖像的上半部分,為了提高檢測速度只對圖像的上半部分進行處理。圖2展示了不同時段場景下上半部圖像H直方圖和V直方圖的差異情況,第一行為白天場景,第二行為夜晚場景。

圖2 白天和夜晚圖像的H直方圖和V直方圖對比
從H直方圖可以觀察到,夜間圖像的像素色度幾乎都集中在歸一化H通道直方圖的低值區域,而白天拍攝的圖像像素色度分布廣泛。這是因為夜晚環境的光照幾乎全部來自路燈和車燈等人造光,主要是黃光和紅光,相比白天環境的太陽光照,缺乏一定的光譜信息。圖3給出了H通道的色度區域劃分,[0,0.2]∪[0.8,1]為黃紅色度集中的區域[12]。統計這段區間內的像素個數nH,作為判別白天夜晚的顏色依據。

圖3 H通道歸一化區域劃分
從V直方圖觀察到白天圖像像素主要在高值區域分布,即亮度較高,而夜晚圖像像素主要集中在低值區域,即亮度較低。在0~255的亮度范圍內,統計數值大于150的像素個數nV,作為判別白天夜晚的亮度依據。遍歷數據集圖像,找到nH和nV的臨界值設定為兩個判決參數閾值:THH和THV。若nH小于THH或nV大于THV,那么圖像屬于白天時間段,否則就屬于夜晚時間段。
算法訓練與測試流程如圖4所示。

圖4 算法流程框圖
將訓練的正負樣本歸一化至64×32大小,用積分圖的形式計算樣本12個通道的改進MACF特征,包括從可見光圖像提取的3個LUV顏色通道、1個GM通道和1個GO通道,從紅外圖像提取的1個T通道和1個TEWHID通道。將得到的改進MACF特征送入Real Adaboost[13]分類器進行訓練,每次訓練采用自舉法進行,共訓練4輪,根據樣本集的大小、特征數量的大小來確定每輪的弱分類器個數分別是32,128,512,2 048,樹的深度為4。本文將訓練集中的白天和夜晚樣本分開訓練,得到日間分類器和夜間分類器,用于后續的分時段檢測。
首先按幀讀入圖像,利用HSV模型色度和亮度直方圖信息建立的判別準則對輸入多光譜圖像對中的可見光圖像進行晝夜分類,對每個輸入圖像對都設定一個時段標簽(白天或夜晚)。
采用滑動窗口法計算原圖的改進MACF特征,窗口大小為64×32。利用快速特征金字塔的思想直接對特征進行縮放,得到不同尺度圖像下的特征向量。
將標簽為白天的圖像特征向量送入日間分類器,標簽為夜晚的圖像特征向量送入夜間分類器,在結束端輸出最后的檢測結果。
本實驗運行環境為Windows7 64位操作系統,Intel Core I5 CPU處理器,8 GB內存,MATLAB R2016a軟件平臺。本文研究的對象是車載攝像頭拍攝到的行人目標,實驗用到的樣本圖像取自KAIST數據集[6]。KAIST數據集是利用車載攝像頭采集的配準多光譜圖像對,包含了在校園、城鎮和公路多種場景下的白天和夜晚圖像,共有12個子數據集(set00~set02、set06~set08采集時間為白天,set03~set05、set09~set11采集時間為夜晚),總計95 328對配準圖像。實驗使用5 017對多光譜圖像對用于訓練,3 008對多光譜圖像用于測試,從set00、set01和set02中,每隔10幀共采取3 339對樣本,作為日間分類器的訓練集,從set03、set04和set05中,每隔10幀共采取1 678對樣本圖像,作為夜間分類器的訓練集,從總體訓練樣本每隔2幀共采取2 508對圖像作為不分時段分類器的訓練集。set06~set11作為測試集,每隔15幀共采取3 008對樣本圖像(白天測試樣本數為1 944,夜晚測試樣本數為1 064)。本文采用Dollar等提出的評估準則[14],利用平均漏檢率(log-average miss rate,LAMR)作為評價標準。如果預測的邊界框與任何行人標簽框的IoU比率大于50 %,則該預測框為真,無匹配的預測框和標記框分別為誤報和漏報。
本文提出的基于HSV信息的判別準則在3 008張可見光測試圖像上進行晝夜分類實驗的結果如表1所示,實驗設定閾值THH為105,THV為6×104。

表1 圖像晝夜分類的結果
利用這種方法,本文僅以2.6 %的錯誤率將輸入圖像分成白天和夜晚兩組,單步驟的處理速度為36 ms,基本達到實時性的要求。有部分黑夜圖像由于是在燈光密集,光照亮度較高的環境下拍攝得到,亮度信息與白天圖像接近,因此被錯判。
為了能夠說明EWHID特征和晝夜分類訓練檢測的優點,對特征進行了LAMR值檢測性能的比較,如表2所示。其中,MACF是原作者給出的檢測結果,MACF-Our是在原MACF基礎上調整參數檢測的結果,MACF-EWHID是將原MACF紅外通道的HOG特征替換成EWHID特征,并利用2 508對全天場景多光譜圖像訓練分類器進行檢測的結果,MACF-EWHID(day and night)是利用3 339對白天場景多光譜圖像和1 678對夜晚場景多光譜圖像分別訓練分類器,并通過HSV判別準則晝夜分類檢測得到的結果。

表2 檢測LAMR對比值 %
從表2可以看出,通過對數據集的采樣處理和參數的調整,本文的MACF特征效果要比原作者提供的結果要好一些。與MACF-Our的LAMR值相比,MACF-EWHID在全天測試場景下降低了5.12 %,白天測試場景下降低了4.01 %,夜晚測試場景下降低了5.61 %,說明改進的EWHID特征增強了總體多光譜聚合通道特征的表示能力。MACF-EWHID(day and night)利用晝夜分類訓練檢測后,LAMR值進一步降低到全天場景為48.23 %,白天場景為51.56 %,夜晚場景為43.24 %,說明晝夜分類訓練特征,并使用雙分類器檢測能夠使得算法性能有較大的提升。
表3給出本文算法與其他算法在KAIST數據集上的測試結果比較。

表3 本文算法與其他算法在KAIST數據集上的檢測結果對比(LAMR) %
相對于文獻[8]的算法,本文算法的LAMR值在全天測試場景降低了11.44 %,白天測試場景降低了10.81 %,夜晚測試場景降低了6.94 %。相對于文獻[10]的算法,本文算法的LAMR值在全天測試場景降低了3.07 %,白天測試場景降低了3.71 %,夜晚測試場景高出1.66 %,夜晚的檢測效果要略遜于文獻[10]。相對于文獻[15]的算法,本文算法的LAMR值在全天測試場景高出0.92 %,白天測試場景高出2.25 %,夜晚測試場景降低了0.51 %,全天和白天的檢測效果要略遜于文獻[15]。文獻[10]和文獻[15]為深度學習算法,學習特征的能力較強,在檢測識別率上有一定的優勢,但在參數選擇和模型訓練等方面較為復雜,本文算法在保證準確率的同時易于訓練,對硬件的性能要求較低。
為了能說明在一些復雜場景下本文算法的檢測效果,圖5給出本文算法和傳統MACF算法在KAIST數據集上的部分檢測結果對比。第一行為背景較復雜的白天場景,第二行為背景模糊,目標尺寸較小的夜晚場景,第三行為光照條件較差的夜晚場景,第四行為具有多尺度行人目標的夜晚場景。相比于傳統MACF算法,本文算法提出的誤檢窗口更少,在背景復雜、目標較小的情況下能夠準確地識別出行人,但在目標數量多,分布密集的情況下仍存在一定的誤漏檢情況。

圖5 2種算法在不同場景下的檢測效果對比
本文提出了一種具有EWHID特征的MACF晝夜分時行人檢測算法。該算法分別提取可見光圖像的10個通道特征、紅外圖像的熱強度和EWHID特征,提升了總體聚合通道特征對多光譜行人的表示能力。分別對數據集的白天和夜晚子數據集訓練,得到日間分類器和夜間分類器,并利用HSV顏色空間的H直方圖和V直方圖信息作為晝夜時段的判別準則,對輸入圖像進行分類,達到了日間分類器檢測白天圖像,夜間分類器檢測夜晚圖像的目標,檢測性能得到大幅提高。但是本文算法使用了晝夜兩個時段的分類器,接下來的工作重心將研究自動感知光照變化的方法,降低算法的復雜度。