劉正全,鄧亮,吳杰
(常州星宇車(chē)燈股份有限公司,江蘇常州 213000)
基于機(jī)器視覺(jué)的行人檢測(cè)對(duì)于高級(jí)輔助駕駛系統(tǒng)至關(guān)重要。目前主要的研究?jī)?nèi)容都集中在可見(jiàn)光譜圖像中的行人檢測(cè)上,包含有多個(gè)數(shù)據(jù)集,并對(duì)行人進(jìn)行了樣本標(biāo)注[1]。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的發(fā)展,越來(lái)越多的高性能識(shí)別器都開(kāi)始使用CNN技術(shù)。可見(jiàn)光圖像的行人識(shí)別器的一個(gè)主要缺點(diǎn)是在夜間表現(xiàn)較差以及對(duì)光照變化比較敏感。所以將可見(jiàn)攝像儀的信息與紅外攝像儀提供的信息融合起來(lái)有助于克服上述缺點(diǎn)[3]。
作者利用基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法,該方法在可見(jiàn)光環(huán)境下是確實(shí)可行的,并將其擴(kuò)展到寬光譜情況。作者評(píng)估引入的模型和深度學(xué)習(xí)的數(shù)據(jù)集都是基于KAIST寬光譜行人檢測(cè)的標(biāo)注樣本,同時(shí)與其他的方法展開(kāi)性能比較。
KAIST寬光譜行人樣本數(shù)據(jù)集[4]由時(shí)間和空間對(duì)應(yīng)的可見(jiàn)和紅外圖像組成。數(shù)據(jù)集包含了可見(jiàn)和紅外圖像一共95 300組:訓(xùn)練集圖像數(shù)據(jù)為50 200組,其中行人的標(biāo)注數(shù)據(jù)41 500組;測(cè)試集圖像數(shù)據(jù)為45 100組,其中行人的標(biāo)注數(shù)據(jù)44 700組。
目前,KAIST標(biāo)準(zhǔn)測(cè)試中性能最好的是增強(qiáng)性聚合信道特征(Aggregate Channel Feature,ACF)識(shí)別器[5]。原始ACF檢測(cè)器以滑動(dòng)窗口方式操作,并使用二次采樣和濾波通道作為特征。這些通道是CIELUV色彩空間的組成部分,歸一化的梯度幅值和定向梯度的直方圖。ACF識(shí)別器(ACF+T+THOG)的寬光譜擴(kuò)展不僅包含了紅外圖像的對(duì)比增強(qiáng)版本,還有紅外圖像的HOG特征作為輔助通道。作者在實(shí)驗(yàn)中使用ACF+T+THOG作為標(biāo)準(zhǔn)與YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法進(jìn)行性能比較。
文中的模型是建立在YOLO識(shí)別架構(gòu)的基礎(chǔ)上,將行人檢測(cè)作為一個(gè)回歸問(wèn)題進(jìn)行求解。輸入圖像經(jīng)過(guò)一次推斷,即可得到圖像中所有行人的位置和相應(yīng)的置信概率,同時(shí)融合可見(jiàn)光和紅外兩種不同模式的信息來(lái)執(zhí)行二元分類(lèi)。
融合架構(gòu)(如圖1所示)分別在兩個(gè)子網(wǎng)絡(luò)中處理可見(jiàn)光與紅外光兩種模式的圖像數(shù)據(jù),并將所得特征表示融合在全連接的層中。這兩個(gè)子網(wǎng)都是基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的,該網(wǎng)絡(luò)中有24個(gè)卷積層和2個(gè)全連接層。在紅外圖像的子網(wǎng)絡(luò)中,每個(gè)卷積層的濾波器數(shù)量和可見(jiàn)光圖像的子網(wǎng)絡(luò)是一致的。最后的全連接層將兩個(gè)子網(wǎng)絡(luò)所產(chǎn)生的結(jié)果與具有8 192個(gè)神經(jīng)元進(jìn)行完全相融合。融合層后面是一個(gè)ReLU非線(xiàn)性層、一個(gè)Dropout掉線(xiàn)機(jī)制層以及一個(gè)二元分類(lèi)層。YOLO融合網(wǎng)絡(luò)的所有參數(shù)是以不斷迭代方式展開(kāi)學(xué)習(xí)的。
訓(xùn)練深度卷積網(wǎng)絡(luò)時(shí),提供足夠數(shù)量的標(biāo)注數(shù)據(jù)往往是提高性能的關(guān)鍵。由于數(shù)據(jù)采集和樣本標(biāo)注的成本較高,在大多數(shù)應(yīng)用中可用的訓(xùn)練數(shù)據(jù)是有限的。克服這個(gè)問(wèn)題的一種常用方法是在大型輔助數(shù)據(jù)集上對(duì)所要使用的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。
文中的預(yù)訓(xùn)練過(guò)程包括以下兩個(gè)步驟:在第一步中, YOLO-RGB和YOLO-IR的網(wǎng)絡(luò)卷積圖層使用ImageNet數(shù)據(jù)集進(jìn)行圖像分類(lèi)任務(wù)的訓(xùn)練;在第二步中,使用CALTECH標(biāo)準(zhǔn)的所有圖像對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)[2]。
YOLO融合模型對(duì)KAIST數(shù)據(jù)的訓(xùn)練也分兩步進(jìn)行:首先根據(jù)預(yù)先訓(xùn)練的結(jié)果,融合架構(gòu)的兩個(gè)子網(wǎng)絡(luò)用預(yù)先訓(xùn)練的權(quán)重或隨機(jī)值進(jìn)行初始化。 從這些參數(shù)開(kāi)始,分別對(duì)兩個(gè)子網(wǎng)絡(luò)進(jìn)行優(yōu)化。 之后,包括對(duì)整個(gè)YOLO融合架構(gòu)進(jìn)行聯(lián)合微調(diào)。當(dāng)子網(wǎng)的權(quán)重固定并且只有融合層被訓(xùn)練時(shí),可以達(dá)到最好的融合結(jié)果。
YOLO識(shí)別器的評(píng)估是在KAIST測(cè)試數(shù)據(jù)子集上進(jìn)行的,分別包含了白天和夜間拍攝的圖像。圖2顯示了YOLO識(shí)別器的ROC曲線(xiàn)以及對(duì)數(shù)平均缺失率。基于YOLO融合的預(yù)訓(xùn)練深層架構(gòu)明顯優(yōu)于目前的ACF+T+THOG識(shí)別器。YOLO融合的預(yù)訓(xùn)練深層架構(gòu)性能與標(biāo)準(zhǔn)相比:在白天條件下,提高了6.95%;在夜間環(huán)境下,提高了12.24%。大多數(shù)情況下,YOLO融合架構(gòu)可以達(dá)到目前ACF+T+THOG的性能。作者認(rèn)為至少有3個(gè)原因:首先,YOLO融合構(gòu)架中的子網(wǎng)絡(luò)YOLO-IR專(zhuān)門(mén)使用KAIST數(shù)據(jù)集進(jìn)行了訓(xùn)練;其次,YOLO融合網(wǎng)絡(luò)在預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)到了更多有意義的行人多模態(tài)特征,這是因?yàn)樵诩t外圖像通道中得到了有效的補(bǔ)充信息;最后,YOLO融合網(wǎng)絡(luò)在空間信息不太相關(guān)的階段展開(kāi)了信息融合。 正如所預(yù)料的那樣,紅外模式在夜間所具備的優(yōu)勢(shì)顯而易見(jiàn)。
作者在寬光譜圖像數(shù)據(jù)的基礎(chǔ)上引入了深度卷積神經(jīng)網(wǎng)絡(luò)用于行人檢測(cè)。KAIST寬光譜標(biāo)準(zhǔn)數(shù)據(jù)集的分析表明:基于YOLO融合的預(yù)訓(xùn)練深層架構(gòu)與目前的ACF+T+THOG解決方案相比更有優(yōu)勢(shì)。這是由于YOLO融合的預(yù)訓(xùn)練網(wǎng)絡(luò)在給定環(huán)境中,學(xué)習(xí)到了更多有意義的行人多模態(tài)抽象特征。