尚 昊,孫立博,秦文虎
(東南大學儀器科學與工程學院,江蘇 南京 210096)
駕駛環境感知系統作為無人駕駛體系最基本組成部分,直接決定無人車自主駕駛的能力和智能化水平,感知系統一般以視覺相機為主搭配不同類別的傳感器,因此研究基于傳感器融合的感知技術至關重要。近年來,利用可見光相機和毫米波雷達融合的環境感知方案得到了越來越多的研究,文獻[1]利用方向梯度直方圖(Histogram of Oriented Gradient,HOG)和支持向量機(Support Vector Machine,SVM)獲取行人特征,與毫米波雷達檢測結果進行特征融合,對不同工況行人具有較高識別率。文獻[2]使用立體攝像機和毫米波雷達進行信息融合,利用視覺獲取近橫向物體運動信息,利用毫米波雷達獲取遠縱向物體運動信息,檢測結果投影至感興趣區域(Region of Interest,ROI),再結合自身車輛運動狀態進行危險環境感知。文獻[3]在圖像行人檢測中加入主成分分析(Principal Component Analysis,PCA)降維,利用加入深度信息的目標匹配方法實現毫米波雷達與機器視覺融合的行人檢測,在光線良好、視野清晰的天氣條件下具有較好的檢測效果。但對于夜晚黑暗無光的場景,可見光相機檢測效果會受到很大影響。2018年3月22日,美國一輛Uber無人車撞上一名過馬路的行人,致其死亡,這是無人車首起致人死亡事件,警方公布的視頻顯示,受害人從黑暗處突然出現在車輛前方,車輛閃躲不及導致事故發生。因此需要研究一種行人檢測方法提升目前環境感知系統在夜間場景的信息獲取能力。由于紅外相機獲取的是場景中的紅外輻射信息,不受光照條件影響,可在夜間場景對行人清晰成像,因此,可以使用紅外相機代替可見光相機進行夜間環境感知。
文獻[4]對車載紅外夜視技術的發展進行了研究,紅外視覺被越來越多地應用在車輛輔助駕駛系統以提升行車安全性,并分析了車載紅外夜視輔助系統需要能夠進行全天候工作,應對紅外行人尺度、外觀變化大以及存在遮擋等問題的挑戰。因此需要更好的目標檢測算法來解決紅外行人檢測存在的問題。隨著深度學習的發展,基于卷積神經網絡進行目標檢測的模型展現出了良好的效果,文獻[5-6]使用兩階段(two-stage)目標檢測算法,在候選區域運行目標分類器進行檢測,文獻[7-9]YOLO(you only look once)系列一階段(one-stage)目標檢測算法,將目標檢測問題轉換成回歸問題,不斷改進網絡模型結構和細節,提升了檢測速度、信息覆蓋度和泛化能力。文獻[10]將YOLO算法應用于紅外圖像行人檢測,改進模型輸入分辨率取得較好效果,文獻[11]為YOLO的第四個版本在網絡結構和多尺度檢測上做了進一步改進,符合紅外圖像行人尺度變化大的特征,可以用來進行紅外圖像行人目標檢測的研究。在紅外圖像中檢測到行人目標之后,還需要獲得行人的距離速度等信息,文獻[12]利用紅外圖像進行測距研究,10 m~70 m內的測距絕對誤差在3米之內,70 m~110 m絕對誤差遠大于3 m,而毫米波雷達在中距離絕對誤差在0.25 m之內,長距離在0.5 m之內,具有更好的測距精度,同時文獻[13]分析指出毫米波雷達以其波長短、穿透能力強、大氣衰減小、不受塵埃及惡劣天氣影響的特點具備全天候障礙物距離和速度測量的能力,因此毫米波雷達滿足與紅外相機在夜間環境進行行人檢測的條件,同時紅外圖像行人檢測結果可以彌補毫米波雷達在場景語義信息獲取能力的不足,研究兩傳感器融合感知可以實現優勢互補。在視覺與毫米波雷達融合策略選擇上,文獻[14]利用卡爾曼濾波處理Mobileye和毫米波雷達匹配的目標,文獻[15]利用毫米波雷達產生ROI并在其中運行圖像檢測算法。由于紅外圖像測距精度不高,毫米波雷達對行人目標進行檢測時產生的回波不穩定,本文不使用這兩種融合策略。
本文提出的基于紅外相機和毫米波雷達融合的夜間行人檢測,對兩傳感器數據分別進行處理,紅外圖像處理采用改進的YOLOv4算法,毫米波雷達數據處理采用卡爾曼濾波和生命周期算法,利用紅外圖像的語義信息和雷達數據的運動狀態信息進行基于特征的融合,實現行人檢測;在此基礎上發揮毫米波雷達的運動跟蹤優勢,提升紅外圖像對運動過程中存在遮擋的行人的檢測能力。最后通過實驗證明融合算法的有效性。
基于紅外相機和毫米波雷達融合的夜間行人檢測融合算法如圖1所示,首先進行兩傳感器原始數據的采集,并進行數據的時間配準,確保采集到同一時刻的場景信息,再分別處理兩傳感器數據:對紅外圖像利用改進YOLO網絡進行行人檢測,通過檢測算法輸出的檢測框獲取行人類別信息;對場景中的毫米波雷達數據先進行基于潛在危險的目標預處理以降低模型復雜度,再將上一個算法處理周期的雷達有效目標與本周期數據預處理之后的目標進行一致性匹配,匹配成功的目標進行卡爾曼狀態估計,對于未匹配的目標,可能是場景中新出現的目標也可能是已經不在當前場景的舊目標,對于新目標執行目標生成算法來避免虛假檢測,對于仍處在生命周期內的舊目標進行狀態預測來避免雷達漏檢,最終獲得檢測目標的距離和速度信息。數據處理完成之后,對兩傳感器檢測目標進行空間匹配,將雷達坐標系中的點投影到圖像的像素坐標系下,基于圖像檢測框執行目標匹配算法,使得雷達檢測目標帶有的距離和速度特征與檢測框中的行人類別特征進行融合,最終實現行人檢測。

圖1 傳感器融合算法圖
在行人運動過程中,由于紅外圖像對比度低或可能被路邊障礙物部分遮擋,圖像檢測算法可能存在漏檢導致沒有檢測框輸出,此時目標匹配失敗,導致融合沒有結果輸出。對于這種情況,如果此時毫米波雷達檢測到行人,可以利用已經進行過類別特征融合的毫米波檢測目標點彌補基于圖像檢測的不足。因此在行人后續運動過程中,對圖1中的融合算法進行改進,改進模型如圖2所示。

圖2 行人運動過程算法改進模型圖
改進模型從目標匹配開始描述,依然將檢測框中目標與毫米波雷達目標進行匹配,若匹配成功,進行行人類別特征和距離、速度特征融合,然后判斷當前毫米波雷達目標是否第一次與圖像框進行匹配,是第一次則將類別信息反饋給毫米波目標檢測結果,毫米波檢測目標增加一個標志位記錄當前目標的類別;不是第一次匹配,則進行結果輸出。
目標匹配成功之后,如果已經記錄了類別信息的毫米波雷達目標點并沒有與紅外圖像框成功匹配,則表明后續行人運動過程中存在紅外圖像漏檢,這種情況下直接用毫米波檢測的信息進行輸出,彌補紅外圖像行人檢測算法中的漏檢,這類目標稱為雷達成功跟蹤目標。
對融合算法中檢測目標不同特征的選取方法進行總結,如表1所示。

表1 融合特征及選取方法
本文基于YOLO網絡進行紅外圖像行人檢測。YOLO網絡的檢測策略是將輸入圖像分為7×7的網格,每個網格均進行2個檢測框的預測,且每個網格只預測一個類,輸出檢測框是檢測目標的置信度以及多目標預測概率。對于檢測目標而言,目標中心所在的網格單元負責該目標的檢測,輸出邊界框(bounding box)并用置信度分數(confidence)來表征邊界框是否包含目標以及目標位置是否正確,計算如式(1)。

式中,Pr(object)為邊界框中存在物體的概率,表示交并比(Intersection Over Union,IOU),計算如式(2)。

式中,area為圖像區域面積,PB(Prediction Box)表示預測框,GT(Ground Truth)表示真實區域。YOLO最終預測結果即為7×7×2個檢測框,再使用閾值篩選和非極大值抑制去除冗余窗口。
YOLOv3使用骨干網絡darknet53并加入特征金字塔網絡(Feature Pyramid Networks,FPN)結構[16],以其良好的性能和具有普適性的網絡得到較為廣泛的應用,后續基于YOLO的算法均在YOLOv3的網絡基礎上進行性能的提高。
YOLOv4將一階段目標檢測算法分為對原始圖像進行操作的輸入層(Input),特征提取的骨干網絡(Backbone);負責最后的預測的頭部(head),連接Backbone和head的頸部(neck),并對各個部分在YOLOv3的基礎上進行改進。
YOLOv4保留了darknet53架構并使用跨階段局部(Cross Stage Partial,CSP)[17]網絡結構對骨干網絡進行改進。CSP網絡的特點是將輸入特征圖按照通道切割,只將其中一部分經過網絡前向傳播,而另一部分則與前一部分經過網絡的輸出結果直接進行張量拼接,因為只有一部分進入網絡,因此參與計算的輸入量減少,模型計算量大大減少,減少了梯度信息的重復利用,也減少了內存的消耗使得網絡輕量化的同時保持準確性。在neck部分加入空間金字塔池化(Spatial Pyramid Pooling,SPP)[18]模塊,增加了不同尺度特征圖的特征獲取能力,同時在FPN結構中加入路徑聚合網絡(Path Aggregation Network,PAN)[19]即在上采樣形成的特征金字塔之后加入一個自底向上的特征金字塔,融合了不同特征層的特征信息交給檢測層進行輸出,最大程度豐富特征信息。
YOLOv4作者公開了YOLOv4、YOLOv4-csp和YOLOv4-custom三種網絡配置,本文在YOLOv4網絡的基礎上進行模型訓練并進行部分細節改進。
激活函數的選擇對卷積神經網絡非常重要,為了使網絡梯度變化更為平滑從而得到更精確的檢測效果,本文使用Swish函數[20]代替YOLOv4骨干網絡中的激活函數Mish,Swish函數具有零時的單側有界性,平滑性和非單調性,表達式如式(3)。

而Mish函數允許一部分負梯度流入,使得神經網絡接收更多的信息,在骨干網絡之外,本文使用Mish代替Leaky ReLU,Mish函數如式(4)

YOLOv4網絡處理檢測結果中存在的多余或者錯誤的目標候選框時采用greedy_nms進行非極大值抑制算法,算法使用式(2)計算IOU,這種計算方法對于兩個檢測框重疊的不同情況無法進行區分,為了解決這個問題,本文的非極大值抑制算法采用DIOU[21]計算檢測框的交并比,DIOU既考慮了檢測框的重疊面積又考慮了尺寸和中心點的距離,計算如式(5)

式中,ρ(b,bmax)表示當前檢測框(b)與最大概率檢測框(bmax)中心的歐氏距離,c表示兩個檢測框最小外接矩形的對角線長度。
由于改變了backbone中的激活函數,本文將改進后的YOLOv4網絡稱為YOLOv4_Swish,結構如圖3所示。圖中DBM(Darknet,Batch normalization,Mish)部分在原YOLOv4網絡中為DBL(Darknet,Batch normalization,Leaky ReLU),DBL對應卷積,批量歸一化以及Leaky ReLU激活函數,DBM則對應卷積,批量歸一化以及Mish激活函數。網絡結構中DBS(Darknet,Batch normalization,Swish)與CSPx即為backbone部分,CSPx代表CSP模塊,內部有x個殘差單元,DBS對應卷積,批量歸一化以及Swish激活函數。YOLOv4的backbone中最小單元均為DBM,而在YOLOv4_Swish中替換為DBS。

圖3 YOLOv4_Swish網絡結構
毫米波雷達能夠對場景中的長距離和中距離各種類型障礙物進行檢測,對于駕駛車輛來說,存在潛在危險的障礙物主要為距離較近和運動的物體,因此為了降低數據處理的復雜度,在避免碰撞潛在危險障礙物的基礎上進行雷達數據的預處理。在雷達檢測的角度范圍內,從檢測邊緣開始,每一個小角度θ之內選取距離最近的障礙物,從雷達原始檢測目標中過濾掉與該障礙物距離超過閾值dθ的靜止障礙物,運動物體保留,如圖4所示。

圖4 雷達數據預處理示意圖
由于雷達測量存在著誤差,為獲取更準確的行人運動信息需要對雷達數據進行濾波處理,本文建立了三階卡爾曼濾波模型對行人運動的x和y方向的運動狀態進行處理,取x方向進行說明。
首先對行人運動這一連續過程建立系統的連續狀態方程,如式(6)。

式中,X=[x(t),v(t),a(t)]T表示連續時間域狀態向量,A為狀態矩陣,B為噪聲驅動矩陣,u表示系統噪聲。
對該連續時間域運動過程按照毫米波雷達采樣間隔進行離散化處理,取檢測障礙物x方向的相對距離、x方向相對速度和x方向的相對加速度作為系統狀態向量Xk=[xk,vk,ak]T,取x方向的測量距離作為觀測向量Zk=[x′k]T。
建立系統從第k次探測周期向第k+1周期變化的系統狀態方程如式(7)。

根據精確離散方法,式中:Φ為狀態轉移矩陣,G為系統的噪聲驅動矩陣,ωk為采樣周期k的過程噪聲。
建立系統觀測方程如式(8)。

本文取x方向距離為觀測值,H為量測矩陣,Vk+1代表距離的測量噪聲。
對該過程使用卡爾曼濾波算法處理方法如下:

再計算先驗誤差的協方差矩陣并進行更新。

式中,QK表示系統過程噪聲的方差,然后進行卡爾曼增益的計算,更新卡爾曼增益。

式中,Rk+1表示測量噪聲的方差,利用以上參數進行第k+1采樣周期障礙物運動狀態的最優估計。

計算新的最優估計的誤差的協方差矩陣并進行更新。

更新最優狀態,并重復上述過程進行新一周期的狀態最優估計。算法初次運行時以觀測值作為初始值。
為了確定相鄰兩個檢測周期中雷達目標的對應關系,需要進行目標一致性匹配[22],利用當前狀態信息依據式(9)進行下一周期目標狀態的預測,比較預測值與測量值之間的差距,選擇滿足縱向距離變化dy,橫向距離變化dx,速度變化dv在閾值范圍內的目標為同一障礙物,如式(14)。

利用目標一致性匹配規則進行雷達檢測目標匹配,對不同匹配結果依據生命周期算法[23]進行處理,對于能匹配的檢測目標,將當前幀雷達觀測值與前一幀的算法估計值輸入卡爾曼濾波器進行狀態估計。對于不能匹配的檢測目標,若為新出現的目標,進行目標生成過程,連續三次采樣均出現的目標才認為是真實的新目標;若為當前幀未檢測出的上一場景舊目標,如果連續檢測丟失次數在閾值之內,則利用式(9)進行預測并輸出結果,并更新生命周期值,否則認為目標已經消失。最終完成毫米波雷達對當前場景障礙物目標的檢測輸出。
進行傳感器數據融合的基礎是能將同一場景時刻的毫米波雷達的檢測數據點投影在紅外圖像上,然后結合紅外圖像的檢測結果進行分析,因此需要對傳感器檢測結果進行時空匹配。
由于傳感器的采樣頻率不同,采用雷達進行采樣后觸發相機采樣的方法完成時間配準,保存該時刻的傳感器信息進行數據處理。
為實現空間匹配,需將毫米波雷達坐標系下的障礙物檢測結果先轉換至紅外相機坐標系,這一步可以利用相機外參矩陣進行平移和旋轉操作,再利用相機成像模型最終轉移至像素坐標系。以相機成像平面為xy平面,垂直于該平面為z方向,則坐標轉換可表示為式(15):

式中,(u,v)表示圖像中的像素坐標值,Zc為障礙物點在相機坐標系下的Z坐標,R為3×3的旋轉矩陣、T為3×1的平移矩陣,(Xm,Ym,Zm)為毫米波雷達坐標系下障礙物坐標,fx,fy,u0,v0均為相機內參。根據實際安裝情況進行外參測量,實現雷達坐標系到像素坐標系的轉換。
由于兩傳感器安裝的相對位置(如圖5所示),毫米波雷達檢測行人的檢測點投影到圖像上一般處于行人障礙物的中間部位,因此目標匹配算法從檢測框的中心點出發尋找與之匹配的毫米波雷達檢測點,由于行人障礙物細長的形狀特點,以檢測框寬度為依據進行匹配,匹配距離限制在閾值dlimit之內,閾值計算方法如式(16)。

式中,γ為閾值系數,使用閾值系數考慮了距離遠近帶來的尺度變化問題[24],測試時γ取值為1.4,Wbox為檢測框的寬度的一半,匹配時選取與檢測框中心歐式距離最近的雷達點與圖像目標進行匹配。
如果兩傳感器目標匹配成功,則依據表1對檢測目標特征進行選取,輸出融合結果;如果圖像成功檢測目標,但是雷達無檢測目標結果,則以圖像目標檢測框的中心點作為行人位置的表征點,將該點依據式(15)轉換至雷達坐標系,即可得到該像素點對應雷達坐標系中的物理坐標,從而得到目標的位置信息,同時借助連續視頻幀計算行人運動速度信息,以圖像檢測結果為最終輸出結果;如果雷達實現了目標跟蹤,紅外圖像檢測框并未輸出,則以雷達檢測結果作為融合結果輸出,雷達模塊依據圖2所示方法流程記錄類別信息,彌補紅外漏檢。
場景信息系統借助百度Apollo智能移動平臺搭建,如圖5所示。紅外相機選用XCore LA3110非制冷紅外機芯組件,毫米波雷達為Delphi ESR雷達,車載電源統一為設備供電;車載計算機使用ROS操作系統接收紅外相機數據和雷達檢測數據并執行本文所述算法。

圖5 采集系統設備圖
在道路場景中利用紅外相機進行夜晚行人數據采集,采集1 698張高質量紅外圖像并進行標注制作數據集,其中1 197張為訓練集,501張為測試集對網絡模型進行訓練和評價,實驗環境如表2所示。

表2 紅外圖像行人檢測實驗環境介紹
在目標檢測領域使用平均準確率(Average Precision,AP)對模型進行評價。利用式(2)計算檢測值與真實值之間的比值IOU,以IOU為評價標準將檢測結果分為真正例(true positives,TP)、假正例(false positives,FP)和假反例(false negatives,FN),TP表示IOU≥閾值的檢測結果的數量,FP表示IOU<閾值的檢測結果的數量,FN表示IOU為0的檢測結果的數量。據此計算模型的精度(Precision)和召回率(Recall),如式(17)、(18)所示。

平均準確率綜合考慮精度和召回率,調整閾值從0%~100%,計算不同閾值時對應的Precision和Recall值,并以此繪制Precision-Recall曲線,計算曲線與x軸之間的面積,如式(19)。

使用不同算法應用于本文的數據集,分別計算平均準確率,如表3所示。

表3 不同模型方法平均準確率對比
可以看出本文使用的改進方法YOLOv4_Swish相比YOLOv4算法可以更準確檢測出行人目標,相比使用傳統機器學習的方法在圖像行人特征提取上具有更好的效果,適用于本文融合算法中紅外圖像數據處理部分。
在校園環境下利用可見光相機和紅外相機進行夜間視頻的同步采集并運行目標檢測網絡,通過對比可以明顯看出紅外相機在夜間環境具有明顯優勢,圖6(a)為可見光相機拍攝視頻中截取的一幀,圖6(b)為紅外相機拍攝視頻中截取的相似時刻的一幀圖像。

圖6 夜間環境檢測效果對比
圖6中可見光圖像行人檢測采用YOLOv4模型公開的權重和網絡配置,紅外圖像行人檢測采用本文YOLOv4_Swish網絡及訓練的模型權重,驗證了夜間場景紅外圖像行人檢測具有良好的效果。
為了說明毫米波雷達對運動行人的檢測能力,統計單個行人在信息采集系統的左前方從縱向距離3米行走至縱向距離83 m運動過程的雷達檢測數據(原始數據沒有檢測到目標時以0表示檢測結果),并使用1.3節的方法對雷達原始數據進行處理,結果如圖7所示。

圖7 濾波算法處理前后雷達目標距離數據
圖7中的橫坐標為雷達采樣的周期數,縱坐標為距離,單位為米。圖7(a)為原始數據,圖7(b)為處理之后的數據。原始數據中有很多檢測距離為0的點,這是由于雷達檢測行人的回波不穩定出現目標漏檢,1 098個原始數據點中出現613次漏檢,如果以原始數據作為雷達模塊檢測結果,雷達目標檢測成功率低,導致融合結果中缺失雷達數據,無法從雷達數據結果中獲取目標的運動信息,只能以紅外圖像檢測結果作為融合結果;同時,如果雷達檢測結果中存在較多漏檢,則在紅外圖像漏檢時,雷達無法起到補充作用,對已融合目標難以進行跟蹤,導致融合算法檢測成功率降低。
采用雷達數據處理算法時,設置生命周期算法中允許最大連續檢測丟失次數為15(15個雷達采樣周期,0.75 s),這考慮到了系統的實時性要求。由處理結果圖表明,雷達數據處理算法能夠對漏檢目標進行較好的預測,應用數據處理算法后,只存在129組漏檢數據,對于縱向距離在50 m以內的行人目標能夠進行較為準確的連續檢測,50 m以上實現部分連續檢測,預測距離數據能夠與目標運動趨勢相符合。
行人檢測融合算法的重點是將毫米波雷達的檢測目標點與紅外圖像中的行人進行目標匹配,典型匹配結果如圖8所示,圖中的行人檢測框為YOLOv4_Swish算法檢測,圓點為雷達檢測目標點。

圖8 目標匹配結果圖
從匹配結果可以看出,對于稀疏行人,雷達檢測目標具備匹配點,對于并排行走的密集行人只有一個目標匹配點,這是受到Delphi ESR雷達在中距離多目標辨別能力限制(多目標辨別距離1.3 m)。因此進行目標匹配實驗時,綜合考慮雷達的檢測范圍和多目標辨別能力,在雷達可檢測的角度范圍內,選取稀疏行人場景計算兩傳感器檢測目標的匹配準確率。
在校園道路進行目標匹配算法重復實驗,以紅外圖像中成功檢測的行人為基礎,統計與之成功匹配的毫米波雷達目標點。表4中實驗組1為中距離單人行走場景,實驗組2包含較多遠距離行人目標,實驗組3、4為稀疏多行人場景,選取雷達檢測效果較好的檢測范圍內的目標進行統計,以紅外圖像檢測框為基準,計算有多少個雷達點與紅外圖像框能夠匹配成功,并計算匹配成功率。

表4 行人特征融合目標匹配準確率
實驗結果如表4所示,總體目標匹配成功率為89.1%,達到了良好的效果,具備了后續行人運動過程改進融合算法的實驗基礎。
分析之前的夜間紅外圖像行人檢測實驗,紅外圖像漏檢的行人主要特點為行人與背景環境對比度低或者行人存在遮擋,因此在具備這樣特點的場景下進行改進融合算法的實驗,證明毫米波雷達對紅外圖像行人檢測總體檢測率的提升。
圖9(a)、9(b)為夜間行人與背景環境對比度低導致行人檢測不穩定的場景示意圖;圖9(c)、9(d)為行人運動過程存在部分遮擋示意圖,圖9(c)的行人在運動至圖9(d)的時刻被路邊障礙物遮擋,紅外圖像檢測算法并沒有檢測出目標。因此在圖9(b)和圖9(d)的場景中,雷達檢測結果作為行人檢測的最終輸出結果,提升了紅外視覺檢測能力。

圖9 運動過程行人融合檢測
在校園道路進行夜間駕駛環境行人檢測重復實驗,實驗中包括上述紅外視覺檢測不穩定的場景,也包括多人并排行走的場景,分別使用視覺、雷達和融合的方法對場景中的行人進行檢測,檢測結果如表5所示。

表5 不同方法檢測結果
從表5可以看出,傳感器融合方案能夠在一定程度克服傳感器弊端,提升單傳感器檢測成功率,傳感器融合的方案總體上具備較好的夜間環境行人檢測能力。
如表6所示,從不同傳感器方案角度出發分析紅外相機和毫米波雷達融合的夜間行人檢測效果。相對可見光相機和毫米波雷達融合的方案,紅外相機在夜間行人檢測表現出了更好的性能;相比紅外相機和毫米波雷達單獨檢測方案,傳感器融合方案解決了毫米波雷達語義信息缺失和紅外相機測距測速不準確的問題。

表6 不同傳感器方案檢測對比
從目標特征檢測方法進行分析,與文獻[1]相比,本文使用YOLOv4_Swish進行特征提取,相比HOG+SVM特征提取效果更好;與文獻[3]相比,本文在特征融合的基礎上做了進一步改進,達到利用毫米波雷達提升紅外圖像檢測成功率的效果。與文獻[12]相比本文不使用紅外測距,使用測距測速精度高的毫米波雷達檢測行人運動信息;與文獻[15]相比,由于毫米波雷達對行人檢測不如汽車穩定,本文不適合使用毫米波雷達生成ROI再運行圖像處理的算法,而是采用兩傳感器分別處理再進行基于特征的融合方法。
本文采用的基于紅外相機和毫米波雷達融合算法,既發揮了視覺傳感器在目標類別特征獲取的優勢,又發揮了毫米波雷達在目標運動狀態特征獲取的優勢。采用YOLOv4_Swish處理紅外圖像提升了模型的平均準確率,相比傳統方法得到更為精確的行人檢測結果,再利用毫米波雷達提升紅外圖像在行人存在遮擋等場景下的檢測成功率。實驗結果表明,應用本文的行人檢測方案能夠提升駕駛員和行人夜間出行的安全性。相比目前自動駕駛環境感知方案的主流傳感器可見光相機和激光雷達,紅外相機和毫米波雷達在煙塵等惡劣天氣具有更強的抗干擾能力,如何利用本文傳感器方案克服目前主流傳感器的弊端也是后續重要的研究內容。