改進RFB算法的車載實時行人檢測算法研究

2023-02-19 14:26:38劉婷婷王賽凌云郁翰文

電子制作 2023年3期

劉婷婷，王賽，凌云，郁翰文

（南京信息工程大學自動化學院，江蘇南京， 210000）

0 引言

在目前的行人檢測中系統(tǒng)研發(fā)中，檢測速度和檢測精度是制約車載識人發(fā)展的兩大難點和痛點。基于視覺的行人檢測技術是近年來被重點關注和研究的一項關鍵技術。在多種傳感器中，視覺傳感器具有更豐富的信息量、更高的精確性、功能更加豐富以及更合理的成本等優(yōu)勢。

文獻[1]出了一種適用于多樣復雜環(huán)境下多尺度行人實時檢測的方法，該方法可自適應提取可見光或紅外背景下的多尺度行人，滿足實際的檢測精度；文獻[2]針對基于視頻行人檢測的深度學習檢測框架計算復雜度較高的問題，提出一種改進的SSD檢測框架，從而實現(xiàn)計算量的減少。文獻[3]提出了一種頭部感知行人檢測網絡(HAPNet)，提高了遮擋條件下的行人檢測性能。

針對檢測速度慢這一痛點，隨著邊緣計算的發(fā)展，采取在車輛終端部署邊緣設備的方式，不僅能夠實現(xiàn)直接在邊緣設備上處理圖像數據、推斷計算進行檢測，還能通過一定的技術手段達到行人檢測這一應用對高標準實時性的要求。本文基于RFB算法思想，對其進行改進，設計了RFB—Nano算法，并將其部署在邊緣設備上，改進的算法有效地提高了檢測實時性，達到精確性和實時性的有效平衡表現(xiàn)。

1 基于RFB的行人檢測模型

■1.1 RFB模塊

在人類的視覺皮層中，群體感受野（Population Receptive Field，PRF）的規(guī)模大小是視網膜圖中離心率的函數，雖然各個感受野之間有差異，但是群體感受野的規(guī)模大小與離心率都呈正相關趨勢。劉等人[4]受到人類感受野RF結構的啟發(fā)，提出了RFB（Receptive Field Block），以加強輕量級CNN模型中對于深層特征的提取能力，如圖1所示，RFB設計了多分支結構，并且在各分支上設計了不同尺度的常規(guī)卷積和空洞卷積，并通過concat（銜接）和1＊1卷積，減少特征圖的通道數，生成最終的特征表達。

圖1 RFB模塊

■1.2 VGG16骨架網絡模型

VGG16由5組共13個卷積層、3個全連接層和5個池化層組成。由于一個5＊5的卷積可以由兩個3＊3卷積串聯(lián)實現(xiàn)，且感受野大小仍為5＊5，因此整個VGG16網絡均使用了同樣尺寸大小的3＊3卷積核進行堆疊，這樣的連接方式既減少了網絡模型的參數量，多層的ReLU激活函數也使得網絡有更多的非線性變化，從而使得CNN的特征提取能力更強；此外，每組卷積層后都使用了2＊2尺寸的最大池化層，以縮小特征圖尺寸，降低計算量；網絡最后還有3個全連接層，其中前兩個全連接層各含有4096個神經元，通過增加的dropout機制，隨機丟掉一些全連接層節(jié)點，達到防止過擬合的作用，最后一個全連接層輸出圖片中每個類別的概率，圖片的最終分類結果為概率最大的類別。

2 RFB-Nano行人檢測模型

■2.1 RFB-Nano檢測模型

本文提出的RFB_Nano檢測模型如圖2所示，相對RFBNet而言，對VGG16的特征提取網絡進行通道上的削減以及卷積數量的減少，添加了1＊1卷積層，使得模型參數大幅度減少；添加了BN層，使得模型訓練收斂速度加快；只使用了一個改進的RFB模塊，在保證不犧牲性能的前提下使得網絡更加簡單。在不同層的多尺度特征融合機制中，在保證精度不損失的前提下減少參數量。

圖2 RFB—Nano檢測模型

2.1.1 改進的RFB模塊

本文對RFB模塊的第一個卷積分支進行改進，如圖3所示，增加了一個3＊3卷積層，并且將原來3＊3空洞卷積因子設置為2。

圖3 改進的RFB模塊

2.1.2 特征提取網絡的壓縮

本文提出的RFB_Nano檢測模型，首先是對特征提取網絡的壓縮，將VGG16中的全連接層替換為卷積層，這一點會大大的提升速度，因為VGG中的FC層都需要大量的運算，有大量的參數，需要進行前向推理，并自定義卷積層，直接使用卷積層進行檢測。在不損失網絡性能的前提下，盡可能地提高檢測推斷時的速度，以達到實時處理的效果。根據上述特征提取網絡中含有大量卷積層，每組卷積都含有大量的卷積核數目的網絡特性，本文采取削減網絡通道和卷積層數量的方式：削減每一層的卷積核數目為原來的一半，且最多卷積核數目為256；且在第三組至第五組的卷積層中各去掉了一個3＊3卷積層，在第五組還去掉了一個最大池化層。

2.1.3 1＊1卷積

在RFB_Nano模型的網絡中從第三層開始，在每組卷積層中的3＊3卷積層之前都添加了一層1＊1卷積層。

1＊1卷積即為卷積核尺寸為1的卷積，使用1＊1卷積加在常規(guī)卷積后，加深加寬網絡結構，改進網絡的特征提取抽象表示。

1＊1卷積的具體作用有如下三點：

(1)升（降）維

一般來說，對于尺寸大小為n＊n（n＞1）的卷積核，通常還要考慮邊緣補0的個數以及每次卷積移動的步長，但是當卷積核尺寸為1＊1時，可以根據具體的需求控制卷積核的數量，從而實現(xiàn)進行降（升）維。

(2)增加非線性

1＊1卷積核的卷積過程相當于全連接層的計算過程，并且通過1＊1卷積層還加入了非線性激活函數，從而增加了網絡的非線性，使得網絡可以表達更加復雜的特征。

(3)減少模型參數

在常見的檢測模型中，由于需要進行較多的卷積運算，計算量十分龐大，因此可以通過引入1＊1卷積，在保證精度的情況下減少計算量。

以GoogleNet中的Inception為例，圖4(a)是原始的Inception模塊，圖4(b)是加入1＊1 卷積層進行降維后的Inception。輸入的特征圖大小為28＊28＊192，左圖的各個卷積核大小分別為1＊1＊64、3＊3＊128、5＊5＊32，右圖中在3＊3、5＊5 卷積前加入的1＊1的卷積核的通道數分別為96和16。

圖4

則圖a中該層的參數量大小為：

圖b中該層的參數量大小為：

由此可見整個參數量大約減少了三分之一。

2.1.4 BN層

BN層主要解決的問題是當低層網絡在訓練時由于參數的更新導致后續(xù)網絡層輸入數據分布的變化。它對每一層的輸入數據先進行歸一化的預處理以后，再進入網絡的下一層。

假設某層神經網絡具有d維的輸入數據為：

則對于該網絡層輸入數據的歸一化預處理方法為：

在上式中，網絡訓練采用的是batch隨機梯度下降方法，x(k)表示該批次訓練數據中第k個神經元，E(x(k))表示網絡中每一批次的參與訓練的神經元x(k)的平均值，Var(x(k))表示每一批訓練數據神經元x(k)的方差。

為了防止上式的歸一化方法影響到本層學習到的特征，引進了一對可學習的重構參數γ、β，且每個神經元x(k)都有一對參數γ(k)、β(k)：

綜上所述，BN層的前向傳播的過程即為：

其中，m為mini-batch的大小。

在本文提出的RFB_Nano檢測模型中，一方面由于BN層具有快速訓練收斂的特性，因此選擇了較大的初始學習率，學習率的衰減也很快，相較于RFBNet來說大幅度提升了訓練速度，減少了對初始化的依賴程度；另一方面，由于BN層具有提高網絡泛化能力的特性，省去了drop out層以及參數的選取問題。

2.1.5 多尺度特征融合機制

在本文提出的RFB_Nano中，如表1所示，分別在conv4_3、conv7、conv8_2、conv9_2、conv10_2、conv11_2的特征圖上的每個單元取4、4、4、4、4、3個default box，對于300＊300的輸入，則共會得到38＊38＊4+19＊19＊4+10＊10＊4+5＊5＊4+3＊3＊4+1＊1＊3=7759個default box。由此可見，每張圖片的default box數量有了一定幅度的減少，從而減少了網絡模型的計算量。

表1 SSD不同層的特征圖尺寸及Prior Box數量

■2.2 RFB_Nano損失函數

2.2.1 RFBNet損失函數

RFBNet的損失函數與SSD一致，默認框default box首先和真實框ground truth按照一定的原則進行匹配，接著根據匹配到的一對boxes分別計算分類損失和定位損失。

2.2.2 RFB_Nano損失函數

本文基于RFBNET的損失函數進行了改進，設計了RFB_Nano的損失函數，RFB_Nano中的定位損失采用SmoothL1Loss，為了平衡正負樣本的個數，采用的方法是Hard Negative Mining。在RFB_Nano中除了Hard Negative Mining，還采用了類加權交叉熵進行一定的分類性能上的改進。

由于目標檢測問題中背景占主導地位，因此需要處理不同類別之間的嚴重失衡問題。在圖像分類任務中，唯一可能的錯誤是前景類別之間的錯誤分類，但是在目標檢測任務中，錯誤多發(fā)生在前景和背景的區(qū)分中，而不是前景中幾類物體之間的分類中。在行人檢測中，由于行人這類物體在背景中所占比例較小，為了解決這個問題，采用類加權交叉熵作為分類損失：

在背景類中使用較大的權重，在其他類中使用相對較小的權重，例如，在本文選取的數據集上的實驗中，背景類使用ω0=1.5，行人類使用ωi=1。

3 行人檢測系統(tǒng)設計

■3.1 硬件系統(tǒng)

本文實驗采取了英偉達公司推出的新一代人工智能計算機Jetson Nano，它是一款小型、低功耗但功能非常強大的AI系統(tǒng)，如圖5所示，開啟了嵌入式物聯(lián)網應用程序的新領域。

圖5

■3.2 軟件設計

基于邊緣設備平臺的行人檢測系統(tǒng)應該具有較低的延時、較高的準確度和較少的內存占據空間的特點。該行人檢測系統(tǒng)的工作流程圖如圖6所示。

圖6 行人檢測系統(tǒng)工作流程圖

在邊緣設備上基于深度學習的行人檢測系統(tǒng)的運行大致分為以下步驟：

(1)視頻采集及預處理模塊：將攝像頭正確連接，系統(tǒng)獲取到該攝像頭的輸入后，通過攝像頭驅動V4L2和視頻編解碼組件Gstreamer的作用有效處理視頻輸入，并使用openCV將實時視頻圖像分割為單幀圖像；

(2)行人檢測模塊：加載訓練好的網絡模型文件，得到單幀圖片的檢測結果；

(3)預警決策模塊：當行人目標出現(xiàn)且行人檢測框大小面積占整張輸入圖片面積的比例超過閾值時，行人檢測系統(tǒng)將發(fā)出預警信號；

(4)完成行人檢測結果的輸出后，系統(tǒng)將繼續(xù)進行下一幀的圖像的處理，重復上述步驟。

RFB_Nano算法的行人檢測原理流程圖如圖7所示，首先對不含標簽的數據集進行一定的圖像預處理，通過特征提取網絡以后，在conv4_3、conv7、conv8_2、conv9_2、conv10_2、conv11_2這六個特征層上通過3＊3卷積對各個default box進行類別置信度和邊界框位置的預測，每個box預測屬于每個類別的置信度和該box對應的預測邊界框的坐標信息。對于得到的每個預測框，取其類別置信度的最大值，若該最大值大于置信度閾值，則最大值所對應的類別即為該預測框的類別，否則過濾掉此框；對于保留的預測框根據它對應的先驗框進行解碼得到其真實的位置參數，然后根據所屬類別置信度進行降序排列，取top-k個預測框，最后進行NMS，過濾掉重疊度較大的預測框，最后得到檢測結果。

圖7 RFB_Nano算法的行人檢測流程圖

4 實驗結果分析

■4.1 算法對比實驗結果分析

為了驗證本文提出算法的有效性，將RFB_Nano與RFBNet進行對比實驗。為了保證對比實驗的公正性，兩種算法在服務器端的同一實驗環(huán)境下，采用了相同的數據集進行訓練，訓練均采用PyTorch深度學習框架，設定了相同的超參數，并且訓練了相同的次數，分別得到各自的權重模型。在進行測試時，選用VOC2007測試集、BDD100K測試集以及自制數據集的融合測試集，選擇了相同的圖像輸入（300＊300），以及相同的NMS閾值（0.5）。

本文從檢測精度指標mAP、檢測速度指標FPS、檢測模型的尺寸、檢測模型的參數量params和計算量FLOPs五個方面對算法進行客觀評估（在服務器實驗環(huán)境中），如表2所示。

表2 服務器端RFB_Nano與RFBNet的實驗結果對比

從表中可見，在服務器端的同一實驗條件下，基于改進的RFB_Nano算法相比RFBNet而言，在模型尺寸被大大壓縮的情況下，仍具有更高的檢測精度、更快的檢測速率，且具有相對更小的參數量和計算量，實驗證明將其作為嵌入式端部署的行人檢測算法更為合理，在各方面都具有一定的優(yōu)越性。

■4.2 不同場景實驗結果分析

為了進一步對本文設計的行人檢測系統(tǒng)進行測試驗證，實驗選取場景1和場景2作為兩個特定測試路口，分別在白天和夜晚進行拍攝，并且分別從這四段測試視頻序列中隨機抽取100張幀圖像進行行人檢測系統(tǒng)的測試，其中在白天和晚上的兩個場景中分別選取一幀，實驗結果如圖8所示。

圖8 兩個特定場景的白天及夜晚中某一幀的檢測結果

圖8 虛擬仿真實驗的Web發(fā)布

根據行人檢測實驗的客觀結果，分別對兩個路口的白天和夜晚這四個場景進行召回率、漏檢率、準確率以及誤檢率的數據統(tǒng)計，如表3～表6所示。

表3 場景1白天的行人檢測結果數據統(tǒng)計

表6 場景2夜晚的行人檢測結果數據統(tǒng)計

表4 場景1夜晚的行人檢測結果數據統(tǒng)計

表5 場景2白天的行人檢測結果數據統(tǒng)計

由數據統(tǒng)計表可知，當行人目標距離攝像頭小于5米時，不管是白天還是夜晚的檢測結果，召回率（檢測正確的行人目標占實際行人目標總數的百分比）都能夠保證在96.3%±0.5%的范圍內，準確率保證在99.5%±0.5%范圍內（算法輸出的行人目標數與實際行人目標數的比值）；當行人目標距離攝像頭在5米至10米之間時，召回率保證在86%±3%的范圍內，精確度在95%±2%的范圍內；當行人目標距離攝像頭大于10米小于20米時，由于白天和夜晚的光照條件差異，兩個場景下白天的召回率在78%±2%的區(qū)間范圍內，精確度在94%±1%區(qū)間內，而夜晚的召回率范圍在67%左右，精確度在90%±2%范圍內；當行人目標距離攝像頭超過20米時，召回率均在36%±4%范圍內，精確度在88%±2%左右。

5 結論

RFB_Nano行人檢測算法在近、中距離能夠取得較好的檢測成果，檢測精度能夠達到90%±6%的百分比，檢測速度FPS為31.6幀/秒，并且根據檢測結果給出相應的預警建議，因此通過實驗驗證，該行人檢測系統(tǒng)能夠進行精確且流暢的行人檢測任務。而由于設備的計算力、攝像頭的分辨率和模型訓練數據的影響，該行人檢測系統(tǒng)對于中、遠距離的檢測效果有限，但是仍能夠在光照條件較好、背景較為單一的場景下起到一定的作用。