基于深度學習的高分辨率圖像的智能檢測

2021-08-03 03:12:40朱雅喬史延雷馬幪朔尚志武

科學技術與工程 2021年19期

朱雅喬，史延雷，馬幪朔，岳峰，尚志武

(1.天津中德應用技術大學航空航天學院，天津 300350；2.中汽研(天津)汽車工程研究院有限公司中汽中心汽車工程研究院，天津 300300；3.武漢科技大學汽車與交通學院，武漢 430065；4.天津工業大學機械工程學院，天津 300387)

在自然場景中，自動駕駛車輛所采集的圖像一般都是具有高分辨率的圖像，所需檢測的目標在圖像中占比不大。目前還沒有一種有效的針對高分辨率圖像的目標檢測方法[1-2]。

為此，現以行人檢測為例，探討一種高分辨率圖像的目標檢測方法，力求不僅能有效檢測出目標，還具有較好的實時性。

行人檢測[3-4]作為自動駕駛和智能監控等應用的一個關鍵組成部分，在過去十多年里受到了極大的關注。大多數行人檢測方法可以分為兩大類：基于手工特征的方法和基于深度學習的方法?；谏疃染矸e神經網絡成功用于計算機視覺任務之前，已經有多種手工制作的特征描述法，包括SIFT(scale invariant feature transform)[5]，LBP(local binary patterns)[6], SURF(speeded-up robust features)[7]，HOG(histogram of oriented gradient)[8]，Haar[9]已經被用于行人檢測。Piotr等[10]將圖像的多種通道特征相結合，分別在灰度通道，梯度幅度通道，LUV顏色通道和梯度方向上計算Haar-like[11-13]特征，用于行人檢測。Felzenszwalb等[14]提出了一種可變形的行人部件模型(deformable part-based model，DPM)。隨著深度學習的迅速發展，基于深度學習的檢測模型成為了研究熱點，主要分為兩類，一類是以R-CNN(region convolution neural networks)[15]、Fast R-CNN[16]、Faster R-CNN[17-19]為代表的基于候選框的檢測方法；另一類是以YOLO(you only look once)[20-21]為代表的基于回歸的檢測方法。Liu等[22]提出一種擴展的Faster RCNN行人檢測框架，通過添加網絡分支，從不同網絡層提取多分辨率特征圖，確保不同規模行人的良好檢測。

然而，盡管基于深度學習的檢測算法能夠快速準確地檢測某些區域的目標，但是這些方法通常不能達到很好的性能，仍然存在下列不足。

(1)在行人檢測過程中行人候選框的產生并非十分準確。

(2)對于高分辨率圖像的目標檢測，Faster R-CNN處理較為耗時且可能出現由于目標較小而無法識別的情況。

針對這些問題，提出一種基于LDCF-ResNet50的深度學習檢測框架。首先基于局部無關通道特征(locally decorrelated channel feature，LDCF)[23]，設計行人候選區域提議方法，用來檢測行人潛在區域；然后設計一種提議區域合并和擴展的方法，將提議區域合并成正確的候選框，用于后續的ResNet-50[24]神經網絡精檢測；最后將ResNet50網絡的結果映射到原始圖像中，輸出檢測結果。

1 行人檢測算法

車載攝像頭拍攝的圖像通常具有高分辨率。然而，一般的深度學習網絡在處理高分辨率圖像時性能相對較差。在實驗過程中發現，如果將高分辨率圖像分割成包含目標的小區域，深度學習檢測網絡可以在這些小區域上表現良好。

根據這種方法，提出了一種高分辨率圖像中的行人檢測方法，它主要包含三個方面：①基于區域提議方法；②基于ResNet50的行人檢測方法；③用于精確定位的后處理步驟。

該方法的結構示意圖如圖1所示。

圖1 提議的行人檢測框架

1.1 基于LDCF區域提議方法

原始的LDCF在行人檢測問題上已經取得了良好的性能，但是在高分辨率圖像的檢測上，還是會出現漏檢的現象。為了解決這個問題，提出了LDCF提議區域生成方法，為之后的深度學習網絡提供包含對象的優良潛在區域。給定一張輸入圖片，LDCF融合了多種特征通道信息，包括3個顏色通道(LUV)，1個梯度幅值通道(|G|)和6個梯度方向直方圖通道(G1-G6),如圖2所示。LDCF將這10個通道采用LDA算法進行局部去相關，獲取前4個特征向量構成濾波器核，并把這4個濾波器核分別與通道特征圖像做卷積運算，則在每個特征通道上輸出得到40張特征圖，將這些特征圖進行級聯得到最終的LDCF特征，然后通過Adaboost分類算法進行訓練。

圖2 特征通道示意圖

為了實現行人檢測的高質量邊界框，Zhang等[25-26]首次提出以0.41的統一縱橫比自動生成邊界框。將modelIDs設置為(50,20)，modelDsPad設置為(64,25)。nNeg(要采樣的負窗口的最大數量)設置為10 000，nAccNeg(要累積的負窗口的最大數量)設置為30 000。圖3展示了LDCF行人粗檢測算法的具體測試流程。

圖3 LDCF行人粗檢測算法流程

在檢測實驗過程中發現屬于一個行人邊界框之間的距離并不遠。因此，設計了一種合并方法，用于合并屬于同一對象的邊界框。并根據邊界框之間的距離分為兩種情況。一種是兩個邊界框之間有重疊；另一種是兩個邊界框之間沒有重疊。

第一種情況下，檢測到的每個行人實例是由多個不同的邊界框來標記。為了將邊界框合并成一個正確的邊界框，并得到整個行人實例，當兩個邊界框有重疊時將它們合并。用w1、h1和w2、h2表示兩個邊界框的寬度和高度，a，b分別表示兩個邊界框，表達式為

(1)

(2)

式中：(xa1,ya1)、(xa2,ya2)和(xb1,yb1)、(xb2,yb2)是兩個邊界框的左上角和右下角坐標。用xt1和xt2表示在兩個邊界框在x軸上的相對最小值和最大值。同樣，用yt1和yt2表示在兩個邊界框在y軸上的相對最小值和最大值。

(3)

(4)

(5)

(6)

然后，通過計算兩個邊界框之間的wo和ho判斷是否進行合并得到一個大的邊界框，即

wo=(w1+w2)-(xt2-xt1)

(7)

ho=(h1+h2)-(yt2-yt1)

(8)

如果wo>0且ho>0時，進行合并操作，得到兩個邊界框的最大x坐標和最小x坐標為xt2和xt1，基于此可以計算合并后的邊界框的寬度wt。同樣的，得到兩個邊界框的最大y坐標和最小y坐標為yt2和yt1，可以計算合并后的邊界框高度ht。其將合并后的邊界框作為后續網絡的輸入。

第二種情況下，如果兩個邊界框距離彼此較遠，也就是當wo≤0或ho≤0時，意味著這些邊界框屬于不同的實例，則不需要合并。或者當合并后的邊界框wt≥345或ht≥835時，也不參與邊界框合并。其中，345和835是本數據集中行人實例的最大大小。為了更好地定位和檢測，這些邊界框也將作為后續網絡的輸入，進行進一步的檢測。

1.2 特征提取

特征提取模塊采用ResNet-50[24]網絡結構，將圖像I作為輸入，網絡可以生成具有不同分辨率的若干特征圖[27]，其定義為

φi=fi(φi-1)=fi(fi-1{…f2[f1(I)]})

(9)

式(9)中：φi表示的是第i層輸出的特征圖；f表示的是卷積神經網絡。給定輸入圖像I的大小H×W，最終拼接特征映射的大小為H/r×W/r，其中r為下采樣因子。r=4是實驗中所證明的最好的性能，因為r越大意味著粗糙的特征映射難以精確定位，而r越小則帶來更多的計算負擔。采取的特征融合方式及提取圖片的特征的方法，如圖4所示。

圖4 基于ResNet50網絡檢測結構

2 實驗

2.1 數據集和評估方法

所使用的數據集為TDCB[28]，其涵蓋了大量街道上各類行人的真實生活場景高分辨率(2 520×1 260)圖片。其中包含行人30 490張，但是該數據集中的一些行人相對于肉眼來說都是不可見的，按照文獻[29]的方法，剔除了行人像素小于30的圖像。因此，在實驗中又重新構建了訓練集、驗證集和測試集。隨機選取包含10 000張包含行人的圖像組成新的數據集，并按照訓練集∶測試集∶驗證集=7∶2∶1的比例分配。

使用PASCAL視覺對象分類挑戰[30]中的方法，精度和召回率之間的關系來對模型進行評估。精度和召回率曲線。精度P和召回率R計算公式為

(10)

(11)

式中：TP表示真實陽性樣本的數量；FP表示誤報的數量；FN表示假陰性的數量。使用平均精度(AP)[31]表示檢測的性能。AP定義為

(12)

AP值越大，性能越好。使用IoU來測量檢測相應對象的準確性，并且IoU的重疊面積必須超過0.5才被認為成功檢測到。IoU的定義為

(13)

式(13)中：DR代表檢測區域；GT表示真實目標區域；DR∩GT代表兩者的重疊面積，DR∪GT代表兩者的合并區域。

2.2 結果分析

為了評估本文所提方法的有效性，將所提方法與其他三種方法的性能進行了比較，包括YOLOv3[20]、Faster R-CNN[17]和SSD[32]。使用精度-召回率曲線和平均精度在驗證集上對比評價本文所提出的LDCF-ResNet50深度學習網絡。

圖5所示為在驗證集上測試的所有識別方法的P-R曲線，同時為了比較模型進行實時處理的能力，在3.40 GHz Xeon Gold 6128 CPU處理器和NVIDIA 2080 GPU處理器上對每個模型處理單張圖片的速度進行的測試，結果如表1所示。

圖5 不同行人檢測方法的P-R曲線

表1 不同行人識別方法的平均精度

在本文研究中，將AP用作檢測精度的評估指標，并將匹配閾值設置為0.5。該指數綜合考慮了定位精度和分類精度。同時，為了比較模型執行實時處理的能力，研究了在訪問視頻流的條件下處理每個模型的單幀速度。表1的比較結果表明，SSD是最快的方法，其次是YOLO，LDCF-ResNet50和Faster R-CNN。盡管YOLO和SSD比LDCF-ResNet50和Faster R-CNN快，但是它們的檢測精度卻低得多；LDCF-ResNet50為行人提供最高的檢測精度，如圖6所示?？紤]到檢測精度和速度之間的權衡，LDCF-ResNet50優于其他所有三種方法。LDCF-ResNet50的行人檢測AP值分別比SSD，YOLO和Faster R-CNN高31.45%、17.79%和4.07%。

圖6 行人檢測結果

3 結論

研究使用LDCF-ResNet50方法解決了高分辨率圖像上的行人檢測問題。解決了大多數現有方法對于高分辨率圖像檢測速度慢、漏檢和誤檢的問題?；贚DCF提取行人候選區域，進行粗檢測；然后，設計一個合適的RseNet50深度學習網絡以獲取更多的細節信息，并對提議區域進行精檢測。在高分辨率數據集下的實驗證明：本文方法相比于之前的方法有了明顯的提升。盡管本文中以行人檢測為例，但是它在其他物體檢測方面具有很大的潛力，如高分辨率圖像上的車輛檢測和一般物體檢測等。