程秋菊, 陳國平, 王 璐, 管 春
(重慶郵電大學光電工程學院,重慶 400065)
近年來,機場和車站等重要公共場所的安全問題變得越來越重要。傳統的檢測手段存在許多的缺點,比如金屬探測器雖然能夠探測金屬目標的存在,但是不能區分該金屬物品的名稱;X射線成像系統雖然可以穿透衣物檢測到隱藏的圖像物品,但是它們的輻射非常高,對人體有害。然而,毫米波成像技術既可以穿透衣物來有效檢測人體身上的隱匿物品,又不會對人體產生健康危害[1-4]。因此,毫米波成像系統是目前應用最廣泛、安全的安檢手段。由于毫米波圖像因其特殊的成像效果,通常包含了光線暗淡、噪聲干擾大、分辨率低等檢測問題,所以針對毫米波圖像的目標檢測研究具有極其重要的現實意義。
傳統的目標檢測方法[5-9]一般通過人工提取特征之后使用特征分類器來實現圖像的目標檢測。該類目標檢測方法的步驟一般可歸納為如下三步:①在圖像中利用尺度大小不同的滑動窗口進行遍歷,通過匹配度的計算后,根據閾值判斷來選取粗略的目標候選區域;②利用經典的特征提取器從目標候選區域中提取特征,例如,方向梯度直方圖(histogram of oriented gradient, HOG)、局部二值模式(local binary patterns,LBP)、尺度不變特征變換(scale-invariant feature transform,SIFT)等;③將得到的特征輸入訓練好的特征分類器中,例如支持向量機(support vector machine,SVM),從而識別目標的類別。然而,傳統的目標檢測方法存在著非常大的局限性,具有較差的泛化能力。因為當圖像的背景較為復雜時,該類目標檢測方法的檢測效率會明顯降低,導致檢測性能變得非常差。為了應對這個問題,深度學習技術不斷發展起來,出現了卷積神經網絡[10],該網絡不僅能替代人工設計提取特征,而且具有較好的特征表達能力和魯棒性,實現即使在復雜的環境條件下也能準確地識別不同的目標物體。在圖像目標檢測領域,通過對深度學習[11]的深入學習,基于區域的卷積神經網絡的從R-CNN[12]誕生開始,逐步發展,得到了fast R-CNN[13]和Faster R-CNN[14]神經網絡模型。目前,Faster R-CNN深度學習網絡在圖像的目標檢測技術中表現十分突出,該網絡成功打破了傳統的目標檢測方法的瓶頸,將區域建議網絡(region proposal network, RPN)與深度卷積神經網絡相結合,實現了端到端的訓練,提升了速度和準確度,成為了目標檢測領域的主流框架之一。隨后,通過借鑒faster R-CNN深度學習網絡,衍生出YOLO[15]、SSD[16]和R-FCN[17]等圖像的目標檢測方法。
上述提到的方法都是針對在自然光場景下的光學圖像而設計的,其圖像都比較清晰,質量也都較高,例PASCALVOC 2007[18]、MS COCO[19]等。然而,毫米波圖像與這些光學圖像不同,主要原因在于它們的成像機制不同。毫米波圖像主要反映了物體的電磁特性,這些特征隨著目標結構、觀察角度和材料因素而發生變化。但是,毫米波圖像與光學圖像也存在著相似的地方,主要因為毫米波成像系統有著非常接近光譜的高工作頻率,所以毫米波圖像具有許多與光學圖像相似的幾何特征。如圖1(a)中左側為槍的光學圖像,右側表示槍從不同角度成像的四個毫米波圖像,但是它們都顯示了手槍的直角結構。如圖1(b)中左側為折疊小刀的光學圖像,右側為四種不同類型的毫米波小刀圖像,而圖1(c)中左側為大刀的光學圖像,右側為不同類型的毫米波大刀圖像,可見刀具金屬材料都表示為一系列常規亮塊,特別是大刀具和相應背景的輪廓差異非常明顯。所以鑒于光學圖像與毫米波人體圖像之間的結構相似性,本文主要研究將基于深度學習的檢測方法應用于毫米波圖像,旨在實現毫米波圖像中隱藏物品的快速、高精度檢測。

圖1 光學圖像與毫米波圖像的對比
采用VGG16卷積神經網絡和Faster R-CNN深度學習網絡相結合,并利用了在線難例挖掘[20](online hard example mining,OHEM)優化訓練網絡模型的方法,對毫米波圖像危險物品的檢測進行研究。實驗包括了3種典型的危險物品,它們分別是槍、折疊小刀和大刀,并且在大小為800×600的數千張毫米波圖像的數據集上,采用Caffe深度學習框架在GPU上進行驗證,最后分別與R-CNN結合VGG16、Fast R-CNN結合VGG16網絡進行對比。以期能夠實現毫米波圖像中目標的快速、高精度檢測。
Faster R-CNN作為目前主流的深度學習網絡之一,它非常明顯的優勢在于用區域建議網絡代替了選擇搜索算法(selective search,SS),大大提高了檢測速度的同時,還極大地提升了目標檢測的準確度[21]。Faster R-CNN包含了兩個部分,分別是RPN和 Fast R-CNN,并且這兩個部分共享卷積神經網絡提取的特征。RPN主要負責提取建議區域,而Fast R-CNN主要負責對建議區域進行分類和定位。如圖2所示,表示毫米波圖像目標檢測的Faster R-CNN深度網絡模型。

圖2 Faster R-CNN深度網絡的結構
區域建議網絡RPN是目前表現最突出的區域建議提取算法,它主要利用3×3的滑動窗口在輸入的特征圖上通過卷積實現建議區域的提取,既可以減少時間的消耗,又能夠高效地預測出目標候選區域。如圖3所示,為RPN的網絡結構。實驗以VGG16為例,所提取的特征圖的大小為51×39×256,表示高、寬和通道數分別為51、39和256。對該卷積特征再次進行卷積計算,高、寬和通道數仍然保持不變,又會得到一個51×39×256的特征,對于該卷積特征有51×39個建議區域,每一個建議區域都在原圖中對應著3種長寬比分別為2:1、1:2、1:1,以及3種尺度分別為1282、2562、5122共9種不同尺寸的檢測框,即anchor。因此共有51×39×9 個anchor,檢測的目標是對每個anchor是否包含物體進行判斷。

圖3 RPN網絡結構
圖4表明了接下來面對51×39個建議區域和51×39×9個anchor相關的計算步驟。首先,通過一個3×3的滑動窗口將每一個建議區域轉換為固定的256維的特征,該特征對應了兩個輸出。一個輸出的長度為2×9,表示該建議區域的anchor為物體的概率。另外一個輸出的長度為4×9,表示該建議區域的框回歸,每個anchor對應4個框回歸參數。在圖像訓練中,通常使用多任務損失函數來減少目標函數,公式為
(1)

(2)
(3)
式中:x、y、w和h表示框的中心坐標及其寬度和高度。變量x、xa和x*分別用于預測框、anchor框和標簽框。

圖4 anchor與網絡輸出的對應關系
使用VGG16作為Faster R-CNN的特征提取網絡,采用的是端到端的訓練方式對VGG16卷積神經網絡模型進行訓練。原因在于該網絡模型對比小型的訓練網絡模型而言,其深度更深,能更好地進行特征提取,從而得到更優的檢測效果。如圖5所示為VGG16卷積神經網絡的結構。顯而易見,VGG16網絡通過具有relu激活函數的13個卷積層,以及4個池化層提取特征映射。為了能夠適應毫米波圖像的目標檢測,本實驗對VGG16的參數進行了調整。輸入大小為800×600的圖像,每個卷積層的卷積核大小為3×3,步長設置為1,每個池化層的池化核大小為2×2,步長為2。雖然該網絡的圖像的大小不會因為卷積層和relu層發生改變,但是圖像輸出長和寬會因為池化層變為原來的1/2。所以經過4個池化層后,最后一個卷積層輸出的是512個大小為51×39的特征圖,該特征圖能夠被RPN和Fast R-CNN共享。

圖5 VGG16卷積神經網絡的結構

圖6 在線難例挖掘優化訓練的結構
在線難例挖掘(online hard example mining,OHEM)技術能高效的解決訓練過程中出現的正負樣本不均衡的問題。OHEM會先將所有的建議區域實行前向傳遞,接著根據損失的大小進行排序,選取最大的損失值對應的若干個建議區域為難例,進行反向傳播,從而更新分類回歸網絡。同時,為了避免建議區域的冗余問題,會在OHEM之前對建議區域實施非極大值抑制的方法來進行篩選,選取損失值最大的感興趣區域,并且抑制預測框和標簽框的重疊率(IOU)大于0.7的區域,因此達到了在網絡訓練的每一步中嵌入難例挖掘的目的,從而實現了在線難例挖掘優化訓練。圖6為在線難例挖掘技術優化的網絡訓練過程結構圖,綠色箭頭表示前向傳遞,紅色箭頭表示既能前向傳遞又能反向傳遞。分類回歸網Cls_Reg和分類網絡Cls_Reg_Copy的結構相同,但是分類回歸網絡Cls_Reg_Copy只能進行前向傳遞,實現在線難例挖掘并將結果送入分類回歸網絡Cls_Reg中進行反向傳播,從而更新網絡的參數。
實驗主要測試了在人體身上的不同位置藏匿槍、折疊小刀、大刀這三類典型的危險物品,將收集的毫米波圖像以JPEG格式保存,每幅圖像的大小為800×600像素。實驗使用了6 000張樣本構成訓練集(槍、折疊小刀、大刀各2 000張),3 000張樣本構成測試集(槍、小刀、大刀各1 000張)。
實驗在Intel(R)Core(TM)i7-7820X CPU和NVIDIA 1080TI GPU的實驗環境下進行,采用Caffe深度學習框架完成的。
單類目標的平均精度(average precision,AP)是一種有效的檢測措施,它結合了每個對象的分類精度和位置精度。如表1所示,Faster R-CNN與VGG16相結合的深度網絡的各類目標檢測精度明顯高于R-CNN與VGG16相結合的深度網絡和Fast R-CNN與VGG16相結合的深度網絡,且檢測結果較好。然而Faster R-CNN與VGG16相結合并通過OHEM優化訓練后的深度網絡的各類危險物品的AP精度百分比明顯高于Faster R-CNN與VGG16相結合的深度網絡,由此可知該優化訓練后的網絡的AP檢測效果更好。此外,從表1所示的檢測結果同樣可以看出,它們的共同點是槍這一類型有較高的檢測精度,大刀次之,而小刀的檢測精度最低。通過分析,原因在于與小刀相比,槍和大刀的種類都較為單一,面積區域較寬,形變較小;而小刀種類較多,面積區域也很小,并且收集樣本的數量過小等問題導致小刀的檢測效果明顯較差。

表1 AP的檢測結果比較
所有目標的平均精度(mean average precision,mAP)表示在同種目標檢測網絡下,求AP的平均值,同時觀察毫米波圖像處理的速度FPS也是一種有效的檢測措施。如表2所示,在圖像大小和檢測數量都相同的情況下,與R-CNN結合VGG16和Fast R-CNN結合VGG16相比,Faster R-CNN結合VGG16的深度卷積網絡的檢測性能更優,其mAP達到近乎94%,并且每秒處理6張毫米波圖像。然而,經過OHEM優化訓練后的Faster R-CNN結合VGG16的深度網絡效果更佳,其mAP達到94.66%,每秒處理近乎6張毫米波圖像,也就是說,該優化訓練后的網絡能保持速度差異較小的情況下,檢測準確度能得到提升。如圖7所示為未經OHEM優化訓練的毫米波圖像目標檢測的測試效果。如圖8所示為經過OHEM優化訓練后的毫米波圖像目標檢測的測試效果。由此可見,實驗不僅證明了毫米波圖像和光學圖像中的對象特征是屬于相似的分布,采用深度學習的卷積神經網絡用于光學圖像的目標檢測方法同樣適用于毫米波圖像的危險物品檢測,而且還證明了經過OHEM優化后的網絡對毫米波圖像的目標檢測精度更高,說明了該方法是有效的。

表2 mAP和FPS的檢測結果

圖7 Faster R-CNN+VGG16的測試效果展示

圖8 OHEM優化后的測試效果展示
采用VGG16卷積神經網絡與RPN相結合,并利用OHEM優化訓練該網絡,構建了一個基于Faster R-CNN深度卷積神經網絡的新方法對毫米波圖像進行目標檢測,并與RCNN結合VGG16、Fast R-CNN結合VGG16、OHEM優化前的Faster R-CNN結合VGG16的深度網絡進行了對比。實驗結果表明,OHEM優化后的Faster R-CNN結合VGG16的深度網絡深度學習網絡的檢測性能最優,并且能夠保證穩定速度的同時進一步提高目標檢測的精度。然而,根據深度卷積神經網絡學習的特點,如何在保證穩定精度的同時進一步提高檢測的速度是一個值得考慮的問題。因此,下一步考慮用多個GPU進行并行訓練深度網絡,提高開發效率。