





作者簡介:賈寶芝(1987-)男,博士,研究方向為人工智能,計算機視覺,深度學習。
摘要:毫米波人體安檢圖像因為成像質量和遮擋等問題,對于違禁品的識別存在識別難度大的問題。 因此采用更優的檢測識別算法, 提升違禁品的識別速度和精度一直是業內重點研究的問題。 本文嘗試將 Vision Transformer(ViT)應用到毫米波圖像違禁品的識別過程中,通過將無監督預訓練的 ViT 與經典的目標檢測算法 Faster" R-CNN 相結合,實現了高精度的毫米波人體安檢圖像違禁品識別。為了充分訓練和測試算法,本文制作了一個包含槍支和刀具兩類違禁品,共計 14.5 萬個違禁品成像樣本的毫米波人體安檢數據集。通過與經典的基于 ResNet-101的 Faster R-CNN 對比,本文使用的方法 mAP50 提升了 2.4 個點,達到了 89.9%。
關鍵詞:毫米波人體安檢" "Vision Transfomer" " MAE" " 無監督" " 違禁品識別
中圖分類號:TP391.41
Abstract: Due to issues such as imaging quality and occlusion, millimeter-wave human security inspection images have difficulties in identifying prohibited items, so the use of the better detection and recognition algorithm to improve the speed and accuracy of identifying prohibited items has always been a key research issue in the industry. This article attempts to apply the Vision Transformer (ViT) to the identification process of prohibited items in millimeter-wave images, and achieves the high-precision identification of prohibited items in millimeter-wave human security inspection images by combining the unsupervised pre-trained ViT with the classic object detection algorithm Faster R-CNN. In order to fully train and test the algorithm, this article creates a millimeter-wave human inspection security dataset which contains two kinds of prohibited items of guns and knives with a total of 145,000 imaging samples of prohibited items. Compared with the classic Faster R-CNN based on ResNet-101, the method used in this paper improves mAP50 by 2.4 points, reaching 89.9%.
Key Words: Millimeter-wave human security inspection; Vision Transformer; MAE; Unsupervised; Identification of prohibited items
毫米波安檢是一種高級安全檢查技術,用于檢測隱藏在人體或物體表面的非法物品或危 險物質。毫米波安檢的工作原理是通過發送毫米波輻射到目標物體,然后測量和分析反射回 來的信號。毫米波可以穿透表層衣物探測要隱藏的違禁品,且由于不同物質對毫米波的吸收 和反射特性不同,系統可以識別出可能存在的非法物品或危險物品的類別,如武器、爆炸物、 毒品等。相比傳統的金屬探測器,毫米波安檢具有非接觸式、高精度、檢測多種類型的非法 物品等優點。然而,毫米波安檢也存在一些限制和挑戰。毫米波圖像的解讀以往都是依靠經 過訓練的專業的人員,識別速度慢,識別難度大,且可能存在漏識別的情形。
使用深度學習的相關算法,可以實現毫米波圖像的快速識別。姚家雄[1]等人采用了卷積神經網絡結合滑動窗口的方法, 通過將每個窗口的圖像塊輸入卷積神經網絡模型, 獲得該圖 像塊中含有違禁物品的概率, 進而實現違禁品的識別和定位,取得了一定的效果。但該方法 需要在對每個圖像快運行一次卷積網絡模型的計算,效率較低。潘雄[2]將深度學習中經典 的目標檢測方法 Faster R-CNN 應用到被動毫米波圖像的識別中, 且使用了 Focal Loss 作為 損失函數, 可以提升難例樣本的檢出率。目標檢測 Faster R-CNN 使用,整張圖像只需經過 一次卷積神經網絡提取特征,相對于滑動窗口的方法可以極大提升速率,且基于錨框的回歸 定位, 可以確定更為準確的物體邊界。陳國平[3]等人采用單階段的目標檢測算法 YOLO-Tiny 來實現毫米波違禁品的識別,該方法在識別速度上更具優勢。
這些毫米波自動識別算法主要是基于卷積神經網絡的。而近來,隨著 ViT[4]的誕生, Transformer[5]一舉打破卷積神經網絡在視覺領域的統治地位, 在多個視覺工作上達到最佳 效果, 其中也包含了目標檢測任務。
但當前基于 Transformer 的實現毫米波圖像的自動識別的研究還很少。該文嘗試將 ViT 應用到毫米波安檢圖像的自動識別中,且使用了無監督預訓練的特征提取網絡,在自制的毫米波違禁品數據集上進行了訓練測試,取得了良好的效果。
1 原理和方法
1.1" 目標檢測算法
本文基于經典的雙階段目標檢測算法 Faster R-CNN[6]來改進優化毫米波圖像的違禁品 自動識別。Faster R-CNN" 目標檢測網絡分為兩步,首先定位目標,然后對目標的進行分類。對于輸入的圖片,Faster" R-CNN首先利用特征提取網絡提取圖像的特征圖,然后區域推薦網絡 RPN 在特征圖上定位候選目標,后續的分類網絡利用特征圖中 RPN 網絡生成候選區域 的數據實現違禁品目標類別的判斷。通過訓練和優化,最終訓練好的 Faster R-CNN 模型能 夠具有自動識別毫米波圖像中違禁品的能力。輸入一張毫米波圖像,算法就可以輸出圖像中 違禁品的位置和類別。
1.2" 特征提取網絡
為了取得更好的違禁品識別效果,本文嘗試將 Faster R-CNN 中的特征提取階段的卷積 網絡更改為ViT 模型,且使用了在ImageNet- 1K[7]上使用MAE[8]無監督預訓練的ViT 模型。經過在自制的毫米波違禁品數據集上微調,從而讓網絡實現違禁品的自動識別。而針對 ViT 不像卷積神經網絡一樣具有多尺度的特征,本文采用 ViTDet[9]中使用的 simple FPN 網絡結 構。其差異在于特征金字塔(FPN)[10]的輸入為卷積神經網絡不同深度處的輸出,而 simple FPN 只使用了 ViT 頂層輸出的特征。本文算法的網絡結構詳見圖 1所示。
使用 ViT 模型提取特征的過程為首先將圖像分成小塊,將這些塊嵌入到低維向量中,然后使用 Transformer 編碼器處理這些嵌入向量,理解圖像中的語義信息,提取出輸入圖像 的特征,并將其輸入到后續的 Faster R-CNN 模塊。這種方法不依賴于傳統的卷積神經網絡,而是使用了 Transformer 的自注意力機制來建立圖像的全局上下文信息,本文中使用的是的 ViT 模型中較小的 ViT-Base 模型。
1.3" 預訓練
使用預訓練特征提取網絡的方法可以提升目標檢測算法的整體性能。通常的做法是先在 像 ImageNet 這樣的標注好的圖像分類數據集上訓練好特征提取網絡,然后再把特征提取網 絡與檢測模塊結合在一起,在檢測的數據集上微調。本文中使用的基于 MAE 的無監督預訓 練的方法,不需要對圖片進行標注,就可以對網絡進行預訓練。MAE 構建在 ViT 的基礎上, 具體做法是隨機的去掉圖片中的一些塊,然后通過算法去將這些塊預測出來,反復迭代這個過程就可以實現模型的訓練。通過使用非對稱編解碼結構和較高的掩碼率(75%), MAE 取得了較高的訓練速度和精度。
2 實驗和討論
2.1" 實驗設置和數據集
分別使用 ViT-Base 模型和 ResNet- 101 模型作為 Faster R-CNN 的特征提取網絡,對比分 析在自采數毫米波數據集上訓練后的自動識別效果。為了取得良好的效果 ResNet- 101 和 ViT 都在 Imagnet- 1K 數據集上進行了預訓練, ResNet- 101 使用的是有監督的預訓練, ViT 是使 用的是基于 MAE 的無監督預訓練。 多尺度特征方面基于 ResNet- 101 的 Faster" R-CNN 使用 FPN,基于 ViT-Base 的 Faster R-CNN 采用 simple FPN。
為了較為準確的測試算法的性能,我們制作了大型了毫米波安檢人體違禁品掃描圖像數據集共136496張圖片, 其中包含槍支和刀具兩類違禁品, 總違禁品樣本數量約為 14.5 萬個label,并拆分為訓練集和測試集。詳見表 1所示。訓練集 中刀具的數量要多于槍支的數量,是因為刀具的尺寸較小,識別難度相對槍支更大,采集更 多數據有利于模型的學習。
2.2" 評價指標
使用目標檢測中識別準確的標準:定位準確且分類正確。定位準確,即在毫米波圖像上 能準確定位出違禁品的位置;分類正確, 即定位框處算法給出的分類與真實違禁品的類別一 致。
目標檢測算法的定位框一般不會完全重合于人工標注的違禁品定位框,可使用兩個框的 交并比(IoU)來衡量兩個定位物體的矩形框的重疊度, 如圖 2 所示, IoU 可表示為。
本文中檢測框與標注框的 IoU 大于等于 0.5 即算作識別準確。
識別效果可以通過準確率、召回率、 平均準確率等指標評價:
式(1)~式(4)中: P 為準確率,R 為召回率, AP 為平均準確率,TP 為正確識別的總數, FP 為 錯誤識別的總數,FN 為漏識別總數。P(r)代表 P-R(Precision-Recall)曲線。N 為類別總數, mAP 為所有類平均準確率的均值。
P-R 曲線是準確率和召回率之間的關系曲線,準確率和召回率是一對矛盾的度量,隨著 閾值降低準確率隨著降低而召回率隨著升高。對于識別算法,最好的結果是準確率和召回率 都較高,因此 P-R 曲線越靠右上角、mAP 越大越好。
2.3" 實驗結果和分析
經過對兩個不同的 Faster R-CNN 模型在訓練集上充分的訓練和調優,在測試集上測試,兩個不同的算法模型的精度結果詳見表 2所示。
從表中可見兩個模型都取得了較好的自動識別效果。但基于 ViT" base" 的模型比 ResNet- 101 的模型的 mAP50 高出了 2.4 個點。圖 3 為兩種算法的 P-R 曲線結果對比。從 P-R 曲線上也可以看出, 分析同種算法,槍和刀的識別效果對比,槍的識別效果要好于刀具的識 別效果;對比分析兩種不同算法,基于 ViT 的 Faster R-CNN 的識別效果在槍和刀具兩類上 均優于基于 ResNet- 101 的算法。
僅使用ViT-Base 模型最頂層信息的Faster R-CNN 取得了比多級特征的ResNet- 101 更好 的效果,說明 ViT-Base 模型具有更好特征提取能力。
3 結語
通過在自采毫米波安檢圖像上訓練和測試,本文采用的基于 MAE 無監督預訓練的 ViT 模型作為 Faster" R-CNN" "的特征提取網絡的方法, 取得了比使用經典的卷積神經網絡 ResNet- 101 更好的效果且 mAP50 精度達到了 89.9%。說明了 ViT 模型在毫米波安檢圖像識 別中的有效性。 MAE 無監督預訓練的方法的應用可以減輕了對標注數據的依賴, 提高模型 訓練的效率和精度。 鑒于 Transformer 算法快速的發展以及其與多模態算法的良好兼容性, 相信未來基于 ViT 算法的毫米波安檢圖像識別可以達到更高的精度和更智能的程度。
參考文獻
[1] 姚家雄,楊明輝,朱玉琨,等.利用卷積神經網絡進行毫米波圖像違禁物體定位[J].紅外與毫米 波學報,2017,36(3):354-360.
[2] 潘雄. 基于深度學習的毫米波輻射圖像目標檢測方法研究[D].武漢:華中科技大學,2020.
[3] 陳國平,彭之玲,黃超意,等.基于改進 YOLOv3-Tiny 的毫米波圖像目標檢測[J].電子測量技 術,2021,44(21):163-167.
[4] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. ArXiv Preprint ArXiv:2010.11929, 2020.
[5] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is All You Need[J]. Advances in Neural Information Processing Systems, 2017, 30.
[6] GIRSHICK R. Fast R-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440- 1448.
[7] DENG J, DONG W, SOCHER R, et al. Imagenet: A Large-Scale Hierarchical Image Database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009: 248-255.
[8] HE K, CHEN X, XIE S, et al. Masked Autoencoders are Scalable Vision Learners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16000- 16009.
[9] Li Y, MAO H, GIRSHICK R, et al. Exploring Plain Vision Transformer Backbones for Object Detection[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 280-296.
[10] Lin T Y, DOLLáR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.