自適應與多尺度特征融合的X光違禁品檢測

2024-01-30 12:59:10孫嘉傲董乙杉郭靖圓李明澤李帥超盧樹華

計算機工程與應用 2024年2期

孫嘉傲，董乙杉，郭靖圓，李明澤，李帥超，盧樹華，2

1.中國人民公安大學信息網絡安全學院，北京 102600

2.公安部安全防范技術與風險評估重點實驗室，北京 102600

當前，X射線違禁品安檢是維護機場和交通安全最廣泛使用的安全措施之一，但大多X射線安檢機主要依靠人工視覺從拍攝的圖像中識別違禁品，存在安檢人員疏忽而導致漏檢和錯檢的弊端。同時，X射線圖像與自然圖像不同，缺乏紋理信息，且色彩信息較為單調，此外物體堆積密集、遮擋嚴重等因素，使傳統的物體檢測方法效果欠佳[1]。近年來，卷積神經網絡[2]廣泛應用于圖像處理及模式識別等領域，準確率和魯棒性顯著提升，研究人員嘗試將其用于檢測X射線違禁品圖像，效果亦普遍優于傳統機器學習算法[3-4]。

最近，R-CNN[5]、Fast R-CNN[6]、Faster R-CNN[7]等二階段與SSD[8-9]、YOLO[10-17]系列、SqueezeDet[18]、CenterNet[19]和Pelee[20]等單階段目標檢測方法在X光違禁品圖像的研究取得顯著進展，此外，諸多優化策略用來提升算法的監測性能。針對違禁品圖像數據集與其內含正樣本數量的有限性，Akcay等[2]探究了R-CNN與R-FCN在X射線安檢圖像目標檢測的適用性，提出網絡遷移學習，解決單目標和多目標檢測問題，與傳統的滑動窗口驅動CNN方法相比效果更佳。Akcay等[21]通過比較各種X射線圖像檢測網絡，得到AlexNet作為支持向量機的特征提取器優于其他機器學習方法。Gaus等[22]使用Faster R-CNN、Mask R-CNN與RetinaNet評估遷移學習方法及其對違禁物品檢測的可轉移性。針對傳統圖像處理算法候選區域分割困難問題，Wu等[23]采用基于YOLO的模型對X射線安檢圖像中的違禁品進行檢測，在不同復雜度的背景下準確率均有所提升。為解決違禁品圖像信息重疊問題，Miao等[24]在提出SiXray數據集時同時提出類平衡層次改進框架用于檢測違禁品，減少負采樣帶來的噪聲。基于違禁品的物理尺寸特點，Chang等[25]提出了一種困難負樣本選擇方案，以更好地區分違禁品，避免訓練數據集的過度擬合。針對人體安檢隱匿違禁物品的問題，李連偉等[26]提出人體安檢隱匿違禁物的高性能實時檢測算法，展現出良好的性能優勢。為降低物品堆疊對違禁品檢測的影響，Zhang等[27]在YOLOX網絡框架下進行改進和訓練，加入雙重注意力機制和回歸損失分類策略，為大規模自動檢測違禁品研究提供參考。上述研究展現了卷積神經網絡的迅速發展與良好性能，不斷提升X光圖像違禁品檢測精度與速度，改善了小目標檢測、物體遮擋以及噪聲干擾等問題，但X光違禁品圖像仍然面臨空間大尺度變化、復雜背景干擾篩查效率較低等問題，在面向實際應用時，檢測精度與速度平衡性需要進一步提高。

為解決上述問題，受文獻[28-31]的啟示，本文以YOLOv5為基線網絡，同時考慮網絡計算成本，采用空間自適應特征融合（adaptively spatial feature fusion，ASFF）與多尺度特征融合（bidirectional feature pyramid network，BiFPN）并引入注意力機制（coordinate attention，CA），提出一種輕量改進的YOLOv5違禁品檢測模型。模型在3大數據集進行訓練與測試，檢測精度與速度優于當前大部分先進算法，可顯著提升基線網絡的性能。

1 X光違禁品圖像檢測模型

1.1 網絡結構

所提模型以YOLOv5網絡為基線，在Backbone部分使用GhostConv替換Conv，降低計算量，并融合注意力機制模塊CA；在Neck部分使用BiFPN_Concat替換Concat，并引入ASFF，進行空間自適應與多尺度特征融合，根據違禁品圖像特點在檢測時調整非極大抑制閾值，使網絡更好地適應檢測任務；Detect部分使用3個檢測頭針對不同大小的違禁品進行檢測，其網絡結構如圖1所示。

圖1 所提模型的網絡結構Fig.1 Network structure of proposed model

1.2 ASFF

為提取違禁品多尺度信息，所提模型引入ASFF融合機制，其結構如圖2所示，通過自適應加權融合PANet輸出的3個特征圖像，充分利用網絡中深層特征的語義信息與底層特征的空間信息，并通過可學習的參數抑制梯度反向傳播過程中特征的不一致性。其中，ASFF的輸入來自PANet在1/8、1/16、1/32不同尺度下的特征圖，以ASFF-3為例，通過1×1卷積將1級和2級的特征圖壓縮成與3級相同的通道數，后分別通過4倍上采樣與2倍上采樣形成與3級相同維度的特征圖，基本原理如下所述。

圖2 ASFF融合機制圖Fig.2 ASFF channel mechanism

1.3 Coordinate Attention

為提高網絡對違禁品目標位置的感知能力，引入坐標注意力機制如圖3所示。不同于2維全局池化的通道注意力機制，引入所提模型的輕量CA模塊將通道注意力分解為2個1維特征編碼過程，分別沿2個空間方向聚合特征，在骨干特征提取網絡的高層位置獲得違禁品圖像全局感受野并編碼精確的位置信息，以增強違禁品類別特征的表達，模塊機制具體如圖3。

1.3.1 坐標信息嵌入

給定違禁品的輸入特征圖X，使用2個空間范圍的池核(H,1)、(1,W)分別沿水平坐標與垂直坐標對每個通道進行編碼，其輸出(h)、(w)如公式（3）、（4）所示：

1.3.2 注意力機制生成

公式（3）、（4）啟用全局感受野并編碼精確的位置信息，生成聚合特征映射后，首先Concat高度與寬度的輸出送至1×1的卷積變換函數F1，得到特征圖f如公式（5）所示：

式中，σ為Sigmoid函數。最后，將輸出的gh與gw分別展開作為注意力權重，坐標注意力Y的輸出yc(i,j)為公式（8）：

1.4 Ghost Module

為提升違禁品目標的檢測效率，引入Ghost卷積能夠降低圖像中的像素冗余，有效改善基線網絡堆疊大量Conv帶來的龐大計算量。所提模型保留了網絡底層輸入通道數為3的卷積以維持特征的完整輸入，輕量化的同時兼顧特征提取的全面性。Ghost卷積首先減少卷積的輸出通道數量，后用先前卷積生成的特征圖通過線性變化得到剩余特征圖，將所有輸出通道結合輸出。

給定違禁品特征圖輸入X∈?c×h×w，生成n個違禁品特征圖的卷積層操作Y表示為公式（9）：

式中，?為卷積運算；b為偏置項；為n個通道的輸出特征圖；該層的卷積濾波器；h'和w'分別為輸出數據的高度和寬度，卷積核大小為k。為進一步獲得所需的n個特征映射，Y'中的每個固有特征通過線性運算生成s個Ghost特征yij如公式（10）所示：

式中，為Y'中的第i個固有特征映射；Φi,j為用于生成第j個Ghost特征映射yij的第j個（最后一個除外）線性運算，最后一個Φi,s用于保留內在特征映射的身份映射，256卷積核結構圖如圖4所示。

圖4 Ghost卷積操作示意圖Fig.4 Ghost convolution operations

Ghost模塊可以選擇主卷積內核大小，模塊內采用普通卷積，首先生成固有的特征映射，后利用線性運算增強特征和通道數，保持多樣性。

1.5 BiFPN

所提模型引入BiFPN實現所提模型深淺層特征雙向融合，增強不同網絡層之間特征信息的傳遞，使特征復用趨于絕對化，而非平均化。在所提模型的FPN與PAN結構的Concat中引入權重特征融合機制，首先調整通道數和寬高，將網絡的Concat全部替換BiFPN_Concat，為發揮特征融合的優勢，設計2分支與3分支BiFPN分別聚合不同深度的特征，其結構如圖5所示。

圖5 BiFPN特征網絡圖Fig.5 BiFPN feature network

2 實驗與結果分析

2.1 實驗配置

實驗采用PyTorch1.9深度學習框架，編程語言為Python3.8，在Ubuntu18.04系統上運行，GPU為雙NVIDIA GTX 1080 Ti，電腦內存為32 GB，顯存為11 GB，初始學習率為0.01，循環學習率為0.01，學習率動量為0.937，權重衰減系數為0.000 5，Batchsize設置為16，Epoch設置為300次。

2.2 數據集

HiXray[32]數據集是由國際機場安檢員手動標注的現實機場日常安檢數據集，適用于小物體檢測、遮擋物體檢測等多類檢測任務。此數據集包含45 364張X射線圖像，訓練集與測試集的比例為4∶1。數據集內含有8類，共計102 928個常見違禁品，分別為：PO1（鋰離子方形電池）、PO2（鋰離子圓柱形電池）、WA（水）、LA（筆記本電腦）、MP（手機）、TA（平板電腦）、CO（化妝品）、NL（廢金屬打火機）。

OPIXray[33]數據集是由安檢人員手動標注的機場檢查數據集，主要針對被遮擋的違禁物品。此數據集包含8 885張X射線圖像，其中7 019張圖像用于訓練，1 776張圖像用于測試。數據集內包含5類常見刀具：FO（折疊刀，1 993支）、ST（直刀，1 044支）、SC（剪刀，1 863支）、MU（多功能刀，1 978支）、UT（工具刀，2 042支）。數據集根據遮擋程度將測試集分為3個子集，并將它們分為3個等級：OL1（沒有或輕微遮擋）、OL2（部分遮擋）、OL3（嚴重或完全遮擋），級別越高，圖像中違禁品周圍的遮擋更嚴重。

SIXray數據集是由安檢員提供圖像級類別標注的地鐵安檢數據集，適合實時分類、檢測和分割應用。此數據集包含1 059 231張X射線圖像，其中8 929張圖像針對6個不同類別進行手動標注：Gun（槍）、Knife（刀）、Wrench（扳手）、Pilers（鉗子）、Scissors（剪刀）、Hammer（錘子），在視角和重疊方面具有多樣性。此數據集根據正負樣本比例的不同分為3個子集：SIXray10、SIXray100和SIXray1000，其中與現實最為接近的子集為SIXray100，使用標注的8 929張圖像按8∶1∶1分為訓練集、測試集、驗證集實驗。

2.3 結果分析

所提模型在HiXray、OPIXray與SIXray等3個數據集上進行了實驗驗證，并與當前部分先進方法進行了對比，實驗結果如表1、表2和表3所示，在HiXray、OPIXray與SIXray數據集上準確率分別為83.3%、94.2%、92.8%的檢測效果均為最優。較以SSD為基礎的檢測器分別提升10.2、19.6、9.9個百分點，較以FCOS為基礎的檢測器在HiXray、OPIXray數據集分別提升6.0、11.1個百分點，較殘差網絡在SiXray數據集中提升16.0個百分點。此外，所提模型在以YOLO系列為網絡架構的違禁品檢測方法中也具有先進性，較當前現有最優結果分別提升1.7、3.2、0.5個百分點。具體違禁品類別上，在HiXray數據集的PO1、PO2、WA、MP、CO、NL類別、OPIXray數據集的所有類別、SIXray數據集的Wrench與Scissors類別，此檢測模型在眾多方法中結果最佳。上述結果可歸因于所提模型在多個尺度上能夠自適應地聚合不同級別的特征，有效地關注圖像特征的不同屬性，提高違禁品檢測性能。值得指出的是，在HiXray數據集中，Cosmetic與Nonmetallic_Lighter類別上的檢測精度明顯低于其他類別，與兩類別在數據集內的圖像數量、物品特點等因素有關。

表1 HiXray數據集實驗結果對比表Tabel 1 Comparison table of experimental results in HiXray dataset 單位：%

表2 OPIXray數據集實驗結果對比表Tabel 2 Comparison table of experimental results in OPIXray dataset 單位：%

表3 SiXray數據集實驗結果對比表Tabel 3 Comparison table of experimental results in SiXray dataset 單位：%

為驗證所提模型的運行效率，本文算法與基線模型復現代碼在3個大型違禁品檢測數據集上進行實驗，檢測時間與準確率對比結果如表4所示，在HiXray、SiXray數據集中，檢測時間分別較改進前增加0.9 ms、0.2 ms，在OPIXray數據集中，檢測時間減少0.2 ms，可見，加入相關改進策略后，檢測幀率并未明顯下降。SiXray數據集包含1 059 231張違禁品圖像，HiXray數據集包含45 364張違禁品圖像，均取自于真實的違禁品檢測場景，是現有2個規模較大、違禁品種類繁多且被廣泛使用的數據集[24，32]。數據集分別著眼于正負樣本比例與含違禁品行李內的對象堆疊狀態構建，圖像具有多重遮擋、高復雜度、規律性弱等特點。SiXray數據集內的對象分布與真實場景一致，正樣本與負樣本比例約為118∶1，違禁品類別為刀具、錘子、扳手典型違禁品，HiXray數據集違禁品種類傾向于日常生活中的常見情形，對象分布于每一張圖像中。二者給模型的訓練與測試帶來較高挑戰，模型在以上兩個數據集的檢測速度變化能夠真實反映其在日常檢測含有違禁品行李時的實時性影響，由此可見，改進后的模型具有一定的泛化能力，在真實世界中也能取得良好的檢測效果。

表4 檢測時間與準確率對比表Tabel 4 Comparison of detection time and accuracy

從以上可以看出，所提模型在3個數據集上均取得了最優結果，表明其泛化性能較為優異，另外檢測速率在不同數據集上表現略有差異，總體仍具有較好的競爭力。綜上，本文所提算法較好地兼顧了檢測準確率和效率平衡，且泛化性較好，是一種性能優良的違禁品檢測模型。

2.4 消融實驗研究

為驗證所提模型有效性，以YOLOv5為基線模型，分別在HiXray、OPIXray和SIXray等3個數據集上進行消融實驗，實驗結果如表5所示。從表5可以看出，在HiXray數據集、OPIXray數據集、SiXray數據集中，分別引入ASFF、CA、Bi、Gh模塊后，檢測器性能均有小幅提升，將模塊結合在一起并調整后，檢測器的性能分別提升1.7、5.4、0.5個百分點。ASFF模塊著眼于多尺度特征間的差異性，使網絡自主學習各尺度特征圖融合的空間權重以抑制特征尺度的差異性；CA模塊實現跨通道信息的捕獲，以提高有效特征信息的權重；BiFPN網絡通過可學習的權重學習不同輸入特征的重要程度，充分發揮出YOLOv5基線網絡與各模塊綜合作用的優勢，準確率分別提高到83.3%、94.2%、92.8%。從HiXray數據集、OPIXray數據集、SIXray數據集上進行的所有消融實驗和實驗結果可以看出，綜合引入ASFF、CA、Bi、Gh模塊對檢測器性能有較大提升，基于不同數據集的不同特點，所提模型能夠較好地學習特征并檢測X光圖像中的違禁品，具有應用性廣、實時性強、準確度高等特點。

表5 數據集上的消融實驗研究Tabel 5 Experimental study of ablation on dataset

圖6為基線模型與所提模型的數據集結果可視化對比圖，第1行圖為基線模型檢測結果，第2行圖為改進后的檢測結果，縱向對比可知，在復雜背景下多尺度特征違禁品的檢測中，改進后的模型能夠準確檢測出隱藏違禁品，表明改進策略的有效性。

圖6 數據集結果可視化對比圖Fig.6 Dataset result visualization comparison chart

3 結論

本文以YOLOv5為基線網絡，引入空間自適應與多尺度特征融合策略，改進違禁品尺度差異性問題，采用注意力機制模塊CA抑制背景干擾問題，使用GhostConv替換普通Conv降低網絡消耗，所提模型在當前應用較為廣泛的HiXray、OPIXray、SIXray等3個公開數據集上的mAP分別提升1.7、5.4、0.5個百分點，超過了當前諸多先進方法，改進后的網絡模型兼顧檢測精度與檢測速度平衡性，且具有較好的泛化性，是一種性能優良的違禁品檢測模型。