基于注意力與特征融合的工程機械目標檢測方法

2022-08-23 07:29:30吳靖趙爾敦林卓成秦文清

包裝工程 2022年15期

吳靖，趙爾敦，林卓成，秦文清

吳靖，趙爾敦，林卓成，秦文清

（華中師范大學，武漢 430079）

針對施工環境中工程機械目標大小不一、相互遮擋、工作形態各異等問題，提出一種基于注意力與特征融合的目標檢測方法（AT–FFRCNN）。在主干網絡中采用ResNet50和特征路徑聚合網絡PFPN，融合不同尺度的特征信息，在區域建議網絡（RPN）和全連接層引入注意力機制，提高目標識別的能力，在損失函數中使用廣義交并比（GIoU），提高目標框的準確性。實驗表明，文中提出方法檢測準確率比其他方法有較大提高，檢測平均準確率（mAP）達到90%以上。能夠較好地完成工程機械目標的檢測任務。

目標檢測；Faster R–CNN；注意力機制；特征融合

在施工現場中，工程機械目標常常是釀成安全事故的隱患，存在倒塌、側翻等不穩定的因素，因此對工程機械進行目標檢測是實現生產安全的重要一環。智能化的視頻監控和影像分析可以實時了解施工現場的施工進度、秩序以及安全性。

近年來，基于深度學習目標檢測方法的研究發展十分迅速，主要分為一階段和兩階段的檢測方法。一階段的檢測方法主要代表有YOLO[1]系列方法、CenterNet[2]、RetinaNet[3]、SSD[4]等，其特點是速度較快，候選框的生成和分類同時進行，將目標圖片直接送入網絡即可生成預測框；兩階段的檢測方法有R–CNN[5]、Fast R–CNN[6]、Faster R–CNN[7]等，不同于一階段的檢測方法，兩階段方法將候選框的生成和分類分開進行，整體網絡由提取區域建議網絡RPN和公共特征層二者相結合而構成，檢測精度相對較高。

施工場景的目標檢測有以下難點：塔吊、挖機、吊車等工程機械目標形態、顏色各異；真實施工場景監控攝像頭的位置距離目標較遠，拍攝到的目標尺寸相差較大；目標與建筑物、目標與目標之間會出現相互遮擋的情況；受天氣的影響，會存在光照不足或者背光的情況，導致目標不明顯。

為了解決上述檢測難點，文中基于Faster R–CNN提出一種基于注意力與特征融合的工程機械目標檢測方法（AT–FFRCNN），其特點如下：在主干特征提取網絡采用ResNet50，在特征提取網絡之后加上特征路徑聚合網絡（PFPN），讓網絡能更好地學習不同尺度的特征；在區域建議網絡（RPN）中引入注意力機制模塊CABM（AT–RPN），實現對與目標有關的特征通道和空間位置賦予更多的關注，并在全連接層引入注意力機制進行增強（AT–FC），對目標建議框周圍的建議框的特征向量賦予不同的權值并且進行融合，來更新目標建議框的特征向量；采用K–means聚類算法對樣本集進行聚類，采用更適用于此問題的先驗錨框（Anchor Box）寬高比（該問題場景計算出寬高比為1∶1.4、1∶1.7、1.5∶1）；回歸損失函數采用為廣義交并比損失（GIoU），解決SmoothL1沒有考慮預測框與真實框的重疊問題。

1 基于注意力與特征融合的工程機械目標檢測方法

文中提出的AT–FFRCNN算法框架見圖1，算法步驟如下。

1）首先將圖片送入特征提取模塊，經過主干網絡ResNet–50和特征路徑聚合網絡PFPN后得到特征圖。

2）接著將得到的特征圖經過3×3的卷積之后得到特征圖，隨后將特征圖送入融合注意力機制的區域建議網絡AT–RPN，得到區域建議框。

3）將區域建議框映射到特征圖上，得到一系列的特征矩陣，再對特征矩陣進行感興趣區域池化，固定其尺寸大小。后將池化后的特征矩陣與目標建議框送入基于關系增強的全連接層，融合周圍目標建議框，獲取位置信息更精準的目標建議框，最后再送入分類與回歸模塊進行目標檢測。

1.1 特征路徑聚合網絡PFPN

文中將Faster R?CNN的特征提取網絡由VGG16[8]替換成ResNet50[9]，雖然能夠提取到更為精細的特征，提高了檢測大目標的檢測效果。由于加深了網絡的層數，也丟失了較多的淺層語義特征[10]，最終導致無法精準地檢測出小目標。為了解決這個問題，文中基于特征金字塔網絡FPN和實例分割網絡（PANet）的思想[11]，構造一種特征路徑聚合網絡（PFPN），其結構見圖2。特征路徑聚合網絡PFPN主要由特征金字塔（FPN）和自下而上的路徑聚合（Path aggregation，PA）組成。PFPN的具體工作流程如下。

圖1 AT–FFRCNN算法框架示意圖

由于PFPN添加了自下而上的路徑聚合過程，相較于原始的FPN，能夠更好地保留淺層特征信息，增加特征的表達能力，更有利于小目標的檢測。這是因為FPN雖然增加了自上而下的特征融合操作，能夠保留一定的淺層特征信息，但是由于主干網絡較深，淺層特征信息經過了太長的路徑到達深層，丟失的淺層信息仍然較多，如圖2中長點劃線所示。在增加了自下而上的路徑聚合后，更好地保留了淺層特征信息，如圖2中圓點線所示。

1.2 K-means錨框寬高比設置

1.3 融合注意力機制的AT-RPN網絡

AT–RPN網絡在RPN網絡的基礎上引入了注意力模塊CBAM[12]，提高RPN網絡的目標分類與回歸能力，獲取更精細的目標候選框。CBAM包含通道注意力[13-14]和空間注意力，這兩個部分相互連接、相互補充，能夠突出圖像中的目標特征抑制非目標部分（背景）的特征，而且還能突出目標的空間位置信息。

圖2 PFPN網絡結構

1.4 基于關系增強的全連接層AT–FC

在AT–RPN網絡之后，存在目標建議框與其交并比IoU較大的周圍建議框，這些周圍建議框與目標建議框之間存在一定的關系，其含有的位置信息能夠幫助該目標建議框修正位置。為了使目標建議框的位置信息更精準，文中提出在RoI池化之后的全連接層引入注意力機制[15]，構造了一種基于關系增強的全連接層AT–FC。AT–FC的原理見圖3，運用注意力機制計算得出周圍建議框與目標建議框位置信息的關系大小（權值），然后將這些周圍建議框與其對應的權值相乘，以加權求和的方式融合并更新目標建議框。通過AT–FC更新之后，目標建議框的位置信息將更加精確。

圖3 建議框融合算法

基于注意力機制的周圍建議框融合算法步驟如下。

5）將更新后目標建議框特征向量送入后續全連接層，進行目標分類和位置回歸定位。

1.5 廣義交并比GIoU

1.6 損失函數

損失函數由2部分組成，分別是區域建議網絡RPN的損失和分類與回歸模塊的損失。

1.6.1 區域建議網絡RPN損失

RPN網絡包含錨框的分類與回歸，其損失函數為：

1.6.2 分類與回歸模塊損失

文中使用的損失函數為：

2 實驗結果與分析

2.1 數據集與參數配置

文中收集了施工現場中3類機械目標的樣本數據集，本數據集共包含有塔吊（crane）、挖機（excavator）和吊車（hoist）3類機械設備的圖片共1 415張，其中991張為訓練集，283張為驗證集，141張為測試集。

文中實驗采用帶動量的隨機梯度下降法(Stochasitc Gradient Descent，SGD)對網絡進行訓練，初始學習率為0.005，學習率更新策略采用的是Step，動量系數為0.9，學習率調整倍數為0.33，建議框融合算法閾值為0.7。

2.2 實驗結果分析

2.2.1 結果對比

與Faster R–CNN不同，AT–FFRCNN算法提出了多種模塊，在文中的數據集下進行消融實驗，探求各模塊對實驗效果的影響，實驗對比結果見表1。表1中，mAP表示目標檢測的評價精確率。由表1可知，Faster R–CNN網絡的mAP值為77.8%，而將主干網絡調整為ResNet50之后，mAP值提升了3.9%；在此基礎之上加入特征金字塔網絡FPN后，mAP值又提升了1.8%；引入文中構造的特征路徑聚合網絡FPFN后，mAP值則提升了1.9%。后繼續通過K–means算法對樣本聚類，修改RPN網絡的錨框寬高比后，mAP值又提升了2.8%，最后在引入GIoU回歸損失后，mAP值達到了90.2%。

表1 不同改進下的mAP對比

Tab.1 mAP comparison under different improvements

2.2.2 不同錨框寬高比的實驗結果對比

利用文中K–mean聚類算法對錨框寬高比進行調整的多組實驗結果見表2。從表2中可以得出，錨框的寬高比例并不是越多越好，也即K–means對樣本聚的簇不是越多越好，最適合文中問題場景的錨框寬高比為1∶1.4、1∶1.7、1.5∶1，隨著寬高比例數量的增加，模型的檢測精度mAP值會變低。對比表格的第1行和第2行可知，相較于Faster R–CNN的默認錨框寬高比，使用K–means聚類算法對錨框寬高比進行調整后，網絡模型的檢測精度mAP值比初始Faster R–CNN提高了3.5%。

表2 不同錨框寬高比下的檢測mAP

Tab.2 Detection mAP with different anchor box aspect ratios

2.2.3 不同算法模型實驗結果對比

為了驗證文中提出AT–FFRCNN算法的效果，文中也與當前其他目標檢測算法進行了對比，不同網絡模型實驗結果評價指標見表3。

從表3中可以看出，Faster R–CNN在使用文中數據集進行訓練并在驗證集上進行驗證得到的AP50和AP75值分別為86.7%和68.9%，mAP值為77.8%。文中AT–FFRCN算法的AP50和AP75值相較于Faster R–CNN分別提高了10.5%、20.4%，并且mAP值達到了95.4%，在原來的基礎上提升了17.8%。同其他目標檢測算法比較，文中AT–FFRCN算法的各項指標均提高了不少，相較于SSD，AP50提高了13%，AP75提高了22.5%，mAP提高了20.1%，相較于YOLOV3，AP50、AP75、mAP則分別提高了9.4%、19.8%、17.3%，這也充分證明該算法在Faster R–CNN基礎上的改進是有效的，能夠解決文中引言中提出的問題。

表3 不同網絡模型實驗結果評價指標對比

Tab.3 Comparison of evaluation indicators of experimental results of different network models

注：評價指標AP50和AP75分別表示預測框與真實框交并比IoU值大于0.5和大于0.75的檢測精度。

2.2.4 檢測效果示例

圖4是文中算法與Faster R?CNN檢測效果圖，其中圖4a為Faster R–CNN算法的檢測效果，圖4b為AT–FFRCNN算法對應的檢測效果。可以看出，AT–FFRCNN檢測出的工程機械目標準確率更高，位置信息也更準確，并且能夠識別出尺寸較小和不明顯的目標，針對Faster R–CNN在復雜場景目標遮擋、交叉的特殊情況下的漏檢、錯檢問題有顯著改善。

圖4 2種算法的檢測效果

3 結語

為實現對施工現場工程機械目標的準確檢測，文中提出了基于一種基于多尺度特征融合的施工目標檢測方法AT–FFRCNN。該方法采用了ResNet50作為主干特征提取結構，結合構造的特征路徑聚合網絡PFPN，提高了對不同尺寸目標的檢測精度；使用GIoU和K–means錨框寬高比聚類算法，彌補了目標定位不準確的問題；在區域建議網絡和全連接層引入注意力機制進行增強（AT–FC），提高了復雜環境中目標檢測的能力。文中對設計的算法進行了相關對比實驗，實驗結果表明，文中提出的算法能實現對施工隱患目標更精準的檢測，滿足了實際應用的需求。

[1] REDMON J, DIVVALA S, GIRSHICK R, et al. You only Look Once: Unified, Real-Time Object Detection[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2016, 10: 779-788.

[2] DUAN KAIWEN, BAI SONG, XIE LINGXI, et al. CenterNet: Keypoint Triplets for Object Detection[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision, 2019: 6568-6577.

[3] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.

[4] LIU WEI, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[C]// European conference on computer vision, Springer, Cham, 2016: 21-37.

[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

[6] GIRSHICK R. Fast R-Cnn[C]// Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.

[7] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[8] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]// International Conference on Learning Representations, 2015: 4011-4019.

[9] HE KAIMING, ZHANG XIANGYU, REN SHAOQING, et al. Deep Residual Learning for Image Recognition[C]// Conference on Computer Vision and Pattern Recognition. IEEE, 2015: 1212-1231.

[10] ZAGORUYKO S, LERER A, LIN T Y, et al. A MultiPath Network for Object Detection[J]. Computer Vision and Pattern Recognition, 2016,23(4):1604.

[11] LIU SHU, QI LU, QIN HAIFANG, et al. Path Aggregation Network for Instance Segmentation[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.

[12] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.

[13] HU Jie, SHEN Li, SUN Gang, et al. Squeeze-and-Excitation Networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.

[14] WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2020, Issue: 11531-11539.

[15] YANG JIANWEI, LU JIASEN, LEE S, et al. Graph R-CNN for Scene Graph Generation[C]// Proceedings of 15th European Conference on Computer Vision. Munich, Germany, 2018:670-685.

[16] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[C]// Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition, 2019: 658-666.

Object Detection Method of Construction Machinery Based on Attention and Feature Fusion

WU Jing, ZHAO Er-dun,LIN Zhuo-cheng,QIN Wen-qing

(Central China Normal University, Wuhan 430079, China)

The work aims to propose an object detection method based on attention and feature fusion (AT-FFRCNN) aiming at the problems of different size, mutual occlusion and different working forms of construction machinery objects in the construction environment.ResNet50 and feature path aggregation network PFPN were used in the backbone network to fuse feature information of different scales, and an attention mechanism was introduced into the region proposal network (RPN) and fully connected layer to improve the ability of target recognition, and generalized intersection over union (GIoU) was used in the loss function to improve the accuracy of the object box.Experiments indicated that the detection accuracy of the proposed method was greatly improved compared with other methods, and the average detection accuracy (mAP) reached more than 90%. The proposed method can complete the detection task of the construction machinery better.

object detection; Faster R-CNN; attention mechanism; feature fusion

TP391

1001-3563(2022)15-0061-07

10.19554/j.cnki.1001-3563.2022.15.007

2022–06–09

吳靖（1997—），男，華中師范大學碩士生，主攻深度學習、機器視覺。

趙爾敦（1972—），男，博士，華中師范大學副教授，主要研究方向為機器視覺。

責任編輯：曾鈺嬋