基于實例分割模型優化的道路拋灑物檢測算法

2021-12-07 10:09:16張亮謝非楊嘉樂張瑞劉益劍

計算機應用 2021年11期

章悅，張亮，2*，謝非，2，楊嘉樂，張瑞，劉益劍，2

（1.南京師范大學電氣與自動化工程學院，南京 210023；2.南京智能高端裝備產業研究院，南京 210042）

0 引言

在交通道路安全領域，道路拋灑物如石塊、掉落的廢舊紙箱、渣土、廢舊布等容易引發交通事故，給其他通過的車輛造成安全隱患，同時由于拋灑物大小不固定、種類多樣，且道路交通環境相對復雜，這也增加了拋灑物檢測及識別的難度。

近年來，隨著人工智能和智能交通的發展，越來越多的國內外研究者開始關注道路交通事件及道路拋灑物檢測識別問題。Khatoonabadi 等［1］提出了使用自適應運動矢量和時空馬爾可夫隨機場模型在壓縮視頻序列中跟蹤運動目標，該方法在第一幀中手動選擇目標對象，在后續幀中可以通過幀內編碼塊和全局運動補償計算的方法檢測運動目標；但是這種方法存在計算量大、耗時長的缺陷。Asvadi 等［2］提出了一種先進的車輛系統設計方案，通過傳感器測量所得的2.5D特征圖描述每幀圖像的動態環境，該算法精確度高，但是在惡劣天氣條件下檢測效果不太理想。汪貴平等［3］使用五幀差分法對高速公路拋灑物進行檢測。李清瑤等［4］提出了基于幀間差分自適應法的車輛拋灑物檢測，通過連續幀間差分法和均值法等運動目標檢測算法進行拋灑物檢測。金瑤等［5］提出了一種基于YOLOv3（You Only Look Once v3）改進的城市道路視頻中小像素目標檢測方法，將深度學習目標檢測算法引入到城市道路目標檢測中。近年來，國內研究者基于傳統圖像處理中的特征提取算法［6］或是運動目標跟蹤檢測算法［7-8］，包括幀間差分法［9］、背景減除法［10］和光流法［11］等算法，在一定程度上實現了基于視頻圖像的道路拋灑物檢測，但這些算法在復雜環境下應用效果并不好，且檢測精度較低，效率不高。因此，道路拋灑物檢測仍然是一個亟待研究的方向，對道路交通安全具有重要意義。

目前實例分割技術已廣泛應用在車道線檢測方面，對車輛的無人駕駛起到了重要作用。考慮到無人駕駛中算法的通用性，以及車輛避障、路徑規劃的實際需求，本文以實例分割模型為基礎進行優化，實現了對道路拋灑物的多目標檢測與識別，并且能夠輸出道路拋灑物的具體形態特征。相較于之前提出的道路拋灑物檢測算法及其他常見實例分割算法，如Mask R-CNN（Mask Region-Convolutional Neural Network）［12］，本文算法具有顯著的優越性。本文算法的主要工作如下：

1）使用基于全卷積單階段（Fully Convolutional One-Stage，FCOS）［13］目標檢測器優化的實例分割模型CenterMask進行拋灑物檢測，與常見實例分割模型相比，FCOS 目標檢測器由于其單階段結構和不需要設定錨框的特性，節省了計算量與耗時。

2）現有實例分割模型中的主干神經網絡在處理多尺度目標時往往精度較低，本文算法在考慮耗時與檢測精度的同時，使用優化的殘差網絡ResNet50［14］作為主干神經網絡進行圖像特征提取，通過引入空洞卷積（Dilated Convolution）［15］進行優化，增加擴張率這一參數以增大感受野，提高了網絡對于多尺度目標的特征提取能力，更適用于道路拋灑物檢測這一應用場合。

3）對現有模型中邊界框回歸損失函數進行優化改進，使用距離交并比（Distance Intersection over Union，DIoU）函數作為邊界框回歸損失函數，在計算真實框與預測框的距離以外還考慮到了兩者之間的最小閉包區域及重疊率，能夠直接最小化目標框距離，使得收斂更加迅速，目標框回歸變得更加穩定。

1 模型架構與原理分析

實例分割模型CenterMask 是一種基于全卷積單階段（FCOS）目標檢測器的實時檢測與分割模型，其結構如圖1 所示。CenterMask 在使用FCOS 目標檢測器進行目標檢測的基礎上引入空間注意力模塊（Spatial Attention Module，SAM）［16］抑制噪聲，幫助進行目標聚焦，從而構建空間注意力引導掩膜，改善了目標的分割效果。其優勢在于使用了單階段無錨目標檢測器FCOS，FCOS 在檢測過程中不使用預先設定的錨框（anchor），避免了二階段目標檢測器，如Faster R-CNN［17］帶來的計算資源消耗問題，同時與最廣為人知的無錨目標檢測器YOLOv1［18］相比，FCOS的召回率有顯著提升。

圖1 實例分割模型CenterMask結構Fig.1 Structure of instance segmentation model CenterMask

但FCOS 檢測精度與基于錨框的目標檢測器相比還是較低，原始的CenterMask 模型對于多尺度目標檢測的效果還有待提高。

本文采用了優化的CenterMask實例分割模型對采集到的訓練集進行訓練，生成訓練好的模型權重文件及各項參數配置，并使用測試集進行測試，具體流程如圖2所示。

圖2 道路拋灑物檢測整體流程Fig.2 Overall process of road abandoned object detection

2 本文算法

2.1 基于空洞卷積優化的主干神經網絡

主干神經網絡選取殘差網絡，通過卷積計算對輸入圖像進行特征提取。殘差網絡中卷積層數越多，其特征提取的效果越好，但卷積層數的增加也會使得反向傳播時梯度隨著網絡層數的增加而消失，網絡性能下降，并造成計算資源的占用問題。由于常見道路拋灑物種類有限，所需提取特征并不多，為了避免上述問題并保證特征提取效率，本文采用了ResNet50作為主干神經網絡，并采用空洞卷積進行優化，最終輸出五個階段特征圖。

ResNet50 的網絡結構如圖3 所示，其中Conv 表示卷積操作，Batch Norm 表示批正則化操作，ReLU 為激活函數，Max Pool 表示最大池化［19］操作，Avg Pool 表示平均池化操作，Conv Block 代表添加維度的卷積塊，ID Block 代表不改變維度的Identity 塊，FC（Fully Connected layer）表示全連接層，Conv Block與ID Block的具體結構也如圖3所示。

圖3 主干神經網絡ResNet50結構Fig.3 Structure of backbone neural network ResNet50

空洞卷積向卷積層引入了一個稱為“擴張率（Dilation Rate）”的新參數，該參數定義了卷積核處理數據時各值的間距。不包括空洞的原始卷積核如圖4（a）所示，擴張率為3 的空洞卷積如圖4（b）所示，空洞卷積能夠擴大感受野，經過空洞卷積優化的主干網絡模型能夠有效提高特征提取的精度。

圖4 空洞卷積對比示意圖Fig.4 Schematic diagram of dilated convolution comparison

2.2 基于特征金字塔網絡的多尺度處理

道路拋灑物在監測視頻中大多以多尺度的形式存在，為了更好地捕捉拋灑物的形狀、顏色特征，采用特征金字塔網絡（Feature Pyramid Network，FPN）［20］進行多尺度處理。本文采用的CenterMask 模型中，FPN 分為五個特征層，即F3、F4、F5、F6、F7，如圖5所示。

圖5 主干網絡結構與多尺度處理Fig.5 Structure of backbone network and multi-scale processing

其中，F3、F4、F5是由輸入圖像經過主干神經網絡卷積后所得特征圖C3、C4、C5再次經過1×1 卷積得來，F6、F7分別由F5、F6經過步長為2 的卷積得到。在進行道路拋灑物檢測識別的場景中，使用FPN能發揮其多尺度識別的優勢，在很大程度上緩解模糊性。

2.3 基于DIoU優化的全卷積單階段目標檢測器

全卷積單階段目標檢測器FCOS 直接利用了真實框（Ground Truth Bounding Box）中的所有點對邊界框進行預測。特征圖上的每一個位置(x，y)都可以對應到原圖上的一個坐標，如果位置(x，y)落在任意真實框內，那么它就被認定是正樣本，否則為負樣本。

同時也可以得到一個表示邊界框回歸偏移量的4 維向量s*=(l*，t*，r*，b*)，其中l*、t*、r*、b*分別代表了這一位置的點到真實框左、上、右、下四邊的水平距離。

FCOS 目標檢測器通過中心度（centerness）分支來抑制低質量的預測框，中心度的定義如下：

FCOS目標檢測器輸出的訓練損失函數定義如下：

式中：qx，y表示位置(x，y)預測得出的分類標簽，表示位置(x，y)的真實類別；sx，y表示位置(x，y)所在的邊界框坐標，表示位置(x，y)與回歸的偏移向量；Npos表示正樣本數量；Lcls表示分類損失函數，使用了焦點損失（focal loss）［21］；Lreg表示了邊界框回歸損失函數；λ設置為1用于平衡兩類損失；Ι表示指示函數。

本文引入了DIoU 作為邊界框回歸損失函數。相較于目前廣泛應用的IoU函數，DIoU 將重疊率以及尺度都考慮在內，使得目標框回歸變得更加穩定，不會在訓練過程中出現發散等問題，檢測精度更高。其計算過程如下：

式中：B表示預測框，Bgt表示真實框；b、bgt分別表示預測框和真實框的中心點位置；d1表示同時包含了預測檢測框和真實框的最小閉包區域的對角線距離，d2表示這兩個中心點之間的歐氏距離，d2=ρ2(b，bgt)，如圖6所示。

圖6 DIoU原理示意圖Fig.6 Schematic diagram of DIoU principle

同時使用了一種自適應的感興趣區域（Region of Interest，RoI）［22］分配機制來保證無錨目標檢測器對于多尺度目標的檢測精度。

式中：K表示感興趣區域的映射關系；kn表示對應的FPN 層級數量，本文中FPN分為五個層級，所以kn=5；Ainput表示輸入圖像數據的面積；ARoI表示感興趣區域的面積。

2.4 空間注意力引導掩膜

使用了空間注意力引導掩膜（Spatial Attention-Guided Mask，SAG-Mask）作為掩膜分割分支，經過自適應的感興趣區域分配機制預測得到的特征將被饋送到四個轉換層和空間注意力模塊（SAM）中依次處理，具體過程如圖1 中所示，其公式描述如式（6）所示：

式中：Osag(Xi)表示輸出的空間注意力特征描述子；C3×3表示進行3× 3 的卷積；“°”表示進行連接聚合；σ表示sigmoid 函數。對輸入掩膜分割分支的特征圖Xi∈RH×W×Q進行最大池化和平均池化，得到特征fmax，favg∈RH×W×Q，再進行聚合連接輸入一個3× 3 的卷積層，并使用sigmoid 函數進行歸一化。空間注意力引導特征圖Xsag的計算式如式（7）所示：

式中?表示進行對應乘積計算。這一步的主要目的是通過空間注意力引導特征去加強原始輸入特征。最后，使用了2 ×2 的卷積進行上采樣，通過一個1× 1 卷積層預測特定類的掩膜。

2.5 算法性能評價指標

使用平均精度（Average Precision，AP）作為性能評價指標，平均精度能夠全面表達實例分割模型的分類器性能，目前已經被廣泛應用到目標檢測算法的評價中。除了平均精度外，本文還采用了檢測率作為道路拋灑物檢測的性能評價指標。

在平均精度的計算中又包含準確率（Precision）和召回率（Recall）這兩個指標，準確率和召回率的計算式如下：

式中：p表示準確率，r表示召回率；TP表示正確劃分為正樣本的個數；FP表示錯誤劃分為正樣本的個數；FN表示錯誤劃分為負樣本的個數。平均精度的計算式如下：

式中，AP為平均精度，一般情況下平均精度值越高，分類器性能越好。

檢測率是指采用訓練好的模型對測試集樣本進行測試后，可視化結果中對于拋灑物目標正確檢測類別的數量與測試集圖像樣本中包含的所有拋灑物數量的比例。

3 實驗與結果分析

3.1 樣本采集和處理

為了保證訓練模型的準確性，應用了遷移學習的思想，引入預先在COCO 數據集（包括91 類目標，328000 段影像和2500000 個標簽的大型物體檢測和分割的數據集）訓練得到的預訓練權重文件。通過遷移學習可以避免訓練時網絡從零開始學習，加快并優化了模型的學習效率，使得在數據集數量較少的情況下，模型也能夠達到較好的訓練效果。

為了測試與驗證本文算法的有效性，實驗中數據集由白天不同時段某城市主干道公路監控視頻圖像構成。通過分幀處理，挑選出共1000 張圖像作為訓練集，其中共包括含有石塊、廢棄紙盒、廢棄拋灑布、渣土這四類常見道路拋灑物的圖像各250 張，經統計，訓練集圖像中共有待檢測目標4000 個，分別標注為stone、box、cloth、dust四類。訓練樣本圖像的大小統一為1920 × 1080 像素，使用labelme 圖像標注工具添加掩膜標簽，標注過程如圖7（b）所示，并批量生成過程中所需的json文件。

圖7 數據集原始圖像與標注過程Fig.7 Original image in dataset and labeling process

測試集中通過監控采集的道路拋灑物圖像共400 張，其中每類拋灑物的圖像各100張。經統計，測試集圖像中有4類待檢測目標個體，共1196個。

本文實驗平臺搭建在Windows 10 系統下，環境配置為Python3.6+PyTorch1.1.0-GPU+CUDA10.0。實驗參數設置為：1 個GPU，型號為NVIDIA GEFORCE RTX2060；單GPU 同時處理圖像數為1；分類個數為1（背景類）+4（石塊、廢棄紙盒、廢棄拋灑布、渣土）；迭代步數設置為20，學習率設置為0.001。

3.2 結果驗證和分析

使用訓練好的模型對測試集包含的四類拋灑物目標進行檢測，最終識別與分割的局部結果如圖8 所示。從檢測與識別結果可知，在四類拋灑物尺度不同、距離監控攝像頭遠近也不同的情況下，本文所提出的道路拋灑物檢測算法能夠對拋灑物進行精確的檢測與識別。基于空洞卷積優化的主干神經網絡擴大了特征感受野的范圍，使得對遠距離多尺度目標的檢測效果更好；基于DIoU 優化的邊界框回歸損失函數提高了定位精度，使得輸出的邊界框信息更為準確。

圖8 幾類常見道路拋灑物識別與分割結果Fig.8 Recognition and segmentation results of several types of common road abandoned objects

3.2.1 不同優化方案消融實驗對比

將本文中采用的優化算法進行對比實驗，對于同一幀圖像中同一目標的識別結果和掩膜得分（mask score）如圖9 所示。圖9（a）中的mask score 分別為0.70 和0.78，圖9（b）中的mask score分別為0.74和0.83，圖9（c）中的mask score分別為0.76 和0.85，圖9（d）中的mask score 分別為0.80 和0.86。mask score 數值與識別分類結果和掩膜分割的質量相關，mask score數值越高則說明分類識別準確度越高，掩膜分割質量越好，由此可以得出，使用本文所提出的空洞卷積與DIoU共同優化的算法時，主干神經網絡對圖像特征提取能力增強，邊界框回歸更為準確，目標識別的分類準確度和掩膜分割質量也相對更好。

圖9 同一路段拋灑物識別結果對比Fig.9 Comparison of recognition results of abandoned objects on the same road section

在相同迭代次數的條件下（epochs=40），將空洞卷積引入殘差網絡ResNet50 中，分別使用原始卷積和空洞卷積優化的ResNet50 作為主干神經網絡，同時在損失函數中分別使用原始的IoU 函數與DIoU 進行訓練和驗證。表1 中給出了4 種模型在邊界框檢測和掩膜分割兩方面的各項評價指標，包括AP、AP50、AP75、APs、APm、APl。其中，AP是交并比取0.5～0.95閾值下的平均精度值，AP50、AP75分別指交并比取0.5 和0.75時的AP 值，APs、APm、APl分別指小、中、大三種不同尺寸目標的AP 值。三種尺寸的劃分沿用COCO 數據集評價規范，小尺寸目標指面積小于32 像素×32 像素，中等尺寸目標指面積大于32 像素×32 像素且小于96 像素×96 像素，大尺寸目標指面積大于96像素×96像素。

表1 道路拋灑物檢測優化算法結果對比單位：%Tab.1 Result comparison of optimization algorithms for road abandoned object detection unit：%

由表1 可以看出，使用本文算法時，道路拋灑物檢測的平均精度值最高。相較于未經優化的CenterMask，本文所提出的優化算法對不同尺度目標的檢測效果較好，邊界框檢測和掩膜分割平均精度值均有顯著提升。本文算法針對小尺度目標進行檢測時平均精度（APs）為50.40%，針對大尺度目標進行檢測時平均精度（APl）為71.50%，相較于未經優化的模型CenterMask分別提升了3.2個百分點和12.20個百分點。

3.2.2 不同算法性能對比

除對不同優化算法進行消融實驗對比外，還將本文提出的優化算法與其他常見實例分割算法在相同測試集上進行對比測試，性能結果如表2 所示，使用不同算法的檢測結果如圖10所示。

圖10 不同算法檢測結果對比Fig.10 Detection result comparison of different algorithms

由表2 可以看出，本文算法檢測率為94.82%，相較于未經優化的CenterMask 提高了1.43 個百分點，且邊界框檢測和掩膜分割平均精度分別提高了7.40 個百分點和1.70 個百分點，而單張圖像檢測平均耗時僅增加0.01 s，在不顯著降低原始算法實時性的情況下提升了檢測精度。相較于常見實例分割算法Mask R-CNN，本文所提出的算法在平均精度及檢測率上均有顯著提升，其中在邊界框檢測上的AP 提高了8.10 個百分點。相較于YOLACT（You Only Look At CoefficienTs），盡管本文所提算法在進行檢測識別時單張圖像平均耗時相對較長，YOLACT 實時性更好，但存在著目標檢測框及掩膜分割效果不好的情況，同時對于小目標的漏檢率較高。綜合考慮實時性與檢測精度可知，本文所提的道路拋灑物識別算法效果更好，更適用于復雜道路環境下拋灑物檢測。

表2 不同算法測試性能對比Tab.2 Comparison of test performance of different algorithms

4 結語

針對道路拋灑物檢測，本文提出了基于實例分割模型優化的道路拋灑物檢測算法，該算法基于CenterMask 模型使用空洞卷積與DIoU 損失函數進行優化。實驗結果表明，在相同的環境配置下，相較于未經優化的實例分割算法，本文所提出的道路拋灑物檢測算法在保證運行時間相對較少的同時，有效提高了模型檢測和分割的精度，檢測率較高，能夠精確檢測和識別多尺度目標。未來將進一步研究在保證檢測和識別精度的同時進一步提高檢測效率，增強算法的實時性。