朱曉峰,李 林,,張德津,羅文婷
1.福建農林大學 交通與土木工程學院,福州 350100
2.南京工業大學 交通運輸工程學院,南京 211816
3.深圳大學 建筑與城市規劃學院,廣東 深圳 518060
近年來高速異物事件時有發生,已經成為威脅高速公路交通安全的重要問題,給高速公路運行埋下了安全隱患[1]。現階段道路養護部門對待高速異物問題,可以總結為兩種解決方案:第一種是人工巡查法。即通過安排專門的巡查車輛對各自負責的養護路段進行保潔巡查,發現高速異物及時清理,但此種方法效率低、容易出現消極怠工的情況;第二種方法是重點位置架設高清攝像頭實時監控,這種方法的弊端在于首先高清定點攝像頭無法對高速公路全路段進行監控,同時高速異物具有不固定性,對于高清攝像頭監控到的高速異物無法得到及時有效的清理。
針對現階段人工巡檢可以及時清理異物,但存在消極怠工的情況。本文提出了一種輕量化高速異物實時檢測算法(RoadNetV2)輔助人工巡檢。該方法在模型訓練階段,針對現階段無可靠高速異物公開數據集的問題,使用高速公路模擬場景數據集擴充方法,提升自建數據集的復雜程度。在算法結構方法,RoadNetV2算法采用了light-focus淺層信息增強模塊和C3_CD特征提取模塊作為主要部件搭建模型的backbone部分,在neck部分采用了CoordConv和Conv的卷積組合的path aggregation network(PAN)模塊降低整體模型復雜度,提升模型推理速率,在損失函數方面,選用Alpha-CIOU作為損失計算函數,并采用多權值平衡計算策略,提升弱小目標的梯度值,以此增加弱小目標的識別精度和回歸精度。由RoadNetV2算法所生成的高速異物自動識別模型,搭載自研巡檢設備可以有效地輔助養護部門的人工巡檢。
近年來,隨著計算機技術的不斷發展,國內外越來越多的學者將自動化檢測方法應用于高速異物識別問題中。在高速異物檢測算法方面,主要以RGB圖像作為主要研究對象。文獻[2]以視頻序列中五幀圖像之間運動目標位置差別很小作為前提條件,提出五幀差分法對高速公路的拋灑物進行檢測。文獻[3]提出了幀間差分自適應法,該方法基于連續幀間差分法和均值背景減除法對拋灑物進行檢測。文獻[4]提出了背景分離高斯混合模型(BS-GMM)的動態建模方法對進入靜止狀態的拋灑物進行檢測。以上三種方法均是基于傳統圖像處理方法的高速異物檢測算法。文獻[5]針對城市道路的小像素目標,首次應用了深度學習目標檢測算法,提出了一種基于YOLOv3的卷積神經網絡RoadNet檢測方法,對城市道路中的小型目標物(如石塊、紙屑等)進行檢測。文獻[6]提出了一種基于實例分割模型Center-Mask優化的高速異物檢測算法,使用空洞卷積優化的殘差網絡ResNet50作為主干神經網絡來提取目標特征進行多尺度處理,實現對高速異物的檢測。
在深度學習目標檢測模型的實際部署中,往往受到部署硬件的限制,從而影響模型的實時性。在輕量化模型探索方面,MobileNetV2[7]將深度可分離卷積與逆殘差模塊相結合,不僅提升了模型的推理速度還減少了模型在下采樣過程中帶來的信息丟失;ShuffleNetV2[8]進一步探索了輕量化模型的設計準則,提出了四項輕量化模型設計標準同時提出了一種更高效的網絡組件。在實際生產應用中,文獻[9]在路側交通監控場景下,針對現有模型檢測速度慢、占有內存多等問題,借鑒了Ghost-Net思想將傳統卷積分為兩步,利用輕量化操作增強特征,降低模型的計算量,提出了車輛檢測算法GS-YOLO;文獻[10]在人臉口罩檢測與規范佩戴識別的問題中,針對自然環境下模型參數量大、難以部署應用等難題,引入了輕量級骨干網絡(light CSP dark net)和輕量化特征增強模塊(light-FEB)增強輕量級主干網絡的特征提取能力。
現實生活中,由于高速公路信息安全的限制,圖像質量良好、高速異物類型齊全的開源數據集可以直接使用。故本文通過實驗室自主研發的巡檢設備與福建省各級養護站的合作采集,經人工篩選后得到一份小型高速異物數據集。同時為了解決自建高速異物數據集復雜度低的問題,提出了模擬場景擴充的方法。
現階段常規的自動化檢測的交通數據主要以視頻流數據為主要代表。考慮到在人工巡檢過程中,存在車輛短暫停留現象,常規的視頻流數據給設備主機帶來了更大的存儲壓力,同時在后期檢測的過程中也會浪費大量的時間和計算資源在重復場景中,所以自主研發了一款道路多功能采集設備(以下簡稱巡檢設備),其組成部分包括雙目相機、定位模塊(GPS)、便攜式主機(內置Jetson NX邊緣計算單元)。開展巡檢作業時,巡檢工作人員僅需將雙目相機設備放置于副駕駛頂部獲取道路前景圖像,通過USB數據線將前景圖片傳輸至設備主機進行實時保存或處理,設備安裝方式與主要部分如圖1所示。

圖1 自主研發的巡檢設備樣式Fig.1 Self-developed inspection equipment style
設備拋棄了傳統的時間觸發保存前景圖像的方式,而是選擇以固定的間隔(設為fx)作為主機保存圖像的方式。即當車輛移動了第一段距離后,利用GPS傳感器得到位置變化信息,通過計算不同頻率之間的坐標值得到車輛位移值fd,如果fd≥fx則將生成電信號傳入主機,當設備主機接收到相應的電信號后,會做出相應的響應,即保存雙目相機的前景圖片、景深圖像以及同一時刻的傳感器基礎信息。距離觸發的優點是針對自由移動的載體,能夠選取合適的距離間隔采集數據,從而減少視頻流數據大量信息重復的問題,實現對巡檢路段進行輕量化數據采集。
通過與福建省寧德市下白石養護站、三沙養護站的合作,對其人工巡檢路段進行數據采集。通過人工初篩一共獲取得到1 533張含有高速異物的圖像。由于單種高速異物類型數量少,所以在人工標注時,對所有高速異物僅提供foreign body單類標簽,同時對部分圖像中的里程樁進行補充標注,以便后期對高速異物進行組合定位。數據集劃分按照7∶3的比例進行劃分訓練集和驗證集,詳細信息如表1所示。

表1 真實數據集詳細信息Table 1 Real dataset details
數據集的復雜程度在一定程度上影響了檢測模型的泛化能力。針對自建高速異物數據集復雜度低,本文采用模擬場景自增廣的方法來提升數據集數量和數據特征,主要方法是:首先通過百度AI studio提供的生活垃圾等數據集,經過人工篩選出一些可能出現在高速公路中的目標物作為提取目標樣本,對樣本進行人工提取,其次為了提升目標物的多樣性,對提取到的目標物進行HSV變化、水平翻轉、旋轉變換等圖像增強方法,最后將變換后的目標物疊加到不同的高速公路背景中。
模擬場景擴充過程中,為了不影響真實數據分布,做了以下兩點限制:首先為了保證數據真實樣本的數量,僅擴張500張模擬數據,同時根據真實數據集的劃分比例,將70%的數據樣本放置在訓練集中,將30%的數據樣本放置在驗證集中。其次為了保證樣本的可靠性,在疊加到不同的高速公路背景圖中時,僅選取道路中央作為目標區域。
對標注框的中心點與高寬比進行聚類分析,可以初步了解數據集的樣本情況。如圖2(a)所示,擴充后的數據集標注框中心點多分布于y軸的上方,說明標注的目標物大部分位于圖像的下方,即路面、中央分隔帶與路肩等區域,符合高速異物在現實中的真實分布;如圖2(b)所示所示,標注框的高寬分布主要聚集于原點附近,說明目標物以小目標為主,符合高速異物在現實中的成像結果。因此可初步認定該數據集符合研究要求。

圖2 數據集聚類分析Fig.2 Dataset clustering analysis
RoadNetV2高速異物算法主要包括:基于Light-Focus模塊和C3_CD模塊的輕量化主干網絡、基于Coord-Conv優化的PAN特征融合網絡和基于alpha-CIOU損失函數的預測框優化。其網絡結構如圖3所示。

圖3 RoadNetV2高速異物檢測算法結構圖Fig.3 Structure diagram of RoadNetV2 highway abandoned object algorithm
高速異物在圖片中呈現出區別于自然場景的顏色表征,為了讓算法可以更加注意到此種淺層信息,本文通過改進focus結構,提出了一種輕量且高效的淺層信息加強模塊(light-focus)。light-focus的結構圖如圖4所示。

圖4 Light-Focus結構Fig.4 Light-Focus structure
Light-focus位于backbone的第一層。對于輸入圖片數據X∈Rh×w×c,首先進行常規的切片操作,將原有的圖像維度從h×w×c降低至,該步驟可將圖像信息從空間維度轉化至通道維度中,由此可以有效地降低圖片數據在下采樣的過程中的信息丟失。然后,將傳統的級聯卷積(即先對數據進行級聯,在進行卷積特征提取)處理修改為深度卷積級聯處理(即先使用k×k深度可分離卷積對切片數據進行逐通道信息提取,再進行特征級聯)。
深度卷積級聯處理具有兩大好處:首先逐通道處理可以提升模型對于淺層信息的提取能力,其次相比于普通卷積,深度可分離卷積可以有效降低模型的浮點計算量,提升模型在邊緣端的計算效率。該變化根據深度卷積核的尺寸來決定浮點計算量的降低比率,其計算公式如公式(1)所示:

式中d表示中間過程的通道數,一般情況下為,由于d>>k,所以浮點計算量的降低比率可約為
高速異物目標物在RGB圖片成像中的成像特點如圖5所示(圖中紅色框為異物所在區域)。傳統的CNN目標檢測模型在處理像素占有率少和特征紋理不明顯的目標物時,在下采樣過程中容易丟失特征信息與全局信息,影響最終的檢測效果。因此本文提出了一種新型的特征提取模塊(簡稱C3_CD)。

圖5 高速異物圖片Fig.5 Image of highway abandoned objects
模型在下采樣過程中帶來的信息丟失是影響模型精度的一大重要因素。C3_CD模塊將上一級的輸入xi根據通道均分原則劃分為,將x′i′送入稠密連接模塊中進行多次通道擴充(擴充數為k),經過n次擴充后,原有的數據通道由c增加值c+nk,在經過一個Transition層變換后與另一條通道的x′i進行通道對齊。經過稠密模塊的x′′i可以有效地保留上一級特征圖信息,而另一條通道的x′
i保證了信息流的梯度逆向傳播。跨級稠密連接模塊在非線性變化過程中往往會丟失對全局信息的關注,為此在x′′i的非線性變化過程中引入了contextual transformer block(COT)[11]。COT模塊的結構圖如圖6所示。COT模塊首先根據公式(2)生成特征向量q、k、v:

圖6 Contextual transformer block結構Fig.6 Structure of contextual transformer block

式中Wk、Wv分別是卷積核大小為3和1的卷積運算。然后通過公式A=[k,q]·Wδ·Wγ生成特征向量q、k之間的注意力系數矩陣A,式中Wδ與Wγ分別是1×1的自定義卷積。隨后將注意力系數矩陣A與特征向量v通過點積運算生成動態特征圖Kd。最后融合k與Kd的特征信息作為該部分輸出。
將上下文信息注意力模塊與跨級稠密連接有效結合,其產生的C3_CD模塊結構如圖7所示。

圖7 C3_CD模塊結構Fig.7 C3_CD block structure
C3_CD模塊提升了backbone的特征提取能力,但也提升了該部分的推理消耗(如圖8所示)。為了使整體模型更加輕量化,選擇了簡單的特征融合網絡path aggregation network(PAN)[12],并使用CoordConv與Conv的卷積組合降低整體模型的運算消耗。CoordConv與Conv的位置關系如圖3中的卷積組合所示。

圖8 消融實驗結果圖Fig.8 Ablation experiment results
由圖2(a)高速異物錨框聚類分析所示,高速異物的錨框中心點在(x,y)∈( 0.8,0.7)范圍內具有更強的聚集性,說明目標物在該位置出現頻率更高。結合高速異物目標框的位置特性,在特征融合網絡中引入了CoordConv,用于提取目標物的位置特征。Coord-Conv[13]在非線性變化H()·中引入了x位置編碼(即Cx)與y位置編碼(即Cy),因此該類層級的輸出為通過將CoordConv與Conv的卷積組合可以大幅降低C3_CD模塊給模型推理帶來的負面影響,同時引入位置信息編碼有助于提升模型的檢測精度。
損失梯度影響模型的收斂速度和收斂精度。為了更加精準地回歸出目標物的位置信息,本文選用了帶有懲罰因子的Alpha-CIOU對目標框進行位置回歸,同時為了提升小目標的識別精度和回歸精度,采用了多權值平衡計算策略,給予小目標損失項更大的權重值。
RoadNetV2總損失函數如公式(3)所示:

式中Lbig和α分別代表大目標檢測頭的總損失和權重值,Lmiddle和β分別代表中目標檢測頭的總損失和權重值,Lsmall和η代表著小目標檢測頭的總損失和權重值。在本文實驗中,α=0.4,β=1,η=4。
RoadNetV2單一尺寸損失由置信度損失(confidence loss)、定位損失(localization loss)、分類損失(classification loss)組成,其中每種損失都會有對應的權重值來改變模型的關注點。單一尺寸的損失函數計算公式如公式(4)所示:

式中Lcls和Lobj為分類損失和置信度損失,采用二元交叉熵的計算方式,同時采用低權重值的方式降低算法對其的關注點,Lbox為定位損失,采用Alpha-CIOU作為損失函數,同時賦其高權重值提升回歸精度。
定位回歸性能受限于預測框和標注框之間的交并比[14]。其交并比值受到IOU閾值的影響,進一步決定了AP計算中的正負樣本分配。選用的Alpha-CIOU有利于弱小目標(即難樣本)的學習,從而可以有效地回歸出圖片中的異物目標,提升算法精度,同時根據懲罰因子(在高速異物數據集中懲罰因子選擇為2.5)的合理選擇可以加快模型的收斂。Alpha-CIOU計算公式如公式(5)至公式(7)所示:

式中b和bgt為預測框與標注框的中心點,p()·為歐式距離計算,ν為預測框與標注框的長寬比相似程度,β為長寬比相似度的權重函數,α為損失函數的懲罰因子。
本文實驗環境為:Intel?Core?i5-9300HF CPU 2.40 GHz,16 GB內存,GTX 1660Ti 6 GB顯卡,Window10操作系統,Pytorch深度學習框架。在模型訓練階段,采用浮點計算量、權重文件大小、平均類別精度mAP@0.5:0.95(簡稱mAP)作為模型的評價指標。其中浮點計算量、權重文件大小表示模型的復雜程度,而mAP能夠全面表達目標檢測模型對于各類目標物的綜合精度,并且已經作為COCO目標檢測數據集的官方競賽指標。在mAP的計算中,首先應該計算出模型的精確率(precision,P)和召回率(recall,R)這兩個指標,其計算公式分別如公式(8)和公式(9)所示:

式中P為精確率,R為召回率,TP為目標物被預測為正樣本的個數,FP為非目標物被預測為正樣本的個數,FN為非目標物被預測為負樣本的個數。
通過精確率和召回率指標可以計算出平均精度指標AP(average precision),計算方式如公式(10)所示:

式中P(r)為召回率是橫軸坐標、以精確率為縱軸組成的P-R曲線,通過積分可以得到其曲線與坐標軸圍成的面積,n為IOU閾值,如AP50表示IOU閾值為0.5的平均精度。
平均類別精度mAP的計算公式如公式(11)所示:

式中n表示類別數。一般情況下,mAP值越高,表示模型的檢測精度越高。
為了驗證模型在實際案例中的表現。本文還構建了一份不同天氣下的測試集,測試集大小為1 500張,內含818個高速異物,即含有高速異物的圖片與未含高速異物的圖片大致比例為1∶1。為了更為直觀地展示模型的好壞,定義了三個更為直觀的指標:正檢率(A值)、誤檢率(F值)、漏檢率(M值)。正檢率指模型正確檢出的數量占目標總數的比例;誤檢率指模型錯誤檢出的數量占目標總數的比例;漏檢率指模型未檢出個數占目標總數的比例。相比于深度學習模型中的P值、R值以及AP值等,A值、F值、M值更能令高速公路部門從業人員直觀了解算法的好壞。
在訓練階段,訓練輪數(epoch)為200,動量(momentum)為0.937,權重衰退值為0.000 5,批量大小(batch size)為1,初始學習率(learning rate)為0.01,采用隨機梯度下降(SGD)進行優化,整個訓練階段采用指數滑動平均(EMA)和余弦退火學習率調整方法,在訓練的前3 000次迭代中采用warmup,warmup階段動量為0.8,學習率為0.01。由于RoadNetV2是一款基于錨框的目標檢測算法,所以本文采用K-means聚類方法生成預設錨框,得到初始錨框值為:[11,6,17,7,15,11]、[25,10,27,18,39,15]、[46,29,73,47,107,72]。
消融實驗的主要目標在于驗證各優化模型對Road-NetV2算法的影響。消融實驗選用YOLOV5s作為基準模型,實驗各階段結果如圖8所示。其中優化步驟1為模擬數據集擴充方法,優化步驟2為Light-focus淺層信息增強模塊,優化步驟3為引入C3_CD特征提取模塊,優化步驟4為采用CoordConv與自定義Conv的組合,RoadNetV2為引入多權值Alpha-CIOU后的最終算法。如圖8所示,當引入CoordConv構建輕量化融合網絡時,檢測性能出現大幅度降低,但仍優于基準模型。當引入多權值Alpha-CIOU后,RoadNetV2高速異物檢測算法在精度和浮點計算量上都達成了最優效果。
如圖8所示,發現采用優化步驟4以后,模型的浮點計算量大幅度減少,但與此同時,模型的mAP值也由原來的61.0%降至了60.2%。當引入多權值權衡的Alpha-CIOU后,在不影響浮點計算量的情況下,模型的mAP值反而提升至了61.1%,高于優化步驟3的結果。為了探尋采用多權值權衡的Alpha-CIOU是否在不使用優化步驟4時,也能夠對模型精度產生促進效果。本文在不改變參數配置的情況下,對含有優化步驟4的算法(Exp1)與未含有優化步驟4的算法(Exp2)進行了比較,其結果如表2所示。結果表明,當不使用優化步驟4時,提出的多權值權衡的Alpha-CIOU在與其他優化步驟后的算法組合搭配時,模型的精度由90.7%降至90.4%,召回率由85.6%降至82.4%,mAP值由61.1%降至58.6%。

表2 優化步驟4的消融實驗結果Table 2 Ablation experimental results of optimization step 4 單位:%
為了保證算法對比的公平性以及降低對比難度,本文并未使用遷移學習和遺傳算法對RoadNetV2進行優化。同一算法在多次訓練容易造成性能波動,為此本文將不同算法進行了多次訓練(本文進行了5次訓練)并取平均值作為最后的對比結果。
本次對比的算法為YOLOV5s、YOLOXs和Ghost-YOLO[15]算法,其實驗結果如表3所示。在表3中可以直觀地發現本文提出的RoadNetV2高速異物檢測算法相比于其他三種YOLO算法,在精度上分別提升了1.7、2.3和3.5個百分點;參數量相比減少了2.59×106、4.47×106和0.41×106;權重文件僅為8.72 MB;模型的浮點計算量降低至12.1×109,FPS提升至37.0。

表3 實驗結果對比Table 3 Comparison of experimental results
通過實際案例的分析與對比可以更好地得知模型在未來的使用過程中的表現穩定性。對測試的結果進行人工統計正檢率、誤檢率和漏檢率其結果記錄在表4中。

表4 實例結果對比Table 4 Comparison of example results單位:%
如表4所示,RoadNetV2算法在測試集中一共檢出了297個拋灑物,漏檢率為63.7%,在檢出的拋灑物中正確檢出259個拋灑物,正檢率為87.2%,但也存在著12.8%的誤檢率。
在圖8中,發現當對數據集進行模擬場景擴充后,模型的mAP值僅提升了0.1個百分點,但此過程需要大量的人工參與,這是否會降低該方法的應用價值?針對此問題,對擴充前后的數據集分別進行了實際案例分析,其結果如表5所示。結果表明,對數據集進行模擬場景擴充后(Step 1實驗結果由擴充前數據得到),降低了模型的漏檢率,提升了正檢率。其原因可能是,加入的模擬場景數據,在保證數據分布的情況下,讓模型學習到此類相似目標物的共有特征。在真實數據集有限且自然場景下的圖像算法不成熟的情況下,采用模擬場景擴充的方法有利于提升算法的應用價值。

表5 各數據集實例分析結果Table 5 Example analysis results of each dataset單位:%
各實驗結果表明不同算法均有較高的漏檢率,分析主要原因可能是:數據集樣本過少,由于硬件算力限制模型訓練的數據集中僅有1 573個拋灑物標簽,無法完全覆蓋拋灑物全部類別特征從而導致出現了大量的漏檢。但在高速公路巡檢的實際使用中,高正檢率相比于高漏檢率往往能帶來更大的可靠度,即相關從業人員會更加信任模型檢出的目標物,同時高漏檢率可以通過構建更大更全的數據集以及相關圖像生成算法來解決此情況。
RoadNetV2解決了同框架下的YOLOV5s對于弱小目標的漏檢以及誤檢情況。兩種算法的實例測試結果如圖9所示。在圖9(a)中,基準模型YOLOV5s遺漏了中央分隔帶的下水口處的水瓶而RoadNetV2高速異物檢測算法可以對其正確檢出;在圖9(b)中,基準模型YOLOV5s將橋梁排水口誤判為高速異物同時遺漏了圖上的白色異物,而RoadNetV2并沒有對其進行誤判,同時可以檢測出弱小目標物。

圖9 實例測試結果對比Fig.9 Comparison of example test results
針對現階段高速公路場景下,人工巡查異物容易出現懈怠等問題。本文提出了RoadNetV2高速異物檢測算法,該算法提出了light-focus淺層信息增強模塊增強模型對于淺層信息的學習;將跨級稠密連接與上下文自注意力機制有效結合提高特征提取能力;在特征融合部分采用CoordConv與Conv兩結合的方式,降低了模型的復雜程度;最后利用多權值平衡計算策略輔助Alpha-CIOU對目標物的位置信息進行高效回歸。實驗結果表明,在相同硬件設施且不適用遷移學習方法和超參進化的情況下,RoadNetV2相比于其他的YOLO系列目標檢測模型,在高速異物這個檢測任務中具有mAP值更高、浮點計算量更低、參數量更少等優點。RoadNetV2深度學習模型,可在搭載Jetson NX的巡檢設備上達到實時檢測的幀率,其產品可以更好地輔助養護部門對其養護路段進行人工巡查,降低巡查壓力提升巡查速度。但現階段精測精度仍有待提高,未來仍將進一步地研究高速公路背景下輕量化神經網絡的檢測精度問題,提升模型對于弱小目標物的檢測精度。