










關(guān)鍵詞:礦用無人駕駛車輛;井下行人檢測;YOLOv3;弱光圖像增強;半隱式ROF 去噪;密集連接模塊;Slim?neck;卷積注意力模塊
中圖分類號:TD67 文獻標志碼:A
0引言
目前我國大多數(shù)煤礦的運輸車輛仍然依賴于駕駛員操作,由于井下巷道環(huán)境復雜,作業(yè)人員眾多,駕駛員在疲勞或操作失誤時容易發(fā)生車輛碰撞和側(cè)翻等事故,威脅井下作業(yè)人員的生命安全[1]。礦用運輸車輛的無人化作為智慧礦山建設(shè)的重要組成部分,對提升煤礦智能化開采水平起著決定性作用。因此,研究煤礦無人駕駛技術(shù),減少因駕駛員人為因素造成的安全事故,變得尤為迫切。無人駕駛技術(shù)的基礎(chǔ)是車輛的環(huán)境感知能力,特別是在井下環(huán)境中對行人的有效檢測,這對于保障井下作業(yè)人員的生命安全至關(guān)重要。然而,在礦用無人駕駛車輛的行人檢測領(lǐng)域,高漏檢率的問題一直存在,這限制了無人駕駛技術(shù)的安全性和可靠性。井下弱光環(huán)境是導致高漏檢率的主要原因之一,盡管車輛本身的燈光可以在一定程度上改善井下光照條件,但在極端條件下,如復雜光照、反光干擾、強噪聲和運動模糊等,會導致目標物體邊界不清晰、目標形態(tài)變化大[2],從而限制了行人識別的效果,增加了檢測難度,降低了無人駕駛車輛的可靠性[3]。因此,研究有效的弱光圖像增強算法和行人檢測方法,對于提高礦用無人駕駛車輛的安全性和可靠性,具有重要的實際應用價值。
針對井下行人檢測技術(shù),許多學者做了大量研究,并取得了一定的進展。董觀利等[4]設(shè)計了一種基于視頻的礦井行人越界檢測系統(tǒng),該系統(tǒng)能夠進行主動安全監(jiān)測,有效克服燈光閃爍等干擾,可快速識別行人位置及跨越方向,穩(wěn)定性好,準確度較高,在D1 分辨率、25 幀/s 的高清監(jiān)控下可實現(xiàn)在線實時處理,但該系統(tǒng)采用混合高斯背景建模方法,導致其泛化能力不強,魯棒性差。劉備戰(zhàn)等[5]將Dense 連接加入到ResNet 網(wǎng)絡中,提出了Dense?RetinaNet 網(wǎng)絡,增加了網(wǎng)絡特征信息的使用率,但該網(wǎng)絡運行時間較長,實時性不足。為了提高檢測算法的魯棒性和小目標檢測能力,李偉山等[6]采用全連接和多尺度卷積方法, 利用區(qū)域候選網(wǎng)絡(Region ProposalsNetwork,RPN)來解決井下目標存在的多尺度問題,同時加入特征融合技術(shù),將不同卷積層的輸出融合,增強網(wǎng)絡中特征的多尺度表征能力,但應用全連接層也同時增加了網(wǎng)絡參數(shù),降低了實時性。針對YOLOv3 目標檢測網(wǎng)絡在井下復雜環(huán)境難以適應的問題,羅坤鑫[7]提出了一種Caps?YOLO 井下礦用車輛行人檢測算法,該算法將采用Dense 連接的DenseBlock 作為特征提取網(wǎng)絡的主要單元,以提高特征圖利用率。在目標分類和定位方面,采用Capsule結(jié)構(gòu)結(jié)合動態(tài)路由機制代替Bounding Box 回歸,以提高分類和定位的準確性。雖然該方法提高了井下行人檢測的精度,但檢測速度較慢。張應團等[8]提出了一種基于YOLO 網(wǎng)絡的改進井下行人目標檢測方法,交換原網(wǎng)絡中第8 層的卷積層和下采樣層的順序,在第8 層后添加1×1 卷積并在最后加入反卷積來擴展維度,從而更好地保存網(wǎng)絡的細節(jié)特征,提高網(wǎng)絡對行人細節(jié)信息的處理能力,但該方法忽略了井下弱光環(huán)境對目標檢測精度的影響。
針對復雜光照環(huán)境導致井下行人檢測高漏檢率和誤檢現(xiàn)象,本文提出了一種礦用無人駕駛車輛行人檢測技術(shù)。采用弱光增強方法,改善檢測輸入圖像可見度及噪聲點;通過優(yōu)化YOLOv3,提高在復雜光照環(huán)境下的行人檢測效果。
1井下弱光圖像增強
1.1弱光圖像增強算法框架
光源是影響可見光圖像傳感器成像結(jié)果的主要因素之一。井下采集的圖像常常受到低光照因素的影響,導致圖像可見度非常差。弱光圖像內(nèi)嵌的噪聲隨著弱光圖像的增強而增強,因此對弱光圖像增強時需同時兼顧光照增強和去噪處理。弱光圖像增強算法原理如圖1 所示:首先,將弱光圖像由RGB圖像空間分解為HSV 圖像空間,通過Logarithm 函數(shù)對亮度分量先進行光照,再通過雙邊濾波器去除噪聲;然后,采用形態(tài)學對飽和度分量進行閉操作,以凸顯圖像的紋理,再通過高斯濾波器濾除噪聲;最后,將圖像轉(zhuǎn)換回RGB 圖像空間,通過半隱式ROF去噪模型[9]對圖像再次進行去噪, 得到增強的圖像。
1.2顏色空間轉(zhuǎn)化及增強
RGB 圖像空間沒有分離色彩和照明信息,因此直接在RGB 圖像空間增強圖像會造成色彩失真。相對于RGB 圖像空間, HSV 圖像空間包含色調(diào)、飽和度和亮度,是由RGB 三原色衍生的一種色彩空間 [10]。HSV 圖像空間和RGB 圖像空間的轉(zhuǎn)換關(guān)系為
式中: 為色調(diào)值; 為紅色分量的強度值; 為綠色分量的強度值; 為藍色分量的強度值; 為飽和度值;V為亮度值。
HSV 圖像空間將色彩和亮度采用不同的分量表示,因此對V 分量的亮度增強所造成的色彩失真比較小,轉(zhuǎn)換到HSV 圖像空間更加有利于圖像增強。相對于正常光照的圖像,弱光圖像中包含更多的設(shè)備內(nèi)嵌噪聲,這些噪聲會隨著圖像像素的增強而增強。將弱光圖像轉(zhuǎn)換到HSV 圖像空間,發(fā)現(xiàn)大多噪聲都是處于色調(diào)和飽和度2 個分量之中, 如圖2所示。本文主要針對亮度和飽和度分量進行增強,色調(diào)分量保持不變,從而避免色彩失真。在飽和度分量上,采用形態(tài)學閉操作來閉合紋理之間的空洞[11],并連接紋理,通過高斯濾波器濾除高斯噪聲。在亮度分量上,采用Logarithm 函數(shù)增強圖像亮度,然后采用雙邊濾波器濾除亮度分量中被增強的噪聲。
1.3半隱式ROF去噪
弱光圖像在HSV 圖像空間中各分量的噪聲主要以加性高斯噪聲為主,因此,增強后的圖像中也是以加性高斯噪聲為主。高斯噪聲是一種隨機噪聲,由時變平均值和2 個瞬時的協(xié)方差函數(shù)確定[12],其概率密度函數(shù)服從高斯分布:
1.4圖像增強結(jié)果分析
1) 定量結(jié)果。為了驗證本文弱光圖像增強算法的效果,與RetinexNet[14]和LLFlow[15]2 個弱光圖像增強算法在自制井下弱光數(shù)據(jù)集上進行對比實驗。本文采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity,SSIM) [16]2 種客觀評價指標進行定量分析,結(jié)果見表1。
由表1 可看出, 本文增強算法的PSNR 和SSIM 較RetinexNet 和LLFlow 高,說明本文增強算法在視覺質(zhì)量和噪聲抑制方面具有顯著優(yōu)勢,這是由于采用了半隱式ROF 去噪模型。
2) 定性結(jié)果。采用弱光圖像增強算法對井下圖像增強前后的效果如圖3 和圖4 所示。可看出增強后的圖像可見度有明顯改善,圖像中行人的紋理更加清晰,且噪聲抑制效果良好。
2礦用無人駕駛車輛行人檢測
2.1改進YOLOv3 行人檢測網(wǎng)絡
基于改進YOLOv3 的礦用無人駕駛車輛行人檢測算法的網(wǎng)絡結(jié)構(gòu)如圖5 所示。首先在YOLOv3 的基礎(chǔ)上, 采用密集連接塊(Dense Block) [17]取代YOLOv3 中的Residual 連接,提升主干網(wǎng)絡的特征提取能力,加強網(wǎng)絡前向傳播過程中圖像特征利用率,避免網(wǎng)絡訓練時梯度消失問題。然后,采用Slimneck[18]結(jié)構(gòu)優(yōu)化原始YOLOv3 的特征融合結(jié)構(gòu),使得特征圖之間能夠進行高效的信息融合,進一步提高礦用無人駕駛車輛行人檢測算法對小目標行人的檢測精度,并利用其內(nèi)部特殊的輕量化卷積結(jié)構(gòu),提高檢測速度。最后,加入輕量級的卷積注意力模塊(Convolutional Block Attention Module, CBAM) [19]細化主干網(wǎng)絡提取的特征圖,加強特征對小目標的表征,提高網(wǎng)絡對弱光圖像下的行人檢測能力和小目標檢測能力。
2.2密集連接塊特征提取
礦用無人駕駛車輛行人檢測算法的密集連接塊結(jié)構(gòu)如圖6 所示,圖中綠色箭頭是特征圖主要的流動方向。1 個密集連接塊包含6 個密集連接層,每個密集連接層包含2 種卷積層,一種是由3×3 卷積、BatchNorm 和Leaky ReLU 激活函數(shù)組成(用藍色方塊表示),以降低特征圖的維度和大小;另一種是由1×1 卷積、BatchNorm 和Leaky ReLU 激活函數(shù)組成(用紅色的方塊表示),以調(diào)整特征圖的大小和通道數(shù)。對于一個密集連接層,其輸入為所屬密集連接塊內(nèi)之前所有密集連接層輸出的跳躍連接堆疊,其中跳躍連接是將非相鄰密集連接層輸出特征疊加并通過激活函數(shù)運算[20]。通過采用跳躍連接將前后的密集連接層連接起來,特征圖中的信息在密集塊的傳遞過程中能夠更好的被保留,有利于特征信息在梯度反向傳播過程中的利用[21]。
2.3Slim?neck特征融合結(jié)構(gòu)
Slim?neck 是一種用于優(yōu)化卷積神經(jīng)網(wǎng)絡特征融合能力的結(jié)構(gòu)。通過在原始YOLOv3 中引入Slim?neck 結(jié)構(gòu),可以提高礦用無人駕駛車輛行人檢測算法對小目標行人的檢測精度,并利用其內(nèi)部特殊的輕量化卷積結(jié)構(gòu)、提高檢測速度。 改進YOLOv3網(wǎng)絡中Slim?neck 結(jié)構(gòu)如圖7 所示。GSConv 是一種減少計算復雜性的輕量級卷積,用于減少行人檢測算法的運行時間;VoVGSCSP 是跨階段部分網(wǎng)絡模塊,用于在不同階段的特征圖之間進行高效的信息融合,提高行人檢測精度。
2.4CBAM特征細化
CBAM 模塊是一個即插即用的卷積神經(jīng)網(wǎng)絡組件,可自適應計算空間注意力和通道注意力權(quán)重,達到自適應細化特征的效果[22]。CBAM 結(jié)構(gòu)如圖8 所示(其中輸入特征是經(jīng)過VoVGSCSP 跨階段部分網(wǎng)絡模塊處理后的輸出結(jié)果),主要包括通道注意力模型(Channel" Attention Model,CAM)和空間注意力模型(Spatial Attention Model, SAM) 2 個部分, CAM 模塊對輸入特征計算得到通道注意力圖,SAM 模塊的輸入特征是通道注意力圖與輸入特征相乘后的輸出[23]。
CAM 先對輸入特征進行全局最大池化和平均池化操作, 再經(jīng)過共享多層感知機(Multilayer Perceptron,MLP)模塊得到2 個中間特征,將這2 個中間特征相加,再由Softmax 函數(shù)計算得到通道注意力圖[24]。CAM 結(jié)構(gòu)如圖9所示。
輸入特征經(jīng)過CAM 處理后的結(jié)果為
3實驗結(jié)果與分析
3.1數(shù)據(jù)集構(gòu)建與實驗設(shè)置
通過礦用無軌膠輪車進行井下行人數(shù)據(jù)集的采集,如圖11 所示,可見光攝像頭放置在車機蓋位置,該攝像頭型號為Intel d435i,可采集三通道(RGB) 、分辨率為的640×640彩色圖像。采用弱光圖像增強算法對采集到的4 355 張原始圖像進行增強,再以8∶2 的比例劃分為訓練集(3484 張) 和驗證集(871張),標簽類別為“person”,并對原始圖像進行劃分和標注,進而完成井下行人數(shù)據(jù)集的構(gòu)建。在訓練基于改進YOLOv3的礦用無人駕駛車輛行人檢測算法時,采用Adam 優(yōu)化器,動量參數(shù)為0.9,均方根參數(shù)為0.999,學習率為0.01,batch size 設(shè)置為16,一共訓練200 個epoch。
實驗使用的硬件計算平臺如圖12 所示,該平臺具有1 路以太網(wǎng)接口、1 路USB3.0 接口,與相機平臺連接,并針對基于改進YOLOv3 的礦用無人駕駛車輛行人檢測算法結(jié)構(gòu)和前向傳播過程設(shè)計了相應的加速算子,運行的操作系統(tǒng)為Ubuntu20.04,采用的深度學習框架為Pytorch,編程語言為Python3。
3.2 評價指標常用的行人檢測性能評價指標包括精確率
式中:NTP 為預測正確的正樣本數(shù)量;NFP 為預測錯誤的正樣本數(shù)量;NFN 為預測錯誤的負樣本數(shù)量。
3.3行人檢測網(wǎng)絡性能分析
為了測試礦用無人駕駛車輛行人檢測算法的性能及不同輸入圖像對檢測效果的影響,將訓練好的礦用無人駕駛車輛行人檢測算法與文獻[26]基于改進YOLOv7 和ByteTrack 的煤礦關(guān)鍵崗位人員不安全行為識別算法、YOLOv5、YOLOv3、Faster R?CNN、RetinaNet 和SSD 6 個算法在不同的圖像輸入下進行對比,結(jié)果見表2。
由表2 可看出,本文算法在井下弱光情況下的平均精度較文獻[26]、YOLOv5、YOLOv3、Faster R?CNN、RetinaNet、SSD 分別提高了1.86%, 4.3%,11.44%,39.45%,45.94%,48.45%,且在精度保持領(lǐng)先的情況下,運行時間也有明顯縮短。對于增強后圖像, 本文算法的平均精度達95.68%, 相較于文獻[26]、YOLOv5、YOLOv3、Faster R?CNN、RetinaNet、SSD 分別提高了2.53%,6.42%,11.77%,49.96%,44.05%,59.17%,運行時間為29.31 ms,較其他算法的運行時間短。
3.4消融實驗
通過消融實驗驗證密集連接塊、Slim-neck 和CBAM 在YOLOv3 中的提升效果,結(jié)果見表3。A 表示原始YOLOv3+密集連接塊特征提取,B 表示A+Slim?neck 特征融合。可看出對于弱光圖像,A 的平均精度較YOLOv3 提高5.48%,運行時間增加1.41ms;B 的平均精度較YOLOv3 提高8.93%,運行時間減少了4.21 ms;本文算法的平均精度較YOLOv3 提高11.44%,運行時間減少了2.28 ms。對于增強圖像,A 的平均精度較YOLOv3 提高4.78%,運行時間增加1.26 ms;B 的平均精度較YOLOv3 提高9.62%,運行時間減少4.55 ms; 本文算法的平均精度較YOLOv3 提高11.77%,運行時間減少了2.15 ms。綜上根據(jù)消融實驗結(jié)果得出:加入密集連接塊,可更有效地保留和利用特征圖中的信息,提高行人檢測精度;加入Slim?neck 特征融合結(jié)構(gòu)能夠在提高行人檢測精度的同時減少行人檢測模型的運行時間;加入CBAM 特征細化能夠加強特征在通道和空間上的信息關(guān)聯(lián),增強模型對目標類別和位置的注意程度,提高行人檢測精度。
3.5檢測效果對比分析
為了直觀展示礦用無人駕駛車輛行人檢測算法在煤礦巷道弱光圖像和增強圖像上的檢測效果,與YOLOv3 及文獻[26]中的行人檢測算法進行對比,結(jié)果如圖13 和圖14 所示。可看出雖然將增強圖像作為輸入可提高檢測精度,但YOLOv3 和文獻[26]還是出現(xiàn)了漏檢和誤檢的問題,而礦用無人駕駛車輛行人檢測算法有效改善了該問題,能夠有效提升礦用無人駕駛車輛在復雜環(huán)境下的行人檢測能力。
4結(jié)論
1) 針對井下采集的圖像中出現(xiàn)弱光或低光照情況,設(shè)計了一種弱光圖像增強算法,通過圖像空間轉(zhuǎn)換,對弱光圖像進行光照增強并抑制光照增強過程中的噪聲。
2) 對YOLOv3 進行改進,提出了礦用無人駕駛車輛行人檢測算法。采用密集連接塊取代YOLOv3 中的Residual 連接,提高特征圖利用率;采用Slim?neck 結(jié)構(gòu)優(yōu)化原始YOLOv3 的特征融合結(jié)構(gòu),使得特征圖之間能夠進行高效的信息融合,進一步提高了對小目標行人的檢測精度,并利用其內(nèi)部特殊的輕量化卷積結(jié)構(gòu), 提高了檢測速度; 加入CBAM 特征細化能夠加強特征在通道和空間上的信息關(guān)聯(lián),增強模型對目標類別和位置的注意程度,提高行人檢測精度。
3) 通過實驗對比發(fā)現(xiàn),對弱光圖像進行增強處理能夠有效提高圖像可見度和行人檢測效果,基于增強后圖像的礦用無人駕駛車輛行人檢測算法的平均精度達95.68%,相較于文獻[26]、YOLOv5、YOLOv3的檢測精度分別提高了2.53%,6.42%,11.77%,且運行時間為29.31 ms,相較于其他算法也具備明顯優(yōu)勢。