








關(guān)鍵詞:煤礦井下多目標(biāo)檢測;YOLOv8n;動態(tài)蛇形卷積;CA 注意力機制;特征提??;特征融合
中圖分類號:TD67 文獻標(biāo)志碼:A
0引言
煤礦井下環(huán)境復(fù)雜、設(shè)備密集及作業(yè)人員多,易存在安全隱患。目前,許多研究人員通過煤礦井下視頻監(jiān)控圖像進行安全狀態(tài)實時監(jiān)測與預(yù)警,并取得了豐富成果[1-2]。然而,由于固定視角下的視頻監(jiān)控圖像覆蓋多目標(biāo)且尺度分布不均衡、井下光照強度分布不均干擾目標(biāo)可視化特征,造成對復(fù)雜環(huán)境下小目標(biāo)的精準(zhǔn)檢測難度大,易出現(xiàn)漏檢和誤檢[3]。因此,研究能夠克服煤礦井下復(fù)雜工況條件并精確識別與定位小目標(biāo)的檢測算法,對提高煤礦井下安全狀態(tài)監(jiān)測與生產(chǎn)管理水平具有重要意義[4]。
近年來,應(yīng)用于煤礦井下目標(biāo)檢測的算法主要包括兩階段和單階段目標(biāo)檢測算法[5]。兩階段目標(biāo)檢測算法包括候選框生成和目標(biāo)分類精細(xì)調(diào)整2 個階段,能夠?qū)崿F(xiàn)高精度的目標(biāo)定位與分類,代表性的算法包括R?CNN,F(xiàn)ast?RCNN 和Faster?RCNN。兩階段目標(biāo)檢測算法在提高煤礦井下目標(biāo)檢測準(zhǔn)確率上取得了一定的進展[6-9],但所構(gòu)建的檢測模型仍存在計算復(fù)雜度高和難部署于計算資源有限的煤礦井下設(shè)備等不足。單階段目標(biāo)檢測算法能夠?qū)崿F(xiàn)在網(wǎng)絡(luò)中同時預(yù)測目標(biāo)類別和邊界框的位置,無需單獨生成候選區(qū)域,簡化了目標(biāo)檢測處理流程,可有效降低檢測模型計算復(fù)雜度,提高檢測速度,更便于部署于計算資源有限的煤礦井下設(shè)備。代表性的單階段目標(biāo)檢測算法包括YOLO 系列算法(YOLOv5,YOLOv8,YOLOv7 和YOLOX 等)、單發(fā)射多盒檢測器(Single Shot MultiBox Detector, SSD)算法等。章賽等[9]針對煤礦井下光照強度不均衡導(dǎo)致無人電機車軌道障礙物檢測準(zhǔn)確率低的問題,基于YOLOX 算法,融合通道注意力機制,設(shè)計了一種面向低照度圖像的多特征融合目標(biāo)檢測算法,實現(xiàn)了在微光條件下的目標(biāo)有效檢測與識別。唐俊等[10]針對煤礦井下弱光環(huán)境中目標(biāo)檢測精度低的問題,設(shè)計了一種基于Faster?YOLOv7 的帶式輸送機異物實時檢測算法,先采用限制對比度自適應(yīng)直方圖均衡化算法對原始圖像進行增強,再將Mobilenetv3 網(wǎng)絡(luò)融合原始YOLOv7 主干網(wǎng)絡(luò),降低檢測模型參數(shù)和浮點運算量,并通過融合通道注意力機制和Alpha?IoU 損失函數(shù),提高檢測精度,同時滿足輕量化需求。HuangKaifeng 等[11]提出了一種基于改進YOLOv5 的煤礦帶式輸送機輸送點異物識別檢測算法,先采用遞歸濾波和具有色彩恢復(fù)的多尺度Retinex 算法對低質(zhì)量圖像進行預(yù)處理,再基于YOLOv5 算法融合多尺度注意力模塊,有效抑制冗余圖像特征,進而提高檢測準(zhǔn)確率。Luo Bingxin 等[12]提出了一種基于改進YOLOv5 的非煤異物快速檢測和識別方法,先采用暗通道去噪方法對在惡劣采礦環(huán)境中采集的原始低質(zhì)量圖像進行預(yù)處理,提高圖像清晰度,之后,對YOLOv5 的主干和頸部進行了改進,構(gòu)建了一個深度輕量級的目標(biāo)檢測網(wǎng)絡(luò),有效平衡了檢測準(zhǔn)確率與推理速度。楊文軻等[13]針對煤礦變電所工人未穿戴絕緣手套和絕緣膠鞋的不安全行為,提出了一種基于改進YOLOv7 的絕緣手套和絕緣膠鞋目標(biāo)檢測方法,該方法引入深度可分離卷積,提高模型特征提取能力的同時有效降低模型的計算復(fù)雜度。 田佳偉等[14]針對原始YOLOv5 算法應(yīng)用于煤礦井下時檢測精度低,以及深層網(wǎng)絡(luò)結(jié)構(gòu)易發(fā)生梯度消失和過擬合的問題, 引入Transformer 來改進YOLOv5算法,實現(xiàn)檢測精度的有效提升。雖然上述研究成果在提高煤礦井下目標(biāo)檢測精度上取得了一定進展,但在面對光照強度分布不均、目標(biāo)環(huán)境復(fù)雜及多類目標(biāo)尺度分布不均衡時,目前算法對復(fù)雜小目標(biāo)的檢測效果不佳,仍易出現(xiàn)漏檢和誤檢。
針對上述問題,本文開展單階段目標(biāo)檢測算法的研究,從提高檢測模型對不同尺度目標(biāo)的特征提取性能和多尺度特征圖高效融合的能力入手,在無圖像質(zhì)量增強算法的前提下,利用有限的實例級標(biāo)記圖像訓(xùn)練檢測模型,克服光照強度分布不均對小尺度目標(biāo)檢測帶來的挑戰(zhàn),進而提高對煤礦井下多類別小目標(biāo)的檢測準(zhǔn)確率。
雖然YOLOv11為目前最新版本的YOLO系列算法,也在主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測層做出一定的優(yōu)化,但其網(wǎng)絡(luò)結(jié)構(gòu)相比于YOLOv8n并未有較大改進,此外,在面向受環(huán)境和光照影響較大的煤礦圖像數(shù)據(jù)時, YOLOv11 未能表現(xiàn)出明顯的優(yōu)勢。因此,本文基于YOLOv8n 提出一種新的煤礦井下多目標(biāo)檢測算法, 采用基于動態(tài)蛇形卷積(DynamicSnake Convolution,DSConv)進行特征提取?采用基于雙向特征金字塔網(wǎng)絡(luò)(Bi-directional Feature PyramidNetwork, BiFPN) 與語義和細(xì)節(jié)融合(Semantic andDetail Infusion,SDI)進行特征融合 (Feature Extractionby Dynamic Snake Convolution-Feature Fusion by BidirectionalFeature Pyramid Network and Semantic andDetail Infusion, FEDSC?FFBD) ,即采用FEDSC 替換YOLOv8n 的主干網(wǎng)絡(luò)以擴大感受野,將FFBD 作為頸部網(wǎng)絡(luò)以減少目標(biāo)誤檢和漏檢,引入SIoU 的解耦檢測頭作為檢測層,提高模型對小目標(biāo)的適應(yīng)能力與模型收斂速度。
1基于FEDSC?FFBD的煤礦井下多目標(biāo)檢測算法(以下稱FEDSC?FFBD 算法)
1.1算法整體結(jié)構(gòu)
FEDSC?FFBD算法結(jié)構(gòu)如圖1所示。
1.2主干網(wǎng)絡(luò)改進
FEDSC 模塊由Conv,C2f,C2f_DSC,CA 和SPPF模塊構(gòu)成,其中,C2f_DSC 模塊設(shè)置在FEDSC 網(wǎng)絡(luò)的L3,L5,L7 和L9 層,在SPPF 模塊(L11 層)之前引入CA 注意力機制模塊,增強目標(biāo)檢測模型對復(fù)雜煤礦背景中小目標(biāo)的特征提取能力,同時加強對背景噪聲的抑制,提高檢測性能。
1) 引入DSConv 提高目標(biāo)特征提取能力。采用DSConv(圖2) 模塊替換C2f 模塊中的標(biāo)準(zhǔn)卷積Conv 模塊,進而獲得C2f_DSC 模塊(圖3),以擴大感受野,增強檢測模型對復(fù)雜且不規(guī)則目標(biāo)特征的提取能力[15]。
2) 引入CA 注意力機制(圖4 )提高目標(biāo)定位精度。CA 注意力機制利用目標(biāo)位置信息對通道關(guān)系和長距離上的依賴關(guān)系進行編碼,得到通道維度信息,并捕獲橫向、縱向的空間信息,實現(xiàn)對每個通道權(quán)重信息的動態(tài)分配,進而將目標(biāo)位置信息合并到通道聚焦模塊中,擴大特征提取網(wǎng)絡(luò)的信息獲取范圍,以實現(xiàn)特征提取過程中聚焦目標(biāo)位置信息并提高目標(biāo)檢測精度[16]。圖4 中C 為通道數(shù),H 為高,W 為寬,r 為壓縮比,X 為水平方向,Y 為垂直方向。
1.3頸部網(wǎng)絡(luò)改進
FFBD 自下而上的融合路徑包括3 個C2f_DSC模塊(L14, L17 和L20 層) 、3 個SDI 模塊(L13,L16 和L19 層) 和3 個上采樣模塊(L12, L15 和L18 層)。自上而下的路徑包括3 組相同的模塊結(jié)構(gòu)(1 個Conv 模塊、1 個Concat_BiFPN 模塊和1 個C2f 模塊)。其中,Concat_BiFPN 模塊是加權(quán)融合計算模塊。在上述結(jié)構(gòu)基礎(chǔ)上,進一步將L5 和L7 層輸出的特征圖輸入到L22和L25層參與特征融合。
1) 基于 BiFPN 的多尺度特征融合。不同輸入特征圖的分辨率之間有差別,對輸出特征的貢獻也不同,而YOLOv8n直接使用同樣的權(quán)重實現(xiàn)融合,易造成重要特征信息融合不足及冗余特征信息干擾[17]。BiFPN 是一種基于加權(quán)的雙向特征融合結(jié)構(gòu)。因此,采用BiFPN 對參與融合的不同尺度特征賦予權(quán)重,通過網(wǎng)絡(luò)的不斷學(xué)習(xí)來更新特征的貢獻度,實現(xiàn)更高效融合。
3) 引入C2f_DSC 模塊增強特征提取與提高對復(fù)雜小目標(biāo)的敏感度。為了在特征融合過程中進一步提高特征提取性能,聚焦小目標(biāo)的位置信息,進而提高定位精度,將C2f_DSC 模塊引入特征融合網(wǎng)絡(luò)FFBD 中。
1.4損失函數(shù)改進
將FFBD 的L20,L23,L26 和L29 層分別連接解耦檢測頭,因此,檢測層共包含4 個解耦檢測頭,每個檢測頭均包括回歸分支和分類分支。YOLOv8算法采用CIoU 損失函數(shù)用于回歸任務(wù),但在面對受復(fù)雜環(huán)境噪聲干擾的小目標(biāo)檢測任務(wù)時,預(yù)測的小像素目標(biāo)幀內(nèi)微小位置偏差會對CIoU 計算產(chǎn)生不利影響,導(dǎo)致識別準(zhǔn)確率下降。此外,CIoU 損失函數(shù)在面對縱橫比或比例變化不明顯的小目標(biāo)時,其收斂速率不高,進而影響整個回歸任務(wù)的性能。因此,本文引入SIoU 損失函數(shù)[19]替換CIoU 損失函數(shù),以提高模型對小目標(biāo)的適應(yīng)能力與模型收斂速度。SIoU 損失函數(shù)的計算考慮了真實標(biāo)記框與預(yù)測框相關(guān)的角度損失,由于在檢測模型訓(xùn)練的初始階段,預(yù)測框和標(biāo)記框通常不相交,對此,通過引入角度損失的計算,能夠加速真實標(biāo)記框與預(yù)測框之間距離的計算,從而實現(xiàn)整個回歸任務(wù)更快的收斂。
2實驗結(jié)果分析
為驗證基于FEDSC?FFBD 的煤礦井下多目標(biāo)檢測算法對煤礦井下環(huán)境小目標(biāo)檢測的優(yōu)越性,采用某煤礦井下實際視頻監(jiān)控圖像構(gòu)建實驗數(shù)據(jù)集。
2.1數(shù)據(jù)集
某煤礦井下原始視頻監(jiān)控圖像數(shù)據(jù)集共包含500張圖像,按7∶2∶1的比例隨機劃分訓(xùn)練集、測試集和驗證集。采用LabelImg 標(biāo)注工具對數(shù)據(jù)集中7種類別目標(biāo)進行標(biāo)注,分別為管道、軌道、人、安全帽、有衣物、膠帶和無衣物。數(shù)據(jù)集中部分圖像樣本如圖6所示。
2.2實驗設(shè)置
本文采用PyTorch 深度學(xué)習(xí)框架進行目標(biāo)檢測算法的訓(xùn)練和測試,使用Python 語言進行開發(fā),實驗平臺環(huán)境配置見表1。選用SGD 優(yōu)化器進行訓(xùn)練損失的優(yōu)化, 設(shè)置批處理大小為16, 初始學(xué)習(xí)率為0.001, 權(quán)重衰減為0.0005, 動量為0.937, Epoch 為160。為了保證實驗?zāi)P统跏紬l件相同,本文在任何消融實驗和模型訓(xùn)練過程中都不使用預(yù)先訓(xùn)練的權(quán)重。
2.3實驗評價指標(biāo)
采用目前領(lǐng)域內(nèi)被廣泛使用的準(zhǔn)確率(Precision, P) 、平均準(zhǔn)確率(Average Precision, AP) 、平均準(zhǔn)確率的均值(mean Average Precision, mAP) 、模型參數(shù)量(Parameters of Model,PM)和每秒浮點運算數(shù)(Floating Point Operations Per Second,F(xiàn)LOPs)[20]作為評價指標(biāo)。其中,mAP 表示模型的識別精度,本文的mAP 采用mAP@0.5, 即IoU 閾值為0.5 時的mAP,PM 和FLOPs 分別表示模型的存儲需求和計算資源消耗。
2.4算法有效性驗證為驗證
FEDSC?FFBD算法的有效性,與目前一些主流的單階段目標(biāo)檢測算法開展對比實驗,不同算法的目標(biāo)檢測實驗結(jié)果見表2。
由表2 可看出, FEDSC?FFBD 算法對7 種不同目標(biāo)的AP 分別達99.50%, 98.40%, 96.70%, 90.90%,96.10%, 99.50% 和97.90%, mAP@0.5 為97.00%, 準(zhǔn)確率為95.90%, PM 為4.22×106 個, FLOPs 為21.7×109。FEDSC?FFBD 算法的mAP@0.5 與準(zhǔn)確率較YOLOv8n 算法分別提升了3.4% 和2.1%,但FEDSC?FFBD 算法的PM 和FLOPs 較YOLOv8n 算法有一定程度的提升;與其他YOLO 系列算法相比,F(xiàn)EDSC?FFBD 算法的mAP@0.5 最高,較YOLOv5s,YOLOv9c,YOLOv10n 和YOLOv11n 算法分別提升了3.60%,1.00%, 10.50% 和6.40%。但相較于YOLOv8m,YOLOv8l, YOLOv8s 和YOLOv8x 算法, FEDSC?FFBD 算法在具有更高的mAP 與準(zhǔn)確率的同時,PM 與FLOPs 更低。
各算法對管道、軌道、人、有衣物、膠帶和無衣物目標(biāo)的識別檢測準(zhǔn)確率均可達到90% 以上,而安全帽的檢測準(zhǔn)確率明顯較低,主要是因為安全帽本身尺寸小,在視頻監(jiān)控圖像中的尺度不均衡,更易受到其他尺度較大目標(biāo)的遮擋及煤礦井下環(huán)境背景干擾。而FEDSC?FFBD 算法通過對檢測算法的主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測頭損失函數(shù)3 個方面的優(yōu)化,增強了模型對煤礦井下小目標(biāo)的檢測準(zhǔn)確率,對安全帽的識別準(zhǔn)確率達90.90%。
煤礦井下多目標(biāo)檢測結(jié)果如圖7 所示,可看出不同算法在較大尺度目標(biāo)檢測框的回歸預(yù)測效果上差距不太明顯,但針對尺度較小的安全帽目標(biāo),不同算法間的差距明顯,F(xiàn)EDSC?FFBD 算法的預(yù)測結(jié)果最接近標(biāo)定圖像,進一步驗證了該算法的有效性。
為驗證本文所提FEDSC 模型的有效性,將加入DSConv+CA 注意力機制前后檢測模型的特征可視化熱力圖進行對比,如圖8 所示??煽闯鲆隓SConv+CA 注意力機制后能夠明顯提升對不同目標(biāo)特征的關(guān)注與提取,且對復(fù)雜環(huán)境的干擾有一定程度的抑制,使提取出的特征更有利于不同目標(biāo)的分類識別。
2.5消融實驗
為驗證FEDSC?FFBD 算法中改進策略的有效性, 基于DSConv、CA 注意力機制、BiFPN 結(jié)構(gòu)和SDI 網(wǎng)絡(luò),開展消融實驗,結(jié)果見表3。M1 模型為YOLOv8n+DSConv, M2 模型為YOLOv8n+DSConv+CA, M3 模型為YOLOv8n+FEDSC+BiFPN, M4 模型為YOLOv8n+FEDSC+BiFPN+DSConv, M5 模型為YOLOv8n+FEDSC+BiFPN+DSConv+SDI, M6 模型為YOLOv8n+SIoU,M7 模型為YOLOv8n+SIoU+DSConv,M8 模型為YOLOv8n+SIoU+DSConv+CA, M9 模型為YOLOv8n+SIoU+FEDSC+ BiFPN, M10 模型為YOLOv8n+SIoU+FEDSC+ BiFPN+DSConv,M11模型為YOLOv8n+SIoU+FEDSC+BiFPN+DSConv+SDI。
由表3可看出,M1模型的mAP@0.5 和準(zhǔn)確率較YOLOv8n 模型分別提高了1.76% 和1.70%,PM 較YOLOv8n 模型減少了0.04×106,但由于DSConv的引入,在一定程度上增加了模型的FLOPs;M2 模型的mAP@0.5 和準(zhǔn)確率較YOLOv8n 模型分別提高了1.80% 和1.80%,PM 較YOLOv8n 模型減少了0.03×106; M3 模型的mAP@0.5 和準(zhǔn)確率較YOLOv8n 模型分別提高了1.50% 和0.50%;M4 模型的mAP@0.5較YOLOv8n 模型提高了2.16%, 準(zhǔn)確率下降了0.40%; M5 模型mAP@0.5 較YOLOv8n 模型提高了3.24%, 準(zhǔn)確率下降了0.50%; M6 模型的mAP@0.5較YOLOv8n 模型減少了1.10%, 但準(zhǔn)確率上升了1.50%;M7 模型的mAP@0.5 較YOLOv8n 模型提高了2.30%, 準(zhǔn)確率持平; M8 模型的mAP@0.5 較YOLOv8n 模型提高了2.50%, 準(zhǔn)確率下降0.70%;M9 模型的mAP@0.5 較YOLOv8n 模型提高了2.80%,準(zhǔn)確率提升了1.60%; M10 模型的mAP@0.5 較YOLOv8n 模型提高了3.10%,準(zhǔn)確率提升了1.50%;M11 模型(本文模型) 的mAP@0.5 和準(zhǔn)確率較YOLOv8n 模型分別提高了3.40% 和2.10%。上述實驗結(jié)果對比表明,本文采用的改進策略能夠有效提升模型的mAP@0.5,但DSConv 和CA 注意力機制的引入會導(dǎo)致模型計算復(fù)雜度有一定程度的提升。
為進一步驗證本文在特征提取網(wǎng)絡(luò)中引入CA 注意力機制的有效性,開展不同注意力機制融入特征提取網(wǎng)絡(luò)下的消融實驗,結(jié)果見表4??煽闯鲈贔EDSC?FFBD 算法使用CA 注意力機制時的mAP@0.5 較使用DAttention(DAM) , SEAttention(SEM),CBAM(Convolutional Block Attention Module,卷積注意模塊)和EMA(Efficient Multi-scale Attention,高效的多尺度關(guān)注) 時分別提高了2.80%, 3.10%,1.20% 和2.40%。
3結(jié)論
1)為實現(xiàn)對煤礦井下復(fù)雜環(huán)境多目標(biāo)的精確檢測, 提出了一種FEDSC?FFBD 算法。該算法引入DSConv 與CA 注意力機制構(gòu)建特征提取網(wǎng)絡(luò),基于BiFPN 與SDI 模塊構(gòu)建特征融合網(wǎng)絡(luò),引入SIoU 改進檢測頭損失函數(shù)。
2)對比實驗結(jié)果表明, FEDSC?FFBD算法的mAP@0.5為97.00%,模型參數(shù)量為4.22×106個,浮點運算量為21.7×109,說明FEDSC?FFBD算法能夠有效提升煤礦井下多目標(biāo)檢測精度,尤其是針對復(fù)雜環(huán)境中的小目標(biāo)。
3)消融實驗結(jié)果表明,針對特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和檢測頭損失函數(shù)3個方面的優(yōu)化策略能夠有效提升煤礦井下多目標(biāo)檢測準(zhǔn)確率。
4)特征提取網(wǎng)絡(luò)FEDSC中通過引入CA 注意力機制,有效提升了檢測模型對煤礦復(fù)雜環(huán)境下的多目標(biāo)特征提取能力。