











摘要:現有基于深度學習的煤矸識別方法在煤礦井下低照度、高噪聲及運動模糊等復雜工況下存在煤矸識別精度低、小目標煤矸容易漏檢、模型參數量和運算量大,難以部署到計算資源有限的設備中等問題,提出了一種基于HGTC?YOLOv8n 模型的煤矸識別算法。采用HGNetv2 網絡替換YOLOv8n 的主干網絡,通過多尺度特征的有效提取,提高煤矸識別效果并減少模型的存儲需求和計算資源消耗;在主干網絡中嵌入三重注意力機制模塊Triplet Attention,捕獲不同維度間的交互信息,增強煤矸圖像目標特征的提取,減少無關信息的干擾;選用內容感知特征重組模塊(CARAFE)來改進YOLOv8n 頸部特征融合網絡上采樣算子,利用上下文信息提高感受視野,提高小目標煤矸識別準確率。實驗結果表明:① HGTC?YOLOv8n 模型的平均精度均值為93.5%,模型的參數量為2.645×106,浮點運算量為8.0×109 ,幀速率為79.36 幀/s。② 平均精度均值較YOLOv8n 模型提升了2.5%,參數量和浮點運算量較YOLOv8n 模型分別下降了16.22% 和10.11%。③ 與YOLO 系列模型相比, HGTC?YOLOv8n 模型的平均精度均值最高,且參數量和浮點運算量最少,檢測速度較快,綜合檢測性能最佳。④ 基于HGTC?YOLOv8n 模型的煤矸識別算法在煤礦井下復雜工況下,改善了煤矸識別精度低、小目標煤矸容易漏檢等問題,滿足煤矸圖像實時檢測要求。
關鍵詞: 煤矸識別; 小目標識別; YOLOv8n; 內容感知特征重組模塊; 三重注意力機制; TripletAttention;HGNetv2
中圖分類號:TD67 文獻標志碼:A
0 引言
煤礦開采過程中常常伴隨著煤矸的產生,煤矸的存在不僅影響了煤的品質,還加劇了后續處理成本及對環境的污染[1-2]。傳統的分選方式為人工分選和設備分選,人工分選效率低、誤差率高,設備分選易造成環境污染。因此,通過計算機視覺技術對煤矸進行識別,自動準確地檢測出矸石,對煤礦智能化分選非常重要[3-4]。
目前,計算機視覺技術對煤矸識別包括傳統煤矸圖像識別方法和深度學習識別方法[5]。傳統煤矸圖像識別方法需手動提取煤矸的圖像特征,存在檢測精度低、實時性及泛化能力差等問題[6-7]。深度學習識別方法具有較高的準確性、實時性和魯棒性[8-9]。李博等[10]通過模擬生產環境下的煤矸圖像,研究光強、濕度、粉塵和樣品種類對煤矸圖像特征的影響,但試驗簡化模擬的生產環境與實際生產環境的識別結果有較大差異。郭永存等[11]針對煤矸小樣本數據集識別率低,提出了一種遷移權重和簡化神經元模型優化方法來改進預訓練卷積神經網絡模型,但模型泛化能力差。徐志強等[12]基于卷積神經網絡對建立的煤矸識別模型進行剪枝優化,減少模型參數和計算資源消耗,但未考慮煤矸識別時的檢測速度。徐慈強等[13]通過輕量化網絡MobileNetV3 替換YOLOv5s的主干網絡,減小模型的參數量和運算量,以適應模型在移動端的部署,但模型識別效果差。張磊等[14]通過深度可分離卷積對YOLOv5s 模型改進,減少了模型的參數量和運算量,但模型在小目標、運動模糊、低照度煤矸數據集識別精度不高。鄧天民等[15]以YOLOv8s 模型為基準網絡,在頸部特征融合網絡引入內容感知特征重組模塊(Content Aware Reassemblyof Features,CARAFE),加強對小目標顯著語義信息的關注,但模型參數量和運算量大,難以部署到計算資源有限的設備中。
針對上述問題,本文提出了一種基于HGTC?YOLOv8n 模型的煤矸識別算法,結合輕量化網絡HGNetv2、三重注意力機制模塊Triplet Attention 和CARAFE,使煤矸識別模型具有更少的參數量和浮點運算量,能夠部署到資源有限的設備中,完成對煤矸快速精準識別。
1 HGTC?YOLOv8n 模型結構
HGTC?YOLOv8n 模型在YOLOv8n[16]基礎上進行改進,結構如圖1 所示。采用HGNetv2 替換YOLOv8n的主干網絡,通過多尺度特征的有效提取,提高煤矸圖像準確率并減少模型的存儲需求和計算資源消耗,嵌入三重注意力機制模塊Triplet Attention,增強煤矸特征提取,減少無用特征的干擾,提高對井下復雜環境的適應性。利用CARAFE 替換頸部特征融合網絡上采樣算子,增強對小目標煤矸的檢測,實現對煤矸的精準高效識別。
1.1 主干輕量化網絡改進
采用HGNetv2[17]改進YOLOv8n 模型的主干網絡,通過多尺度特征的有效提取,提高識別準確率,并降低模型計算量,實現煤矸圖像高效識別。
HGNetv2 主干網絡由HGStem, HGBlock,DWConv[18]組成。HGStem 是網絡初始預處理層,通過卷積層對輸入數據進行特征提取,再經過最大池化操作進行降采樣,在不同尺度上獲取輸入數據特征,HGStem 結構如圖2(a)所示。HGBlock 包括多個不同濾波器大小的卷積層,主要作用是捕獲數據多樣化特征,HGBlock 結構如圖2(b)所示。使用深度可分離卷積DWConv 替換傳統卷積,能夠減少計算負載,提高模型的推理速度,并在每個通道上能獨立學習特征。
1.2 主干添加注意力機制
煤礦井下環境復雜,采集到的煤矸圖像受多種干擾因素影響,丟失了大量紋理特征且引入了冗余特征,導致煤矸圖像的有效特征難以提取[19]。為了增強有效特征的提取能力,在HGNetV2 主干網絡中嵌入Triplet Attention[20](圖3) 。Triplet Attention 能夠捕獲不同維度間的交互信息,減少無關信息的干擾,使模型更加注重目標特征的提取,提高識別準確率。
Triplet Attention 由3 個平行的分支組成,輸入張量X 2 RC×H×W到3 個分支。第1 個分支中張量X 繞維度H 逆時針旋轉90°,得到旋轉張量X1,經過池化后張量形狀為2×H×C, 再由卷積運算, 通過Sigmoid 激活函數生成注意力權重,最后繞維度H 順時針旋轉90°,輸出張量X*1,完成通道C 與維度H 交互[21]。第2 個分支中張量X 繞維度W 逆時針旋轉90°,得到旋轉張量X2,經過池化層、卷積、Sigmoid激活函數后,繞維度W 順時針旋轉90°,輸出張量X*2,完成通道C 與維度W 交互。第3 個分支中張量X 經過池化層、卷積、Sigmoid 激活函數后,輸出張量X*3。最后將3 個張量進行平均聚合,輸出的張量為
式中:σ(·)為Sigmoid 激活函數;ψ1(·),ψ2(·),ψ3(·)為標準卷積。
1.3 頸部網絡改進
YOLOv8n 中的Upsample 上采樣層常用的方法是最近鄰插值,即復制最近鄰像素的值,該方法忽略了像素之間的平滑過渡,導致圖像失真和模糊化,在處理大尺寸圖像時易丟失重要細節信息。本文選用CARAFE[22](圖4)來改進YOLOv8n 頸部特征融合網絡上采樣算子,CARAFE 主要由核預測模塊和特征重組模塊2 個部分組成。CARAFE 能夠在上采樣過程中保留更多的細節信息,利用上下文信息提高感受視野,更好地理解圖像中的全局結構和語義信息,提高小目標煤矸識別準確率。輸入張量X∈RC×H×W,上采樣率為a。首先,通過1×1卷積將輸入特征通道數從C 壓縮到Cm。其次,進行內容編碼,輸入通道數為Cm,輸出通道數為a2×k2,將通道維在空間維展開,得到形狀為aH×aW×k2 的上采樣核。然后,對上采樣核歸一化,確保卷積權重總和為1。最后,對輸出特征圖中的每個位置,將其映射回輸入特征圖,提取以l=(i,j)為中心的k×k 區域N(Xl,k) ,并與預測的上采樣核進行點積操作,計算出最終的aH×aW×C 的輸出特征圖[23]。
2 實驗結果分析
2.1 制作煤矸數據集
對采集的不同照度、大小、擺放位置的煤矸圖像進行組合,獲取原始圖像500 張。為了模擬煤礦井下煤矸分選的復雜環境,提高模型魯棒性和泛化能力,對煤矸圖像進行添加噪聲、運動模糊、鏡像翻轉、低照度等增強處理,最終得到1 703 張煤矸圖像,如圖5 所示。對數據集進行煤矸標注,按照9∶1 的比例劃分為訓練集、驗證集。
2.2 實驗配置及模型訓練
本文所用模型基于Pytorch 深度學習框架,實驗的軟硬件環境: RTX3090(24GiB) 的GPU、Intel(R)Xeon(R) Gold 6330 的CPU, Pytorch2.0.0, Cuda11.8,Python3.8(ubuntu20.04)。訓練輸入圖像大小為640×640,訓練輪數為201,批量大小為32,訓練過程中使用SGD 優化器。
2.3 評價指標
為驗證HGTC?YOLOv8n 模型的性能,采用平均精度均值(Mean Average Precision, mAP) 、參數量、浮點運算量、幀速率作為評價指標。其中,mAP 表示模型的識別精度,參數量和浮點運算量分別表示模型的存儲需求和計算資源消耗,幀速率表示模型的識別速度。
2.4 數據增強
HGTC?YOLOv8n 模型通過隨機色調增強、飽和度增強、亮度增強等數據增強方法(表1)生成多樣化的訓練樣本,提高模型的泛化能力。數據增強方法應用于每個訓練迭代中,通過對訓練樣本進行隨機變換,確保模型每次觀察到不同的樣本。
2.5 消融實驗
通過消融實驗分析本文改進各模塊的優化效果, 結果見表2。其中, 優化模型1 為YOLOv8n+HGNetv2,優化模型2 為YOLOv8n+Triplet Attention,優化模型3 為YOLOv8n+CARAFE, 優化模型4 為YOLOv8n+HGNetv2+Triplet Attention,優化模型5 為YOLOv8n+HGNetv2+CARAFE, 優化模型6 為YOLOv8n+CARAFE+Triplet Attention,優化模型7 為YOLOv8n+HGNetv2+Triplet Attention+CARAFE。由表2 可看出,優化模型1 的參數量和浮點運算量較YOLOv8n 模型分別減少了0.654×106 和1.2×109,幀速率提升了2.78 幀/s, mAP 提升了1%; 優化模型2 的參數量和浮點運算量與YOLOv8n 模型持平,幀速率下降了1.96 幀/s, mAP 提升了1.8%;優化模型3 的參數量和浮點運算量較YOLOv8n 模型分別增加了0.14×106 和0.2×109,幀速率下降了1.96 幀/s,mAP 提升了1.8%; 優化模型4 的參數量和浮點運算量較YOLOv8n 模型分別減少了0.653×106 和1.2×109,幀速率提升了0.68 幀/s, mAP 提升了1.7%;優化模型5 的參數量和浮點運算量較YOLOv8n 模型分別減少了0.513×106 和0.9×109, 幀速率下降了0.66 幀/s,mAP 提升了1.1%;優化模型6 的參數量和浮點運算量較YOLOv8n 模型分別增加了0.141×106 和0.2×109,幀速率下降了4.45 幀/s, mAP 提升了2.1%;優化模型7 的參數量和浮點運算量較YOLOv8n 模型分別減少了0.513×106 和0.9×109,幀速率下降了2.6 幀/s,mAP 提升了2.5%,滿足煤矸圖像實時檢測的要求。
通過消融實驗得出,添加Triplet Attention 后,識別精度有較大提升,且模型的參數量和浮點運算量基本持平。值得注意的是,引入CARAFE 上采樣后,識別精度提升的同時模型的參數量和浮點運算量也相應增加。采用HGNetv2 輕量化主干網絡,在滿足識別速度的條件下,提升了識別精度,減少了參數量和浮點運算量,減少了模型的存儲需求和計算資源消耗。
2.6 對比實驗
為進一步驗證本文改進模型的有效性, 與YOLOv5s, YOLOv7?tiny[24], YOLOv8n, YOLOv8s 等模型進行對比,分別在正常、低照度、高噪聲與運動模糊的環境下進行檢測,所有實驗均使用相同的訓練集與驗證集。不同模型的煤矸識別結果見表3,繪制不同模型的mAP 曲線,如圖6 所示。
由表3 和圖6 可看出,HGTC?YOLOv8n 模型的mAP 在對比模型中最高, 達到了93.5%, 相較于YOLOv8n 提升了2.5%; 幀速率高于YOLOv8s,YOLOv7?tiny, YOLOv5s,略低于YOLOv8n,滿足實時檢測的要求(≥60 幀/s);參數量僅為YOLOv5s 的37.6%、YOLOv7?tiny 的43.9%、YOLOv8n 的83.7%、YOLOv8s 的28.2%; 浮點運算量僅為YOLOv5s 的50%、YOLOv7?tiny 的60.6%、YOLOv8n 的89.8%、YOLOv8s 的27.8%。充分說明HGTC?YOLOv8n 模型在計算資源有限的情況下仍能保持高精度,更適合部署到嵌入式或移動端設備等場景,完成對煤矸的快速精準識別。
不同模型在4 種工況下煤矸石測試集部分識別結果如圖7 所示,其中,紅色檢測框標注煤塊,粉色檢測框標注矸石,黃色橢圓框標記類別錯誤,藍色橢圓框標記漏檢或重復檢測。
由圖7 可看出,在正常情況下,YOLOv5s,YOLOv7?tiny,YOLOv8n 等模型識別小目標煤塊易發生漏檢或錯檢;在低照度環境下,YOLOv7?tiny 對小目標煤塊發生了漏檢,YOLOv8s 發生了錯檢;在高噪聲環境下,YOLOv7?tiny,YOLOv8n 出現了檢測不準確的現象; 在運動模糊環境下, YOLOv5s 發生了漏檢,YOLOv7?tiny 發生了錯檢。從檢測結果可知,其他模型均有不同程度的漏檢和錯檢現象, HGTC?YOLOv8n 模型在低照度、高噪聲、運動模糊環境下有較好的識別效果,能夠對煤矸進行分類識別和位置檢測,有效減少錯檢和漏檢的情況發生。
2.7 基于HGTC?YOLOv8n 模型的煤矸圖像識別效果
為了驗證改進模型的可行性,以帶式輸送機上煤矸為例進行識別。將HGTC?YOLOv8n 模型在測試集上進行檢測,對單幅圖像中不同類別的煤矸進行識別并計數。紅字為煤矸個數,藍字為煤塊個數,綠字為矸石個數,計數結果置于左上角,如圖8 所示??煽闯鯤GTC?YOLOv8n 模型能夠在不同場景下準確識別煤矸。
3 結論
1) HGTC?YOLOv8n 模型采用輕量化網絡模型HGNetv2 替換原模型主干網絡,將Triplet Attention嵌入主干網絡,特征融合網絡上采樣替換為CARAFE。
2) 提出了一種基于HGTC?YOLOv8n 模型的煤矸識別算法。結果表明所提模型對小目標和重疊遮擋煤矸識別有明顯改善,mAP 為93.5%,比YOLOv8n模型提升了2.5%,模型參數量為2.645×106,浮點運算量為8.0×109 , 比未改進前分別下降了16.22%,10.11%,表明HGTC?YOLOv8n 模型在保證煤矸識別精度的同時減少了模型的存儲需求和計算資源消耗。
3) HGTC?YOLOv8n 模型檢測速度較快,但未部署在嵌入式或移動端等設備進行實時檢測試驗,未來將進行試驗臺搭建,以驗證其在動態煤矸檢測的有效性。
參考文獻(References):
[ 1 ]謝和平,任世華,謝亞辰,等. 碳中和目標下煤炭行業發展機遇[J]. 煤炭學報,2021,46(7):2197-2211.
XIE Heping, REN Shihua, XIE Yachen, et al.Development opportunities of the coal industry towardsthe goal of carbon neutrality[J]. Journal of China CoalSociety,2021,46(7):2197-2211.
[ 2 ]王國法,杜毅博,任懷偉,等. 智能化煤礦頂層設計研究與實踐[J]. 煤炭學報,2020,45(6):1909-1924.
WANG Guofa,DU Yibo,REN Huaiwei,et al. Top leveldesign and practice of smart coal mines[J]. Journal ofChina Coal Society,2020,45(6):1909-1924.
[ 3 ]馮來宏,李克相,顧雷雨,等. 我國井下智能干選技術裝備發展及展望[J]. 煤炭工程,2023,55(9):11-15.
FENG Laihong, LI Kexiang, GU Leiyu, et al.Development and prospect of underground intelligentdry separation technology and equipment in China[J].Coal Engineering,2023,55(9):11-15.
[ 4 ]張創業,王曉川,劉慶軍,等. 近全巖保護層開采煤矸井下分選及充填一體化技術研究與應用[J]. 煤炭工程,2023,55(10):6-11.
ZHANG Chuangye, WANG Xiaochuan, LIU Qingjun,et al. Integrated technology of coal gangue undergroundseparation and filling in full rock protection seammining[J]. Coal Engineering,2023,55(10):6-11.
[ 5 ]WANG Yuanbin, WANG Yujing, DANG Langfei.Video detection of foreign objects on the surface of beltconveyor underground coal mine based on improvedSSD[J]. Journal of Ambient Intelligence andHumanized Computing,2020,14:5507-5516.
[ 6 ]王家臣,李良暉,楊勝利. 不同照度下煤矸圖像灰度及紋理特征提取的實驗研究[J]. 煤炭學報, 2018,43(11):3051-3061.
WANG Jiachen, LI Lianghui, YANG Shengli.Experimental study on gray and texture featuresextraction of coal and gangue image under differentilluminance[J]. Journal of China Coal Society, 2018,43(11):3051-3061.
[ 7 ]張紅,李晨陽. 基于光學圖像的煤矸石識別方法綜述[J]. 煤炭工程,2022,54(7):159-163.
ZHANG Hong, LI Chenyang. Review on coal gangueidentification methods based on optical images[J]. CoalEngineering,2022,54(7):159-163.
[ 8 ]郜亞松,張步勤,郎利影. 基于深度學習的煤矸石識別技術與實現[J]. 煤炭科學技術, 2021, 49(12) :202-208.
GAO Yasong,ZHANG Buqin,LANG Liying. Coal andgangue recognition technology and implementationbased on deep learning[J]. Coal Science andTechnology,2021,49(12):202-208.
[ 9 ]李娟莉,魏代良,李博,等. 基于深度學習輕量化的改進SSD 煤矸快速分選模型[J]. 東北大學學報(自然科學版),2023,44(10):1474-1480.
LI Juanli, WEI Dailiang, LI Bo, et al. Improved SSDrapid separation model of coal gangue based on deeplearning and light-weighting[J]. Journal of NortheasternUniversity(Natural Science),2023,44(10):1474-1480.
[10]李博,王學文,龐尚鐘,等. 煤與矸石圖像特征分析及試驗研究[J]. 煤炭科學技術,2022,50(8):236-246.
LI Bo, WANG Xuewen, PANG Shangzhong, et al.Image characteristics analysis and experimental study ofcoal and gangue[J]. Coal Science and Technology,2022,50(8):236-246.
[11]郭永存,王希,何磊,等. 基于TW?RN 優化CNN 的煤矸識別方法研究[J]. 煤炭科學技術,2022,50(1):228-236.
GUO Yongcun,WANG Xi, HE Lei, et al. Research oncoal and gangue recognition method based on TW-RNoptimized CNN[J]. Coal Science and Technology,2022,50(1):228-236.
[12]徐志強,呂子奇,王衛東,等. 煤矸智能分選的機器視覺識別方法與優化[J]. 煤炭學報, 2020, 45(6) :2207-2216.
XU Zhiqiang, LYU Ziqi, WANG Weidong, et al.Machine vision recognition method and optimization forintelligent separation of coal and gangue[J]. Journal ofChina Coal Society,2020,45(6):2207-2216.
[13]徐慈強,賈運紅,田原. 基于MES?YOLOv5s 的綜采工作面大塊煤檢測算法[J]. 工礦自動化,2024,50(3):42-47,141.
XU Ciqiang, JIA Yunhong, TIAN Yuan. Large blockcoal detection algorithm for fully mechanized workingface based on MES-YOLOv5s[J]. Journal of MineAutomation,2024,50(3):42-47,141.
[14]張磊,王浩盛,雷偉強,等. 基于YOLOv5s?SDE 的帶式輸送機煤矸目標檢測[J]. 工礦自動化, 2023,49(4):106-112.。
ZHANG Lei, WANG Haosheng, LEI Weiqiang. Coalgangue target detection of belt conveyor based onYOLOv5s-SDE[J]. Journal of Mine Automation,2023,49(4):106-112.
[15]鄧天民,程鑫鑫,劉金鳳,等. 基于特征復用機制的航拍圖像小目標檢測算法[J]. 浙江大學學報(工學版),2024,58(3):437-448.
DENG Tianmin, CHENG Xinxin, LIU Jinfeng, et al.Small target detection algorithm for aerial images basedon feature reuse mechanism[J]. Journal of ZhejiangUniversity(Engineering Science) , 2024, 58(3) :437-448.
[16]WANG Gang, CHEN Yanfei, AN Pei, et al. UAVYOLOv8:a small-object-detection model based onimproved YOLOv8 for UAV aerial photographyscenarios[J]. Sensors, 2023, 23(16) . DOI: 10.3390/S23167190.
[17]ZHANG Lei, ZHENG Jiachun, LI Chaopeng, et al.CCDN-DETR: a detection transformer based onconstrained contrast denoising for multi-class syntheticaperture radar object detection[J]. Sensors, 2024,24(6). DOI:10.3390/S24061793.
[18]VORUGUNTI C S, PULABAIGARI V, GORTHI R KS S, et al. Osvfusenet: online signature verification byfeature fusion and depth-wise separable convolutionbased deep learning[J]. Neurocomputing, 2020, 409:157-172.
[19]何凱,程剛,王希,等. 基于CED?YOLOv5s 模型的煤矸識別方法研究[J]. 工礦自動化,2024,50(2):49-56,82.
HE Kai, CHENG Gang,WANG Xi, et al. Research oncoal gangue recognition method based on CEDYOLOv5smodel[J]. Journal of Mine Automation,2024,50(2):49-56,82.
[20]SHIMAA S, KHALID A, PAWEL P, et al. Graphconvolutional network with triplet attention learning forperson re-identification[J]. Information Sciences,2022,617:331-345.
[21]王瑞婷,王海燕,陳曉,等. 基于混合卷積與三重注意力的高光譜圖像分類網絡[J]. 智能系統學報,2023,18(2):260-269.
WANG Ruiting, WANG Haiyan, CHEN Xiao, et al.Hyperspectral image classification based on hybridconvolutional neural network with triplet attention[J].CAAI Transactions on Intelligent Systems, 2023,18(2):260-269.
[22]WANG Jiaqi, CHEN Kai, LIU Ziwei, et al. Carafe++:unified content-aware reassembly of features[J]. IEEETransactions on Pattern Analysis and MachineIntelligence,2021,44(9):4674-4687.
[23]單慧琳,王碩洋,童俊毅,等. 增強小目標特征的多尺度光學遙感圖像目標檢測[J]. 光學學報, 2024,44(6):382-394.
SHAN Huilin, WANG Shuoyang, TONG Junyi, et al.Multi-scale optical remote sensing image target detectionbased on enhanced small target features[J]. Acta OpticaSinica,2024,44(6):382-394.
[24]QIU Yongsheng, LU Yuanyao, WANG Yuantao, et al.IDOD-YOLOV7: image-dehazing YOLOV7 for objectdetection in low-light foggy traffic environments[J].Sensors,2023,23(3). DOI:10.3390/S23031347.
基金項目:機械工業聯合會礦山采選裝備智能化重點實驗室開放基金項目(2022KLMIO4) ;安徽理工大學引進人才基金項目(13230411)。