胡璟皓,高妍,張紅娟,靳寶全
(1.太原理工大學 電氣與動力工程學院, 山西 太原 030024;2.太原理工大學 新型傳感器與智能控制教育部與山西省重點實驗室, 山西 太原 030024)
帶式輸送機作為煤礦井下運輸?shù)年P(guān)鍵設備,在煤礦運輸中起著舉足輕重的作用。隨著煤礦生產(chǎn)效率的提升,對帶式輸送機可靠性方面的要求不斷提高[1-3]。由于井下環(huán)境復雜,在煤礦生產(chǎn)運輸過程中,斷裂的錨桿、角鐵等非煤異物易導致輸送帶縱向撕裂、斷帶等事故,影響煤礦安全生產(chǎn)[4-5]。快速準確地識別輸送帶中非煤異物并提前預警,對煤礦安全運輸具有重要意義。
目前,圖像識別法因其安裝維護簡單、成本低,成為非煤異物檢測研究熱點[6]。何敏等[7]引入支持向量機,結(jié)合圖像樣本分析與特征提取對煤矸石進行識別。程健等[8]利用高斯混合模型分離煤流視頻背景,結(jié)合粒子群算法優(yōu)化模型,實現(xiàn)煤流中矸石等異物的檢測。陳立等[9]利用小波分析對采集到的煤與矸石圖像進行降噪,并通過構(gòu)造小波矩對煤和矸石進行特征提取,以此識別煤與矸石。薛光輝等[10]采用灰度-梯度共生矩陣提取煤矸圖像紋理特征,利用隨機森林算法對紋理特征排序,以提高模型識別效果。Y. Pu等[11]基于VGG16卷積神經(jīng)網(wǎng)絡進行煤矸識別。然而,現(xiàn)階段研究主要是針對煤矸進行識別,缺乏對多類別非煤異物的識別,且現(xiàn)有識別模型缺乏對異物的精確定位,運行速度慢,無法實現(xiàn)實時檢測。
針對上述問題,本文提出一種基于深度學習的帶式輸送機非煤異物識別方法。該方法以目標檢測算法YOLOv3為基礎框架,構(gòu)建異物圖像數(shù)據(jù)集,搭建異物檢測模型,并對模型進行改進,采用焦點損失(Focal Loss)函數(shù)替代交叉熵損失函數(shù),依據(jù)井下環(huán)境設計數(shù)據(jù)增強手段,對非煤異物圖像進行訓練與測試,實現(xiàn)了對非煤異物的多目標、快速、精準識別與定位。
1.1.1 模型結(jié)構(gòu)
YOLOv3模型結(jié)構(gòu)[12]如圖1所示。模型采用Darknet-53全卷積網(wǎng)絡作為特征提取骨干。Darknet-53中若干個殘差層串行連接,每一個殘差層由1×1卷積核與3×3卷積核交叉組成,利用卷積代替池化進行下采樣,使模型能夠接收任意大小圖像輸入。整體骨干共包含53層卷積層,以更好地控制模型擬合,增強模型學習能力。模型后端設計借鑒特征金字塔網(wǎng)絡(Feature Pyramid Net, FPN)思想[13],利用上采樣方法融合構(gòu)造13×13、26×26、52×52共3個尺度的特征圖,對目標位置和類別進行預測,并獲得對應的預測張量。這種結(jié)構(gòu)使得模型感受野范圍擴大,提高了模型對不同尺寸目標的識別能力。

圖1 YOLOv3模型結(jié)構(gòu)Fig.1 Structure of YOLOv3 model
1.1.2 預測過程
YOLOv3算法是一種基于回歸的預測方法[14-15],其預測過程如圖2所示。算法將輸入圖像分割成S×S個網(wǎng)格,預測目標的中心落在某個網(wǎng)格中,則由該網(wǎng)格負責預測該目標。利用卷積神經(jīng)網(wǎng)絡直接回歸預測目標的相對位置與類別,構(gòu)建預測邊界框。通過置信度閾值和非極大值抑制算法對所有邊界框進行篩選,將置信度最高的邊界框作為輸出結(jié)果。

圖2 YOLOv3算法預測過程Fig.2 Prediction process of YOLOv3 algorithm
YOLOv3引入了錨框機制來預測目標的相對位置,使定位預測更加精確,如圖3所示。錨框是一類由數(shù)據(jù)集實際邊界框通過聚類得到的先驗邊框,每個網(wǎng)格都會設定固定數(shù)量的錨框。目標定位信息包括xb,yb,wb和hb4個值,(xb,yb)為邊界框中心點相對坐標,wb,hb分別為邊界框的相對寬度和高度。
xb=σ(xt)+xg
(1)
yb=σ(yt)+yg
(2)
wb=waexp(wt)
(3)
hb=haexp(ht)
(4)
式中:σ(·)為sigmoid激活函數(shù);(xt,yt)為邊界框中心點實際坐標;(xg,yg)為網(wǎng)格左上角坐標;wt,ht分別為邊界框?qū)嶋H寬度和高度;wa,ha分別為錨框?qū)挾扰c高度。

圖3 基于錨框的位置預測Fig.3 Position prediction based on anchor
YOLOv3將置信度f作為目標類別預測的標準,其反映了模型對預測邊界框中是否存在目標的信心程度和預測邊界框的定位準確度。
f=pcpiI
(5)
式中:pc為目標存在概率,若邊界框中存在目標則為1,否則為0;pi為當前邊界框中的目標屬于第i種類別的概率;I為預測邊界框與實際邊界框的交并比(IoU),用來評判預測位置準確程度,值越大說明定位精度越高。
本文中所用錨框是在COCO通用數(shù)據(jù)集上利用K-means算法聚類所得,共有9種尺寸,與特征圖對應關(guān)系見表1。

表1 錨框與特征圖尺寸對應關(guān)系Table 1 Size correspondence between anchor and characteristic map
本文所采用的圖像數(shù)據(jù)集中,異物像素與背景像素比為1∶1 500,被檢測異物相對于背景過小,易出現(xiàn)樣本不平衡問題。為此,利用Focal Loss函數(shù)[16]替換原模型中的交叉熵損失函數(shù),以改進YOLOv3網(wǎng)絡模型。
交叉熵損失函數(shù)為
Lc(p)=-log2p
(6)
式中p為類別概率,范圍為[0,1]。
Focal Loss函數(shù)在交叉熵損失函數(shù)基礎上添加了2個超參數(shù)以平衡訓練權(quán)重,公式為
LF(p)=-α(1-p)γlog2p
(7)
式中:α為權(quán)重參數(shù);γ為焦點參數(shù)。
通過調(diào)節(jié)γ和α來平衡樣本之間的比例,降低大量簡單背景樣本在訓練中的占比,使模型在訓練時更專注學習復雜目標樣本特征,提高模型預測性能。
二分類混淆矩陣見表2。利用混淆矩陣統(tǒng)計模型預測結(jié)果,計算精確率、召回率、準確率和F-1得分4個統(tǒng)計學性能指標,性能指標計算方法見表3。

表2 二分類混淆矩陣Table 2 Two-class confusion matrix

表3 混淆矩陣性能指標計算公式Table 3 Calculation formula of confusion matrix performance index
根據(jù)K-折交叉驗證理論,將數(shù)據(jù)集平均劃分為K折,將每個子集數(shù)據(jù)分別作為1次測試集,其余K-1折子集作為訓練集,共得到K個模型。分別獲取這K個模型的混淆矩陣,以評估模型在該數(shù)據(jù)集上的分類性能。
本文中所使用的異物數(shù)據(jù)均來自實驗室模擬煤礦井下帶式輸送機圖像,考慮到煤礦井下環(huán)境復雜,采集圖像時用了不同光照強度,在膠帶不同方位拍攝圖像,并在后期增加噪聲以模擬井下粉塵影響,部分訓練樣本如圖4所示。整個數(shù)據(jù)集有6 034張異物圖像,分辨率為2 592×1 944,包含了錨桿、角鐵、螺母3種單目標樣本和多目標樣本4類。

圖4 部分訓練樣本Fig.4 Part of training samples
對所有異物圖像進行標注,以獲得模型訓練與測試所需的先驗標簽,如圖5所示。標注內(nèi)容包含類別序號、(xa、ya)為預測邊界框中心點相對坐標、預測框邊界相對寬度wa、預測邊界框相對高度ha。

圖5 數(shù)據(jù)集標注Fig.5 Data set annotation
利用旋轉(zhuǎn)、鏡像、亮度調(diào)節(jié)等圖像處理方法對異物數(shù)據(jù)集進行數(shù)據(jù)增強,以擴大數(shù)據(jù)集規(guī)模,加強數(shù)據(jù)集多樣性,如圖6所示。

圖6 數(shù)據(jù)增強Fig.6 Data enhancement
本文中異物檢測模型訓練在Ubuntu16.04 + Intel i9-9900k + GeForce GTX 2080Ti(12G)計算機系統(tǒng)中完成,框架為Darknet。超參數(shù)設定:輸入圖像大小為416×416,批數(shù)量大小為64,分8組輸入,采用動量梯度下降法進行迭代,訓練迭代次數(shù)為12 000,學習率為0.001,動量參數(shù)為0.9,權(quán)重衰減系數(shù)為0.000 5,交并比閾值為0.75。
使用網(wǎng)格搜索法[17]確定Focal Loss函數(shù)中超參數(shù)γ與α的取值:γ范圍為[0,5],步長為0.5;α范圍為[0,1],步長為0.05[16]。采用異物預測平均準確率作為得分評判標準,γ與α取不同值時的準確率如圖7所示。其中,A點為準確率最高點,對應參數(shù)γ=2,α=0.75,準確率為90.5%;B點為交叉熵損失函數(shù)點,對應參數(shù)γ=0,α=1,準確率為85.5%。實驗結(jié)果表明,F(xiàn)ocal Loss函數(shù)在該異物數(shù)據(jù)集中表現(xiàn)優(yōu)于交叉熵損失函數(shù),在γ=2,α=0.75時準確率提升5%,故選取該組超參數(shù)為最優(yōu)參數(shù)。

圖7 γ與α取不同值時的準確率Fig.7 Accuracy when γ and α take different values
設置α=0.75,γ=2,利用10折非煤異物數(shù)據(jù)集對模型進行10-折交叉驗證測試,其中第1折(含604張圖像)交叉驗證的混淆矩陣見表4。

表4 第1折交叉驗證混淆矩陣Table 4 Confusion matrix for the first fold cross-validation
從表4可看出,第1折共出現(xiàn)1 178個異物樣本,其中錨桿出現(xiàn)412次,角鐵出現(xiàn)358次,螺母出現(xiàn)388次。經(jīng)計算可得:3種異物的預測精確率分別為88.3%,90.2%和93.0%,召回率分別為94.3%,93.6%和95.5%,F(xiàn)-1得分分別為91.2%,91.9%和94.2%,平均準確率為90.5%。
用10-折交叉驗證對YOLOv3模型改進前后的異物檢測精確率和召回率進行統(tǒng)計,結(jié)果如圖8、圖9所示。可看出利用Focal Loss函數(shù)改進模型后,精確率和召回率明顯提升。經(jīng)計算,錨桿、角鐵、螺母的平均精確率分別提升了約4.7%,3.5%和6.8%,平均召回率分別提升了約6.6%,3.5%和6.0%。

圖8 異物預測精確率Fig.8 Precision of foreign object forecast

圖9 異物預測召回率Fig.9 Recall of foreign object forecast
將測試集輸入模型,模型會預測出圖像中異物位置、種類和置信度。根據(jù)預測的位置,利用OpenCV在圖像中繪制對應的矩形框,并在矩形框左上角顯示異物種類,部分測試圖像預測結(jié)果如圖10所示。
異物置信度在命令行中顯示,圖10中各圖像異物預測結(jié)果見表5。可看出異物預測類別與實際一致,且置信度在94%以上。

圖10 部分測試圖像結(jié)果Fig.10 Some forecast results on the test images

表5 異物預測結(jié)果Table 5 Forecast results of foreign objects
(1) 利用Focal Loss函數(shù)代替交叉熵損失函數(shù)解決異物圖像數(shù)據(jù)集中的樣本不平衡問題,提高異物預測準確率,最佳超參數(shù)為γ=2,α=0.75。
(2) 利用6 034張異物圖像對改進前后的YOLOv3模型進行10-折交叉驗證測試,改進后的模型預測性能顯著提升,錨桿、螺母、角鐵3種異物預測的平均精確率分別提升了約4.7%,3.5%和6.8%,平均召回率分別提升了約6.6%,3.5%和6.0%。
(3) 改進YOLOv3模型在2080Ti平臺下對每張圖像中異物的預測類別與實際類別一致,且置信度在94%以上。