韓存地,朱興攀,符立梅,董立紅,劉安強,李遠成,許 犇,汪 梅
(1.陜西陜煤曹家灘礦業有限公司,陜西 榆林 719000;2.陜西陜煤榆北煤業有限責任公司,陜西 榆林 719000;3.西安科技大學 計算機科學與技術學院,陜西 西安 710054;4.西安科技大學 電氣與控制工程學院,陜西 西安 710054)
煤炭在中國能源中占有非常重要的地位,其總量遠遠超過石油和天然氣總量,它是國民經濟的基礎[1]。雖然環保等原因使得煤炭去產能力度有一定的增加,但是煤炭作為中國主要能源的基本國情不會發生重大變化[2]。
在原煤生產過程中常會有矸石出現,并且其含量約占原煤的15%~20%[3]。色澤上矸石和煤區別較小,但含碳量卻很低,主要成分是Al2O3、SiO2,如果在燃煤過程中有矸石等雜質,會使煤的品質下降,燃燒不充分,還會產生SO2等有害氣體污染環境。因此,必須在生產過程中剔除[4-5]。煤炭生產過程中最關鍵的一步就是對于矸石的甄別。一些常用的方法,如:人工識別法[6]、機械濕選法[7]和射線分選法[8]都可以用來對矸石進行識別分揀。
近年來,人工智能領域蓬勃發展。機器視覺從圖像中獲取信息并加以處理,最終用于解決實際需求[9-10]。在此基礎上,煤和矸石的識別技術也獲得較好的發展。
孫繼平等在雙樹復小波域上提出了一種對煤矸石有很好的辨識能力的統計建模方法[11]。張萬枝等在提出的基于視覺技術的煤巖界面特征分析與識別系統上進行驗證,最終取得了很好的識別效果[12]。沈寧等構建了基于機器視覺的煤矸石多工況識別方法,利用支持向量機作為分類器,采用Relief權重算法最終實現煤和矸石的識別并得到較好的效果[13]。
在對煤和矸石分類識別方面,王莉等利用樹結構進行實時圖像采集,再通過卷積神經網絡提取煤塊和矸石的顏色和紋理特征并進行分類識別[14]。饒忠鈺等利用煤和矸石圖片數據集訓練卷積網絡,對其進行分類。通過與淺層神經網絡識別結果比較,利用卷積網絡進行煤矸石分類準確率更高[15]。SU L等在原始網絡的基礎上改進之后對煤和矸石的識別精確率提高了45.2%[16]。曹現剛等在卷積網絡模型的基礎上訓練模型卷積層的權值和偏差的遷移學習,將識別準確率提高了到93.5%[17]。
上述的卷積神經網絡識別煤和矸石的方法,在其網絡訓練過程關注全局特征,而對局部顯著區域和顯著性特征的關注需要進一步加強。為此,構建改進的卷積神經網絡模型,即在卷積神經網絡中嵌入改進的空間注意力機制和改進通道的注意力機制。在空間和通道2個維度上,提取特征,以此提高模型的識別精確度。構建的識別模型對陜西陜煤曹家灘煤礦大巷皮帶的煤和矸石實時圖像進行識別實驗,取得較好的效果。


圖1 卷積神經網絡結構Fig.1 Structure of convolution neural network
若第l層為卷積層,則其第j個特征映射為
(1)

(2)

若第l層為全連接層,則其輸出向量為
xl=g((βl)Tvl-1+bl)
(3)
式中l-1層的池化層或卷積層的特征圖向量或全連接層輸出的向量用vl-1來表示;βl為一個權值矩陣;bl為偏置。
經過卷積后,特征圖還會再經過激活函數。因為卷積操作是一種線性的操作,多層卷積沒辦法表達非線性特征,這就需要加入非線性映射,也就是如Singmid激活函數,Tanh和Relu等函數來實現[22-23]。
在卷積神經網絡的最后是全連接層,其作用是把卷積、池化過后的特征映射到樣本的標記空間里,進而有分類的功能[24]。
經典注意力機制是一種模擬人腦在獲取信息的過程中的一種行為。在人體感官獲取信息的過程中,自然界中大量信息容易帶來干擾而無法有效集中于所需要的信息。為解決這一問題,大腦進化出了特殊的處理單元用于對當前信息做出有效的處理與監控。神經網絡中的注意力機制就是在特征提取過程中模仿人腦的注意力機制,使得目標在神經網絡的學習過程中產生特定的權重,影響學習過程以找到感興趣的目標或區域,抑制或無視無用區域[25]。
注意力機制如圖2所示,圖中的方形區域D(tx,ty,tl)為輸出,中心坐標用tx和ty表示,該區域邊長的一半用tl來表示,左上坐標用(tx-tl)和(ty-tl)來表示,則右下角坐標用(tx+tl)和(ty+tl)表示。在模型中需要下一個尺度更細的輸入圖像區域,而正方形區域就是注意力機制下的能夠體現圖像類別特征的核心區域。該注意力提取網絡由2部分組成,但又加入了下采樣和上采樣各2個。a表示注意力機制部分提取的特征,c表示卷積操作提取的特征[26]。

圖2 注意力機制Fig.2 Attention mechanism
構建的融合模型主要結構包括:煤矸石圖像采集、卷積神經網絡、通道注意力機制、空間注意力機制。融合模型的框架如圖3所示。融合模型是以大巷皮帶的煤流運輸過程中煤和矸石監測圖像數據為輸入,被檢測目標的煤和矸石類別為輸出。煤矸石圖像采集是利用大巷皮帶上方的礦用攝像設備。卷積層2與卷積層1的區別就是在經典的卷積上加入了空間注意力機制。卷積層3融入了通道注意力機制。最后是全連接層和激活層。

圖3 融合模型的框架Fig.3 Framework of fused model
融合模型輸入數據是四維數據,空間注意力關注前兩維數據,通道注意力關注后兩維數據。前兩維數據是空間信息,即像素位置。后兩維是通道信息,即RGB通道及其灰度值。圖4是曹家灘煤礦監測的大巷皮帶煤流監控圖像。

圖4 大巷皮帶煤流Fig.4 Coal flow in mine roadway belt
構建的注意力與卷積網絡融合模型是以殘差神經網絡為基本結構。殘差神經網絡是一種針對有損壓縮的卷積神經網絡,圖5為殘差學習單元。

圖5 殘差學習單元Fig.5 ResNet learning unit
若神經網絡某個神經單元的輸入為x,得到的期望輸出為H(x),其學習訓練難度會很大。
在殘差學習單元中,通過“捷徑連接”的方式把輸入的x傳到學習單元的輸出作為最初結果,學習目標就變為恒等映射的學習。該單元輸出結果見式(4)
H(x)=F(x)+x
(4)
當F(x)=0時,那么H(x)=x,即為恒等映射。ResNet網絡的學習目標就由一個完整的輸出變為目標值H(x)和x的差值即殘差,見式(5)
F(x)=H(x)-x
(5)
表1所示為殘差網絡結構,網絡分為5部分。分別是5個卷積層。卷積層1有一個7×7×64卷積,卷積層2、卷積層3、卷積層4和卷積層5共有33個塊,每個塊為3層,共有99層,用于分類的全連接層在最后一層。殘差網絡結構主要包括卷積與全連接層,不包括激活層和池化層[27-28]。

表1 殘差網絡結構Table 1 ResNet network architecture
改進的空間注意力模塊如圖6所示,這里不同于文獻[29],經過通道注意力模塊得到的特征作為本模塊的輸入。此模塊在各個通道使用全局平均池化和全局最大池化。文中用的是全局標準差池化和全局最大池化,輸入特征圖從H×W×C變成了雙H×W×1特征圖,再通過單個7×7卷積核卷積后得到一個新的H×W×1特征圖。

圖6 改進的空間注意力 Fig.6 Improved spatial attention
最后通過一個Sigmod激活函數對權重值進行歸一化后將權重作用到輸入特征中,就得到了由原始特征圖和雙重注意力調整后的特征圖。
改進的通道注意力如圖7所示,首先將輸入做基于寬度和高度的全局平均池化和全局最大池化,其大小均為3×3,這樣可以使得提取的高層次特征更豐富。通過2個連續的全連接層和Relu激活函數建立通道間聯系并得到各個通道的權重,同時可以減少訓練過程的參數,這不同于文獻[29]中的共享層。然后,將2個特征通道輸出的權重合并。通過Sigmoid運算進行歸一化處理并用乘法加權到原來特征進而完成特征提取。

圖7 改進的通道注意力Fig.7 Improved channel-wise attention
注意力與卷積網絡融合模型算法如下。
1)輸入帶標簽的煤和矸石2類圖像數據并解碼,對解碼后的數據進行標準化處理后輸出,標準化輸出定義為
(6)
式中X為圖像矩陣;μ為圖像的均值;σ為標準方差;N為樣本量。

(7)
式中X(i-m,j-n,c)和Y(i,j)分別為輸入和輸出特征圖像中對應通道的像素位置的像素值;k(m,n,c)為第k個卷積窗口通道c的m行n列的權重;bk表示第k個卷積核的偏置。

(8)
(9)
i為第i特征圖;j為第j個特征;c為通道;l為第l個卷積層。
通道注意力輸出特征為
Fc=g(uc⊕sc)
(10)
g為Sigmoid激活函數。

(11)
(12)
(13)
式中i為第i特征圖;j為第j個特征;c為通道;zs為平均池化;kij為卷積核;bj為偏置;g為Sigmoid激活函數。最終得到的特征為
(14)
4)第3步得到的特征作為全連接層的輸入,利用Softmax函數將輸入特征映射到[0,1]區間進行分類,由式(15)得到每個類的概率為
(15)
式中q為第q(q=1,2,…)類;n為特征維數;θ為可訓練的參數。

(16)
(17)
至此,注意力與殘差網絡融合模型算法結束。
對在陜西陜煤曹家灘煤礦獲得的500張煤和矸石圖片數據預處理和擴充,主要包括以下4部分。
1)數據壓縮和去噪:對原始圖像數據進行統一標準的壓縮處理,減少圖像數據信息冗余。利用小波分解除去圖像噪聲[30]。
2)數據擴充和增強:對圖像數據進行水平翻轉和垂直翻轉;增加或減小飽和度、對比度、銳化等操作。最終得到4 000張煤和矸石圖片。通過數據增強技術增強模型的泛化能力,平衡不同類樣本間的數量差異。圖8和圖9分別為對煤和矸石圖像做數據增強即增加飽和度、對比度、銳化后的結果。

圖8 煤圖像的數據增強Fig.8 Data enhancement of coal images

圖9 矸石圖像數據增強Fig.9 Data enhancement of gangues
3)數據標準化:對數據壓縮和數據增強后的圖像數據進行統一的標準化處理。
4)數據批處理:對圖像數據進行分批處理,減弱模型訓練過程中對大內存的依賴,分批次對樣本進行訓練,依據樣本大小設置輸入批次。同時分批處理可以防止模型學習過擬合和減弱模型訓練陷入局部最優的風險。
實驗配置為:1080Ti GPU,IntelCorei7-8700K CPU,Window 10操作系統,Spyder平臺的Python 3.7環境,Google公司開發的Tensorflow深度學習框架,CUDA 9.0。實驗設置數據集80%為訓練集樣本,20%為測試集,標簽分類數為2,訓練迭代次數為6 000次,從訓練樣本選64個作為輸入,每次迭代以0.001的學習率并且將Adam作為訓練優化器。
利用所構建的注意力與卷積網絡融合模型對測試集中煤和矸石圖片進行識別,識別結果如圖10所示。2張圖像中的第1張標簽為煤,識別結果是:目標為煤的概率為92.33%。第2張標簽為矸石,識別結果是:目標為矸石的概率為95.463%。識別結果與實際一致。

圖10 識別結果Fig.10 Recognition results
為驗證構建的注意力與卷積融合網絡的可行性和有效性,將該模型與不加注意力機制的殘差模型、基于空間注意力機制的殘差模型、基于通道注意力機制的殘差模型以及文獻[27]的模型進行對比。5種模型的參數量、批處理運行時間及運行時的顯存占用情況見表2??梢钥闯觯何闹袠嫿ǖ木W絡模型在訓練參數相對較大的情況下,批處理運行時間與前4種模型的差距不大,但所需的顯存占用量較高,因此選擇高性能的實驗配置是提高文中所構建模型訓練速度一個重要部分。

表2 5種網絡模型的參數量及運行時間比較Table 2 Comparison of the parameter numbers and the running time
表3是對5種模型識別精確度的比較,結果表明,改進的雙重注意力CNN模型比不加注意力機制的ResNet-101模型、基于空間注意力機制的ResNet-101模型、基于通道注意力機制的ResNet-101模型以及文獻[27]的模型平均識別精確度分別提高了4.1%,3.4%,2.6%,1.5%,說明構建的注意力與殘差網絡融合模型對煤和矸石的識別有較高準確度。

表3 5種模型的平均識別精確度Table 3 Comparison of average recognition accuracy
利用統計學中的常用的F1分數來評價文中構建的模型性能,P定義為分類模型準確率,R為召回率,則F1分數為P和R的調和平均數。計算式為
(18)
(19)
(20)
式中TP為矸石為預測結果和測試樣本標簽;FP為煤為預測結果,矸石為測試樣本標簽;TN為煤為預測結果和測試樣本標簽;FN為矸石是預測結果,煤為測試樣本標簽。樣本真實值與模型識別值關系見表4。

表4 樣本真實值與模型識別值關系Table 4 Relationship between the true value and the model recognition value
在測試集數據中隨機抽取10%的圖像,對5種網絡模型做測試,各模型的調和平均數得分情況如圖11所示。結果表明:文中構建的注意力與殘差網絡融合模型的測試識別結果明顯優于其他4種模型,用于煤和矸石的識別可行有效。

圖11 各模型的調和平均數Fig.11 Harmonised averages of models
1)提出了一種注意力與殘差網絡融合模型算法,以煤和矸石圖像數據為輸入,實現大巷皮帶上煤和矸石的識別。
2)為了提高識別精度,在殘差網絡中嵌入了改進的空間注意力和通道注意力,實現2個主要維度上采用雙重關注來強調有意義的特征。
3)通過實驗比較,構建的模型識別準確率為96.2%,優于殘差網絡、空間注意力+殘差網絡、通道注意力+殘差網絡、卷積注意力網絡。