曹正遠, 蔣偉, 方成輝
(1. 國家能源集團神東煤炭集團有限責任公司 智能技術中心,陜西 神木 719300;2. 天地(常州)自動化股份有限公司,江蘇 常州 213015;3. 中國礦業大學 體育學院,江蘇 徐州 221116)
由于煤炭開采環境復雜,在煤炭傳輸過程中常混入異物,如錨桿、鐵絲網、大塊矸石等。若帶式輸送機上異物清理不及時,可能造成輸送帶轉接處阻塞,嚴重時會發生輸送帶劃傷或撕裂等安全事故[1-2]。目前在原煤運輸過程中常采用人眼觀測的方式檢測異物,耗時耗力且安全風險大。因此,研發一種實時的煤流異物自動檢測方法對于保證煤礦安全生產、降低人工成本、提高煤炭開采和運輸效率具有重要意義。
隨著機器學習技術的發展,一系列基于圖像處理的異物檢測算法相繼被提出[3-5]。此類算法大致可分為基于監督學習和基于半監督學習的算法2 種。傳統機器學習為監督學習,基于傳統機器學習的目標檢測方法模型簡單、效率高,但誤判率高、泛化性差[6-7]。隨著深度學習的發展,部分學者將其用于輸送帶異物檢測。例如,郝帥等[8]提出了基于CBAMYOLOV5 的煤礦輸送帶大塊異物檢測方法。基于深度學習的目標檢測大多屬于監督學習方法,需要大量數據指導模型訓練。然而,煤礦帶式輸送機運輸現場異常樣本較少,難以滿足深度學習對建模數據的需求。
半監督學習是介于監督學習與無監督學習之間的一種學習方式[9]。針對異物檢測,部分學者提出一種基于正常樣本訓練的半監督學習方式,即訓練集中僅包含正常樣本,測試集中包含異常樣本和正常樣本。該方式通過學習正常樣本的特征分布實現異常檢測。例如,T. Schlegl 等[10]提出了運用生成對抗網絡(Generative Adversarial Network,GAN)完成異常檢測的AnoGAN 算法,用深度卷積生成對抗網絡(Deep Convolutional Generative Adversarial Networks,DCGAN)在訓練集中學習正常樣本的數據分布,該算法需要反復進行迭代優化,效率較低。S. Akcay 等[11]提出了基于GAN 的異常檢測算法GANomaly,利用編碼器-解碼器結構學習正常樣本的分布,在比對輸入圖像及生成圖像之間差別的同時,結合2 次編碼得到潛在空間差距。但該算法未考慮解碼器和編碼器的信息損失,精度較低。在此基礎上,S. Akcay 等[12]進一步提出了Skip-GANomaly 算法,通過借鑒U-Net模型[13]中的跳躍連接方式,將編碼器的特征與解碼器同維度的特征進行拼接,進一步減少了編碼-解碼過程中的信息損失。該方法在CIFAR10 和UBA 等常規圖像數據集上表現出優異性能。
然而,在實際輸煤現場,包含大塊矸石、錨桿、鐵絲網等異物的煤流圖像與正常煤流圖像之間的差異較小[14-15]。若僅對編碼器和解碼器的中間特征做簡單的拼接處理,一些能顯著區分正常樣本與異常樣本的特征可能會丟失,同時在拼接過程中容易造成輸入信號的誤差傳遞。人腦在處理視覺信號時,往往通過掃描全局圖像獲取需要重點關注的目標區域,并在該區域投入更多注意力。計算機視覺中的注意力機制通過對不同特征賦予不同的注意力權重,可從眾多信息中提取與當前任務相關的信息[16-17]。針對真實工礦場景下樣本極不平衡且顯著特征易丟失的問題,本文提出一種基于雙注意力生成對抗網絡(Dual-Attention Skip-GANomaly, DA-GANomaly)的煤流異物智能檢測方法。該方法在模型訓練階段僅需利用正常煤流圖像,有效解決了樣本不平衡問題;在編碼器與解碼器特征傳遞的過程中引入雙注意力機制,以抑制無關特征和噪聲,同時增強區分異常樣本的顯著特征表達,進一步提高模型分類的準確性。
DA-GANomaly 模型主要包括用于生成虛擬圖像的生成器和用于判別虛擬圖像的判別器。訓練數據集僅包含正常煤流圖像。輸入圖像在反復對抗訓練過程中不斷減少重構圖像x′與輸入圖像之間的誤差,使得生成器盡可能擬合正常煤流圖像的特征分布。經充分對抗訓練后,生成器能夠重建更加符合真實樣本特征分布的虛擬圖像。
在模型測試階段,測試集包含正常煤流圖像與異常煤流圖像。對于已經訓練完成的模型,當輸入正常煤流圖像時,生成器輸出的重建圖像與輸入樣本之間差距較小;當輸入異常煤流圖像時,生成器的輸出x′與輸入圖像相差較大。通過選取合適的差異表征函數及合適的閾值即可有效區分正常樣本與異常樣本。基于DA-GANomaly 的煤流異物智能檢測模型如圖1 所示。
生成器模塊主要包含3 個子模塊:編碼器M1—M6、解碼器N1—N6及基于雙注意力的特征連接模塊。其中,編碼器M1—M6用于提取輸入的圖像特征,包括6 層,每層包含激活函數、卷積層、批量標準化層,通過調整卷積核尺寸與步長進行下采樣操作。生成器網絡參數見表1。

表1 生成器網絡參數Table 1 Generator network parameters
編碼器輸入x的尺寸為64×64,維度為3,每層的卷積核尺寸為4×4,步長為2。編碼器模型采用LeakyReLU 激活函數,其輸出特征維度依次為64,128,256,512,512,512,通過每層卷積后,特征圖尺寸變為原來尺寸的1/2,經過6 層卷積后得到最終的特征尺寸為1×1,維度為512。解碼器主要包含6 層,每層包含激活函數、反卷積層和批量標準化層。解碼器模型采用ReLU 激活函數,反卷積層卷積核尺寸為4×4,步長為2,其輸出特征維度依次為512,512,256,128,64,3。通過每層反卷積后,特征圖尺寸為原來的2 倍,經過6 層反卷積后,得到生成器的輸出x′,其尺寸為64×64,維度為3。同時,為了加強模型的特征提取能力,充分利用編碼器及解碼器中的信息,提高感興趣區域的權重,抑制無關區域,本文引入了雙注意力機制,以融合編碼器和解碼器的信息。
相關研究表明,經過多次卷積處理后,高層特征具有更多語義信息,而低層特征則具有更多空間結構信息[18]。因此,本文采用一種雙注意力機制:對高層解碼信息,通過維度注意力提取更多語義信息;對低層編碼信息,通過空間注意力提取更多空間形態信息;再將經過2 種注意力機制處理后的特征圖相加,得到最終的特征圖。雙注意力機制如圖2 所示。

圖2 雙注意力機制Fig. 2 Dual attention mechanism
首先,利用空間注意力機制對低層特征進行處理。假設特征圖為xl∈(h,w,c),h,w,c分別為特征圖的高、寬和通道數,經過3 個1×1 卷積后得到特征向量B,C,D。其次,對特征向量進行維度變換,使得B,C,D∈(h×w,c)。然后,將特征向量B,C輸入到Softmax 激活函數中,得到注意力特征圖A。
式中:Aji為A中第i個通道與第j個通道之間的注意力影響,i,j=1, 2, ···,N,i≠j;Bi為特征向量B中的第i個通道值;Cj為特征向量C中的第j個通道值;N為A的通道數。
最后,用注意力特征圖乘以特征向量Di并加上低層特征向量xlj,作為空間注意力機制輸出T。
式中Tj為T中第j個通道的特征向量。
利用維度注意力模塊對高層特征進行處理。與空間注意力機制不同,本文直接利用高層特征得到維度注意力。假設特征圖xh∈(h,w,c),先對特征向量進行維度變換,使得xh∈(h×w,c),接著通過Softmax函數計算注意力特征圖S。
式中Sji為xh中第i個通道xhi與第j個通道xhj之間的注意力影響,Sji∈S。
用S乘以特征向量xhi,得到最終的輸出O。
式中Oj為O中第j個通道的特征向量。
將維度注意力機制輸出O及空間注意力機制輸出T相加,得到最后的輸出X:
判別器旨在判斷圖像是真實圖像還是重建圖像。本文采用類似編碼器的模型結構作為判別器,其網絡參數見表2。判別器主要包括6 層卷積Q1—Q6及1 層全連接,每層卷積核尺寸為4×4,步長為2,輸出維度依次為64,128,256,512,512,100。通過6 層卷積后特征圖尺寸調整為1×1×100,然后輸入到全連接分類器中得到最終的判斷類別。

表2 判別器網絡參數Table 2 Discriminator network parameters
本文采用與Skip-GANomaly 相同的損失函數,主要包括對抗損失Ladv、語義損失Lcon及潛在變量損失Llat。對抗損失用于在訓練過程中提升判別器判別圖像是否為虛擬圖像的能力,計算公式為
式中:Ex~p(x)為訓練樣本的預計期望值,p(x)為樣本x的分布;U(x)為判別器輸出。
語義損失用于約束重構圖像與輸入圖像之間的誤差,計算公式為
式中||·||1為L1 范數。
在上述損失函數基礎上添加一個額外損失,用于約束潛在變量的損失。為了最小化重建圖像x′與輸入圖像之間的距離,選取判別器最后一個卷積層的輸出作為潛在變量損失,計算公式為
式中:f(·)為判別器最后一層卷積操作;||·||2為L2范數。
整體損失函數為
式中 λ為潛在變量損失的權重系數,本文設置為10。
用異常分數ya作為評價圖像中是否含有異物的標準,分數越高,表示包含異物的可能性越大。其計算公式為
式中 λ1為語義損失的權重系數,本文設置為0.5。
對于已訓練完成的模型權重,包含異物的煤流圖像對應的異常分數與正常煤流圖像對應的異常分數差別較大,通過選取合適的閾值即可實現對正常樣本和異常樣本的分類。
為獲得輸送帶煤流異物檢測數據集,在山東某礦區部署煤流圖像采集設備,使用高速夜視相機作為采集攝像頭,以60°俯視角度安裝固定于輸送帶上方,采集到的圖像數據通過網絡上傳到數據處理中心。部分異常樣本如圖3 所示,包括大塊矸石、橡膠帶、木塊等。不同異物形狀、大小存在較大差異,且部分異物被煤流遮擋,因此,當采用統一的特征提取算法時,區分難度較大。

圖3 部分異常樣本Fig. 3 Partial abnormal samples
截取煤礦井下時長為150 h 的視頻,選取不同時刻的煤流圖像14 707 張,經過人為標定,數據中包含107 張含有異物的圖像及14 600 張正常圖像。選取正常煤流圖像作為訓練集,107 張包含異物的異常煤流圖像和600 張正常煤流圖像作為測試集。數據集劃分見表3。

表3 數據集劃分Table 3 Dataset partitioning
由于實驗數據中正負樣本不平衡,相較于接收者操作特征(Receiver Operating Characteristic,ROC)曲線,精確率-召回率曲線下面積(Area Under the Precision Recall Curve,AUPRC)更具有代表性。因此,本文選取AUPRC、召回率R和精確率P作為評價標準[19]。召回率和精確率計算公式為
式中:TP為真正例,即異物煤流圖像被預測正確的數量;FN為假反例,即正常煤流圖像被預測成異常煤流圖像的數量;FP為假正例,即異物煤流圖像被預測成正常煤流的數量。
本文實驗平臺為NVIDIA-2080TI 顯卡,采用Pytorch 深度學習框架和Adam 優化器,初始學習率設置為10-4,Batch-Size 大小為64。
為驗證本文DA-GANomaly 模型的有效性,選取5 種常見的基于深度學習的異物檢測模型進行比較, 包括AnoGAN、 EGBAD(Efficient GAN-based Anomaly Detection)[20]、 GANomaly[11]、 ALAD(Adversarially Learned Anomaly Detection)[21]和Skip-GANomaly[12]。實驗結果見表4,可見本文DA-GANomaly 模型的精確率、召回率及AUPRC 分別為79.5%,83.2%和85.1%,均優于其他模型。相較于次優的Skip-GANomaly 模型,DA-GANomaly 模型的AUPRC 提升了3%,精確率提升了24.1%,召回率提升了3.8%。

表4 不同模型實驗結果對比Table 4 Comparison of experimental results of different models
6 種模型的精確率-召回率曲線(Precision Recall Curve,PRC)如圖4 所示。可看出,相較于其他模型,本文所提DA-GANomaly 模型的AUPRC 最大,綜合性能表現最優異。

圖4 6 種模型的PRCFig. 4 Precision recall curves of 6 models
測試數據集中樣本的異常分數分布直方圖如圖5所示,包含異物的煤流圖像對應的異常分數明顯高于正常樣本,兩者分布具有明顯差異,表明本文提出的模型能夠區分正常煤流圖像和包含異物的異常煤流圖像。

圖5 DA-GANomaly 模型的異常分數分布直方圖Fig. 5 Histogram of abnormal fraction distribution of DA-GANomaly model
為進一步驗證本文模型的有效性,對另外的4.5 h煤礦現場視頻進行識別,結果如圖6 所示。

圖6 異物識別結果Fig. 6 Foreign object recognition results
人工篩選共發現4 個不同異物,如圖6(a)所示。采用表4 中綜合表現較好的ALAD、Skip-GANomaly 和本文模型進行異物識別,結果分別如圖6(b)-圖6(d)所示,其中標注Y 的圖像為識別出的異常煤流圖像。本文模型檢測出3 例異物,而其他模型最多檢出2 例。觀察發現,上述模型均未檢測出圖6 中的第4 張異常煤流圖像。該煤流表面異物與煤流背景高度相似,區分難度大。而針對第1 張樣本圖像,僅本文模型識別出了異物。相較于其他模型,本文模型通過引入雙注意力機制,進一步突出了異常煤流圖像的特征,從而有效提升了異物檢測精度。
為了驗證本文模型的實時性,對模型的計算時間進行了測試,結果見表5。可看出本文模型的單幀計算時間為7.2 ms,每秒可處理138 幀圖像,滿足在線檢測的實時性要求。測試結果驗證了本文模型應用于煤流異物實時檢測的可行性,然而,目前該模型還未在實際煤礦系統中進行部署,下一步將考慮進行這方面的工作。

表5 模型實時性測試結果Table 5 Real time test results of the model
提出了一種基于DA-GANomaly 的煤流異物智能檢測方法。為克服實際生產過程中煤流異常樣本稀缺導致的樣本不平衡問題,采用半監督學習的方式,通過正常樣本完成異物檢測模型的訓練。針對開采環境光線條件惡劣的情況,在生成器中引入雙注意力機制,突出有利于區分異常樣本的感興趣特征。實驗結果表明,與5 種經典異常檢測模型相比,DA-GANomaly 模型的綜合性能最佳。需要說明的是,基于圖像的異物檢測方法受限于視覺傳感器的感知范圍,目前僅適用于煤流表面異物的智能檢測,對于埋在煤流下的異物尚缺乏感知能力。