王國新,陳思羽,張冬妮
(黑龍江科技大學 電氣與控制工程學院,黑龍江哈爾濱,150022)
煤矸石圖像的檢測和定位主要分為人工輔助特征提取與淺層機器學習相結合的方法和大量數據樣本結合深度學習兩類方法[1],第一種方法是通過對圖像進行預處理、邊緣檢測、物體分類和物體定位的流程來實現的[2];第二種方法是利用深度學習強大的特征提取能力,通過大量的訓練樣本自動提取煤矸石特征,將圖像直接輸出得到煤與煤矸石的種類和位置信息[3]。
近年來深度學習網絡不斷發展,Vgg 是其中應用比較廣泛的一種深度學習網絡,有學者將其應用于煤矸石圖像分類,但是經過對比測試,發現Vgg 網絡訓練相對比較緩慢,使用其它輕量化網絡可以加快網絡訓練速度,本文通過使用3種不同種類的深度學習網絡對煤矸石圖像進行分類,從煤矸石圖像分類的準確度和訓練時間兩方面進行對比,以測試不同深度學習網絡對煤矸石圖像分類的表現。
(1)VggNET:該深度學習網絡是由牛津大學學者提出的帶有卷積運算的神經網絡模型。該網絡說明了模型深度對預測精度的意義。VggNET 網絡在ImageNet 測試中達到了92.7%的準確率。ImageNet 數據集有超過1400 萬幅圖像1000 個類別。VggNET 隨著網絡結構不同分為不同版本,例如Vgg16 和Vgg19。Vgg19 網絡的深度大于Vgg16 的網絡深度,對于Vgg 網絡來說,一般深層的Vgg 網絡適用于較復雜的任務,網絡層數較少的網絡適用于任務相對簡單的情況。
(2)Res18 網絡:隨著卷積神經網絡的發展和普及[4],網絡深度和架構研究早已經成為人們常見的問題,所以現在卷積神經網絡的發展趨勢是訓練速度快、普適性強。這意味著卷積神經網絡不能簡單通過固定尺度解決問題,而應該是充分利用多尺度信息,即multi-scale。但是隨著網絡層數的增加,梯度彌散和梯度爆炸等問題也隨之出現。這兩種問題都是由神經網絡的特殊結構和求參數方法造成,也就是鏈式求導的間接產物。殘差神經網絡利用殘差塊完美的解決了這兩個問題[5]。
(3)Mobile 網絡:MobileNet 是由谷歌在2017 年提出,是專注于移動端或者嵌入式設備中的輕量級CNN 網絡,并提出了深度可分離卷積的概念。深度可分離卷積將傳統卷積分解為兩個操作[6],即分為depthwise 和pointwise。深度可分離卷積首先按照通道進行按位相乘的計算,此時通道數不改變;然后使用1*1 的卷積核進行傳統的卷積運算,此時通道數可以進行改變。使用了深度可分離卷積,其計算量比傳統卷積的計算量下降了 1/N+1/DK2,其中N 為特征圖的維度,DK為卷積核的大小,當DK=3 時,深度可分離卷積比傳統卷積少8 到9 倍計算量。
綜上所述,VGG 網絡是現在廣泛應用的一種網絡,而殘差網絡的模型可以足夠大,防止因欠擬合而引起的分類誤差過大的問題,而Mobile 網絡計算速度快,相比其他深度學習網絡在同樣運行煤矸石檢測任務的情況下可以檢測更大的范圍,計算量的降低也可使運行環境的性能要求降低,能在類似于NVDIA Jetson 的開發板上運行,使系統輕量化,通過簡化硬件環境增強運行穩定性。這三種網絡結構各具特點,因此選用這三種網絡來處理煤矸石分類任務,通過試驗對比三種網絡對于煤矸石分類任務的性能效果。
遷移學習就是以現有的神經網絡模型參數為基礎,用來訓練另一種類似的識別目標的一種技術。由于深度學習網絡的規模往往比較大,深度學習網絡參數的數量往往在千萬以上,動輒達到上億的規模。因此深度學習網絡在訓練迭代過程中所需要計算的數據的數量也是十分巨大,訓練時間可能需要幾天甚至數周。
在煤矸石檢測任務中,對于數據收集困難、計算緩慢等問題,可以通過遷移學習的方式來改善,在現有相似模型的基礎上訓練煤矸石分類模型可以加快訓練速度,提高訓練精度,并且在一定程度上對過擬合的問題具有抑制作用。總之使用遷移學習往往可以提高模型訓練的速度和訓練后模型的預測精度。遷移學習的分類依據有以下兩種方法。
(1)按照已有網絡(源域)和待訓練的網絡(目標域)的異同進行分類。
(2)根據方法的不同進行分類。
數據是深度學習研究中一個非常重要的因素。由于現有的公開數據集不包括煤矸石圖像,所以需要人工拍攝圖像并制作標簽。和許多公開數據集不同,煤矸石圖像樣本不要求以日常生活場景作為背景圖,因為洗煤廠中煤矸石背景圖片較為單一,因此在采集圖像樣本的過程中分別用黑白灰多種背景拍攝樣本。
為保證煤矸石圖像數據集的質量,需對原始圖像樣本進行一些必要的預處理操作。本文對原始圖像的預處理操作包括篩選圖像、樣本擴充、統一圖像格式與尺寸以及打亂順序并統一命名。
得到煤及煤矸石圖像樣本后,建立對應的標簽文件,標簽文件為txt 格式,文本內容排列順序為文件名、樣本種類。
為了驗證Vgg-16、Mobile、Res18 對煤矸石圖像的分類性能,在Pytorch 框架下用上述三種網絡結合遷移學習,使用煤矸石圖像樣本及分類標簽進行訓練并測試。深度學習的訓練過程使用服務器進行,試驗的軟硬件系統配置如表1 所示。

表1 煤矸石目標檢測試驗軟硬件環境

在8053 張樣本圖像中將數據集和測試集設置比例為7:3,BATCH_SIZE(批處理尺寸)設置為128、LR(學習率)設置為0.0001、EPOCH(遍歷數據集次數)設置為3 進行訓練后,其訓練結果如圖4-1 所示。最終訓練集分類準確率在Vgg-16網絡下精度為89.17%;Res18 網絡下精度為98.81%;Mobile網絡下精度為98.56%。試驗證明使用深度學習圖像分類模型能夠對煤矸石和煤進行區分,并且準確率較高。

圖1 Vgg-16、Res18、Mobile 精度變化曲線
訓練過程中每個循環的訓練時間見表2 所示。

表2 各網絡訓練速度
通過精度和速度對比,Res18 在訓練速度的表現上最好,相比Vgg-16 網絡訓練時間下降84%。從訓練精度上看,Res網絡和Mobile 網絡精度最高,并且差別較小,但是相比Vgg網絡精度大幅度領先,綜合考慮Res18 網絡在煤矸石圖像分類上最適用。
對現有的深度學習網絡進行篩選,得到三種有代表性的深度學習網絡,并建立煤矸石數據集和樣本標簽,通過模型訓練測試,將三種網絡的精度和速度進行對比,選出性能更優的深度學習網絡。
通過使用Vgg-16 網絡、Mobile 網絡和Res18 網絡對煤矸石進行分類,試驗表明Res18 網絡在訓練準確度和訓練速度方面表現更優。