季菁菁, 奚崢皓 , 李忠峰
(1 上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院, 上海 201620; 2 營口理工學(xué)院,電氣工程學(xué)院, 遼寧 營口 115000)
煤巖質(zhì)量決定著煤巖的燃燒效率,高質(zhì)量煤巖燃燒可以有效減少碳排放,有利于節(jié)能減排發(fā)展戰(zhàn)略的進(jìn)一步實(shí)施。對煤巖顯微組分分析,是對煤巖質(zhì)量進(jìn)行評估的有效途徑之一[1-2]。但煤巖顯微圖像組分的復(fù)雜多樣性,導(dǎo)致在對煤巖組分進(jìn)行識(shí)別時(shí)需要人工的參與,使判斷結(jié)果具有主觀性。在工業(yè)生產(chǎn)應(yīng)用中,通常用到的煤巖顯微組分分析系統(tǒng)主要由分光光度計(jì)和偏光顯微鏡等組成,其識(shí)別分類準(zhǔn)確度表現(xiàn)優(yōu)異。但是,該系統(tǒng)的操作與分析過程均需要專業(yè)人員參與其中,普適性較差。
隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,針對上述問題,已有學(xué)者采用將計(jì)算機(jī)視覺與圖像處理結(jié)合的煤巖顯微圖像的分析識(shí)別方法。如:文獻(xiàn)[3]提出了基于多重分形譜法的煤礦質(zhì)分類方法;文獻(xiàn)[4]提出了基于輪廓波變換的煤巖殼質(zhì)組顯微組分的分類方法;文獻(xiàn)[5]基于PCA與RBF-SVM對煤巖顯微鏡質(zhì)組組分進(jìn)行分類;文獻(xiàn)[6]提出一種基于改進(jìn)極限學(xué)習(xí)機(jī)的焦煤惰質(zhì)組的分類方法;文獻(xiàn)[7]基于空間域處理方法,根據(jù)特征亮度值對組分進(jìn)行分析等等。雖然上述方法對識(shí)別分類煤巖組分有一定的效果,但對煤巖組分特征提取工作中仍需要人工參與,無法實(shí)現(xiàn)真正的自動(dòng)化識(shí)別分類。
隨著深度學(xué)習(xí)的發(fā)展,越來越多的研究嘗試將深度學(xué)習(xí)用于圖像處理任務(wù)中。相較于傳統(tǒng)算法,深度學(xué)習(xí)可以避免在對圖像特征進(jìn)行提取過程中的人工參與。如:文獻(xiàn)[8]中提出的AlexNet 網(wǎng)絡(luò)在ImageNet上的亮眼表現(xiàn),證明了在機(jī)器視覺領(lǐng)域里深度學(xué)習(xí)的不可或缺性;文獻(xiàn)[9]提出一種基于全卷積神經(jīng)網(wǎng)絡(luò)的花崗巖組分分布特征的分析模型;文獻(xiàn)[10]提出一種用于大規(guī)模圖像識(shí)別的VGG-16卷積網(wǎng)絡(luò)等等。雖然這些方法在進(jìn)行深度學(xué)習(xí)圖像處理時(shí)都表現(xiàn)出了良好的性能,但其訓(xùn)練時(shí)需要大量的數(shù)據(jù)集。由于煤巖顯微組分圖像數(shù)據(jù)集制取方式復(fù)雜,獲取成本高,現(xiàn)有的數(shù)據(jù)集數(shù)量無法滿足上述網(wǎng)絡(luò)的訓(xùn)練要求,使得網(wǎng)絡(luò)很難達(dá)到預(yù)期識(shí)別準(zhǔn)確度的要求。而文獻(xiàn)[11]提出了一種基于遷移學(xué)習(xí)的煤巖殼質(zhì)顯微組分識(shí)別模型,其適用于小樣本數(shù)據(jù)集的訓(xùn)練。遷移學(xué)習(xí)可以將在大規(guī)模數(shù)據(jù)集上訓(xùn)練好的網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)遷移至目標(biāo)數(shù)據(jù)集網(wǎng)絡(luò)中,有效解決對小樣本數(shù)據(jù)集進(jìn)行識(shí)別問題。
本文在文獻(xiàn)[11]的基礎(chǔ)上,對預(yù)訓(xùn)練VGG-16分類網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),并在ImageNet上完成預(yù)訓(xùn)練,將訓(xùn)練好的部分改進(jìn)網(wǎng)絡(luò)模型與參數(shù),結(jié)合優(yōu)化的分類器共同組成TR-VGG-16深度遷移網(wǎng)絡(luò)模型,實(shí)現(xiàn)對小樣本煤巖顯微組分識(shí)別。
為了提高VGG-16分類網(wǎng)絡(luò)的特征提取能力,引入Res2Net模塊,實(shí)現(xiàn)對跳躍連接層傳輸?shù)南虏蓸犹卣鲌D信息的進(jìn)一步特征提取。Res2Net模型如圖1所示。
經(jīng)過第一層卷積輸出特征后,Res2Net網(wǎng)絡(luò)根據(jù)通道數(shù)將特征平均分為S組,每組特征為Rφ,隨后對除R1外的每組特征進(jìn)行卷積操作,其計(jì)算公式如式(1)所示:
(1)
其中,Kφ()為對特征進(jìn)行卷積操作。由圖1可知,從第2組特征計(jì)算開始,每次Kφ()計(jì)算的輸入都是由前一組Opφ殘差連接本組特征Rφ組成。最后將得到的所有多尺度特征Opφ進(jìn)行拼接,輸入到下一層卷積層,最后得到Res2Net模塊的輸出。
深度可分離卷積(Depthwise Separable Convolution)是MobileNet模型的核心組成部分,是一種因式分解卷積[12]。與傳統(tǒng)卷積運(yùn)算作用于圖像所有通道不同,深度可分離卷積在進(jìn)行卷積運(yùn)算時(shí),將普通卷積運(yùn)算分解為Depthwise運(yùn)算和Pointwise運(yùn)算,運(yùn)用不同的卷積核作用于圖像不同的通道。深度可分離卷積步驟如圖2所示。

(a) Depthwise運(yùn)算 (b) Pointwise運(yùn)算
首先,進(jìn)行Depthwise運(yùn)算,對輸入特征的每個(gè)通道內(nèi)的數(shù)據(jù)進(jìn)行深度卷積運(yùn)算;之后進(jìn)行Pointwise運(yùn)算。利用大小為1×1×M的卷積核進(jìn)行逐點(diǎn)卷積運(yùn)算,M為上一層特征通道數(shù),對不同通道的輸出加以組合。輸出結(jié)果如式(2)、式(3)所示:
(2)
(3)
式中:H′和W′為輸出圖像的高和寬,H和W為輸入圖像的高和寬,Ph和Pw為輸入的垂直與水平的填充,Sh和Sw為垂直與水平的步幅。
傳統(tǒng)VGG-16[13]分類網(wǎng)絡(luò)模型由13個(gè)卷積層,5個(gè)最大池化層,3個(gè)全連接層和1個(gè)Softmax層組成。為了提高網(wǎng)絡(luò)的特征提取能力,在網(wǎng)絡(luò)中添加了Res2Net塊。隨著Res2Net塊的加入,網(wǎng)絡(luò)模型層數(shù)加深、參數(shù)增多。為減少參數(shù)量,提高運(yùn)算效率,將VGG-16的所有卷積層調(diào)整為積核大小為3×3的深度可分離卷積層。改進(jìn)的VGG-16網(wǎng)絡(luò)模型如圖3所示。

圖3 改進(jìn)的VGG-16分類網(wǎng)絡(luò)結(jié)構(gòu)
設(shè):煤巖顯微組分圖像集合為X,對應(yīng)標(biāo)簽集合為Y,由X和Y構(gòu)成一個(gè)集合A={X,Y}。將A輸入,實(shí)現(xiàn)特征提取。
Di表示進(jìn)行深度可分離卷積運(yùn)算,i為卷積層級(jí)。將數(shù)據(jù)從以D1輸入,即從第1層開始卷積操作,依次在經(jīng)過i層時(shí)進(jìn)行如式(4)的卷積運(yùn)算。
Di=δ(Di-1),i={1,2,..,10}
(4)
而后經(jīng)過Res2Net_block進(jìn)行深度可分離卷積運(yùn)算。輸出如式(5)所示:
(5)
改進(jìn)的VGG-16分類網(wǎng)絡(luò)結(jié)構(gòu)通過卷積層和池化層的連接實(shí)現(xiàn)對圖像特征的提取,保留分類器前的部分,將其作為TR-VGG-16網(wǎng)絡(luò)特征提取網(wǎng)絡(luò)結(jié)構(gòu),以實(shí)現(xiàn)圖像特征提取和輸出。
已知ImageNet數(shù)據(jù)集具有規(guī)模大、質(zhì)量優(yōu)和多樣性高的特點(diǎn),在此用其對預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練。本文對煤巖顯微圖像的3種組分進(jìn)行分類識(shí)別,在分類器中設(shè)置2個(gè)全連接層,且第二層全連接層設(shè)為3個(gè)神經(jīng)元。經(jīng)過全連接層的計(jì)算過程如式(6)所示:
P=(I+1)×O
(6)
式中:I為輸入的神經(jīng)元,第一層I為改進(jìn)的VGG-16特征提取網(wǎng)絡(luò)輸出的特征映射向量,O為偏差量。
由于網(wǎng)絡(luò)的加深,會(huì)導(dǎo)致訓(xùn)練過程中,輸入數(shù)據(jù)的分布發(fā)生偏移,使其模型收斂速度變慢。因此,在網(wǎng)絡(luò)中加入批量歸一化層(Batch Normalization,BN),降低模型對參數(shù)初始化的依賴程度,提高初始學(xué)習(xí)率,進(jìn)而提高網(wǎng)絡(luò)訓(xùn)練的速度。小批量樣本x的集合B={x1…l},l∈{1,…,m},m為小批量的尺寸。BN層的輸出結(jié)果為yl,其計(jì)算公式如式(7)所示:
(7)

(8)
其中,xl表示第l個(gè)小批量的訓(xùn)練數(shù)據(jù);τ為避免分母為0的因子(τ→0);νl為批量樣本的均值;σl為樣本的方差。νl、 、σl分別依據(jù)式(9)和式(10)計(jì)算得到:
(9)
(10)
由于煤巖顯微組分?jǐn)?shù)據(jù)集數(shù)量有限,而過少的數(shù)據(jù)集在訓(xùn)練中會(huì)導(dǎo)致過擬合現(xiàn)象出現(xiàn),即網(wǎng)絡(luò)的損失函數(shù)較小,預(yù)測驗(yàn)證集的準(zhǔn)確率偏高。為防止這一現(xiàn)象,在網(wǎng)絡(luò)中引入Dropout層,其模型如圖4所示。

Dropout層的主要功能,是在每個(gè)批次的模型訓(xùn)練中,隨機(jī)讓網(wǎng)絡(luò)某些隱含層節(jié)點(diǎn)的權(quán)重不工作,減輕訓(xùn)練模型的復(fù)雜程度,防止訓(xùn)練過擬合。
由于本文任務(wù)是對煤巖顯微組分圖像數(shù)據(jù)集進(jìn)行多分類,所以選用Softmax函數(shù),求得所屬類別的概率分布值Softmax(αβ),其計(jì)算如式(11)所示:
(11)
其中,αβ為第β個(gè)類別的輸出值,n為數(shù)據(jù)集總類別數(shù)。
綜上所述,基于TR-VGG-16煤巖組分識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 基于深度遷移學(xué)習(xí)的煤巖組分識(shí)別網(wǎng)絡(luò)示意圖
為了計(jì)算網(wǎng)絡(luò)每次迭代的前向結(jié)果與真實(shí)值的差距,進(jìn)而達(dá)到指導(dǎo)下一步的訓(xùn)練向正確方向進(jìn)行的目的,引入了損失函數(shù)。本文選用交叉熵作為該網(wǎng)絡(luò)的損失函數(shù),定義如下:
(12)
式中:Pv(s)為第s個(gè)訓(xùn)練樣本在v類下的真實(shí)值,Qv(s)為第s個(gè)訓(xùn)練樣本在v類下類別輸出值。
2.1.1 煤巖顯微組分?jǐn)?shù)據(jù)集
實(shí)驗(yàn)選用產(chǎn)自甘肅一帶的新生代煤,用來制作煤巖顯微組分?jǐn)?shù)據(jù)集的煤樣。其主要組分分為:鏡質(zhì)組、絲質(zhì)組和殼質(zhì)組。如圖6所示。

(a) 鏡質(zhì)組 (b) 絲質(zhì)組 (c) 殼質(zhì)組
采用國際規(guī)定的煤巖顯微組分制備方法(GB/T 16773-2013)制作粉煤光片[14],用圖像采集裝置,采集偏反光顯微鏡下的煤巖組分圖像。由于實(shí)驗(yàn)條件所限,本次實(shí)驗(yàn)數(shù)據(jù)集中僅包含3種煤巖組分,尺寸大小為2 264×2 264的RGB顯微圖像各15張。為了減少網(wǎng)絡(luò)計(jì)算量,對得到的數(shù)據(jù)進(jìn)行預(yù)處理,即將原RGB圖像轉(zhuǎn)換成灰度圖像。
2.1.2 數(shù)據(jù)增強(qiáng)
較少的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練時(shí)會(huì)導(dǎo)致模型的過擬合,但由于采集到的數(shù)據(jù)集具有數(shù)量少但圖像尺寸較大的特點(diǎn),所以本文對煤巖組分?jǐn)?shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理。
(1)圖像剪裁:將原有圖像剪裁成256×256大小的圖像,不足尺寸的則舍棄。將剪裁后的圖像用于后續(xù)的數(shù)據(jù)增強(qiáng)。
(2)均衡化增強(qiáng):使用直方圖均衡化方法處理煤巖灰度圖像,根據(jù)灰度圖像的概率密度確定映射函數(shù)。概率密度公式如式(13)所示:
(13)
其中,λs為灰度的累積概率密度;mh為灰度級(jí)h出現(xiàn)的個(gè)數(shù);M為總像素?cái)?shù);l為總數(shù)灰度級(jí)。
這一處理方式使圖像的直方圖均勻分布,提高了圖像的對比度,使各組分特征的呈現(xiàn)更加明顯,從而提高網(wǎng)絡(luò)模型的識(shí)別能力。
(3)噪聲添加:在圖像上隨機(jī)添加一些離散孤立的像素點(diǎn),模擬在真實(shí)獲取圖像過程中可能會(huì)遇到的隨機(jī)干擾情況。本文選擇添加高斯噪聲、泊松噪聲和椒鹽噪聲的處理方法。
概率密度函數(shù)如式(14)~式(16)所示:
(14)
(15)
(16)
(4)圖像縮放:將圖像沿X軸和Y軸方向進(jìn)行增縮。設(shè)縮放系數(shù)為Zx和Zy,縮放前圖像像素點(diǎn)坐標(biāo)為c(x,y),縮放后像素點(diǎn)坐標(biāo)為c′(x′,y′)。圖像縮放的變換矩陣如下列矩陣所示:
(17)
綜上所述,對均衡化增強(qiáng)均值、噪聲方差、泊松系數(shù)、椒鹽噪聲比和縮放因子進(jìn)行設(shè)定。其中,縮放因子為0.5~2之間隨機(jī)縮放,均衡化增強(qiáng)為50,高斯噪聲方差為0.01,泊松系數(shù)為1,椒鹽噪聲比為0.9。
篩選后將數(shù)據(jù)集擴(kuò)充至1 500張,將其中1 200張圖像作為實(shí)驗(yàn)的訓(xùn)練集,300張作為驗(yàn)證集。
本文網(wǎng)絡(luò)在GPU環(huán)境下運(yùn)行,具體配置見表1。

表1 平臺(tái)硬件與軟件配置
對網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)的訓(xùn)練參數(shù)設(shè)置:初始學(xué)習(xí)率為0.001,Dropout概率為0.75,迭代次數(shù)為60次,選取Adam自適應(yīng)學(xué)習(xí)率算法進(jìn)行參數(shù)優(yōu)化。
2.3.1 識(shí)別準(zhǔn)確率
訓(xùn)練完成后,用測試集對模型進(jìn)行識(shí)別性能的評估。本文選用識(shí)別準(zhǔn)確率(Accuracy,A)對網(wǎng)絡(luò)模型識(shí)別能力進(jìn)行評價(jià)。定義公式如下:
(18)
其中,Gr為正確識(shí)別的個(gè)數(shù),G為測試集總樣本的個(gè)數(shù)。
為了證明TR-VGG-16模型的有效性,將其分別與不同網(wǎng)絡(luò)模型的準(zhǔn)確率進(jìn)行對比,對比結(jié)果見表2。

表2 不同模型對測試樣本識(shí)別準(zhǔn)確率對比
由表2知,文獻(xiàn)[10]所提網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率僅有81.33%,文獻(xiàn)[11]的識(shí)別準(zhǔn)確率雖高于文獻(xiàn)[10],但也僅為89.33%以上,而本文提出TR-VGG-16網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率顯著高于前兩種網(wǎng)絡(luò),其識(shí)別準(zhǔn)確率可以達(dá)到96.33%。
2.3.2 混淆矩陣分析
為了細(xì)化體現(xiàn)各組分的識(shí)別準(zhǔn)確度,選用混淆矩陣對模型識(shí)別結(jié)果進(jìn)行對比,如圖7所示。

圖7 3種網(wǎng)絡(luò)模型的混淆矩陣
如圖7(a)所示,行為實(shí)際類別,列為識(shí)別結(jié)果。從文獻(xiàn)[10]方法的混淆矩陣可以看出:其中13個(gè)鏡質(zhì)組被識(shí)別成殼質(zhì)組,21個(gè)鏡質(zhì)組被識(shí)別成殼質(zhì)組,同時(shí)也有少量的其它組分間出現(xiàn)誤判情況。由圖7(b)可知,文獻(xiàn)[11]也存在著多個(gè)鏡質(zhì)組與殼質(zhì)組樣本間相互誤判的情況。由圖7(c)可知,TR-VGG-16對鏡質(zhì)組的識(shí)別全部正確,僅存在少量絲質(zhì)組和殼質(zhì)組組分間的誤判。因此表明,本文提出的TR-VGG-16網(wǎng)絡(luò)模型具有優(yōu)異的煤巖顯微組分識(shí)別能力。
2.3.3 收斂速度
對將文獻(xiàn)[10]、文獻(xiàn)[11]的網(wǎng)絡(luò)模型與本文方法的收斂性進(jìn)行可視化對比分析,分析結(jié)果如圖8所示。由圖中可見,TR-VGG-16網(wǎng)絡(luò)模型在第10個(gè)周期時(shí)幾近收斂,且其識(shí)別準(zhǔn)確率達(dá)到90%以上,并逐漸穩(wěn)定;而文獻(xiàn)[10]、文獻(xiàn)[11]的網(wǎng)絡(luò)模型較本文網(wǎng)絡(luò)模型相比,同周期準(zhǔn)確率較低且收斂性較差。由此可見,在同等條件下,本文提出的網(wǎng)絡(luò)模型的收斂性和穩(wěn)定性明顯高于其它兩種網(wǎng)絡(luò)模型。

圖8 3種模型收斂性對比
2.3.4 消融實(shí)驗(yàn)
由于TR-VGG-16網(wǎng)絡(luò)是在VGG-16網(wǎng)絡(luò)基礎(chǔ)上,結(jié)合遷移學(xué)習(xí)提出的改進(jìn),其中不僅將VGG-16中傳統(tǒng)卷積層替換成深度可分離卷積,還結(jié)合了Res2Net模塊。為了探究這些模塊的加入對網(wǎng)絡(luò)功能的影響,本文進(jìn)行了消融實(shí)驗(yàn)。
實(shí)驗(yàn)設(shè)定:A1為傳統(tǒng)VGG-16網(wǎng)絡(luò)模型;A2為在A1基礎(chǔ)上進(jìn)行遷移學(xué)習(xí)的VGG-16網(wǎng)絡(luò)模型;A3為將A2預(yù)訓(xùn)練模型VGG-16中的傳統(tǒng)卷積層替換成深度可分離卷積層的網(wǎng)絡(luò)模型;A4為以A3為基礎(chǔ)在預(yù)訓(xùn)練模型中加入1個(gè)Res2Net模塊的網(wǎng)絡(luò)模型,即本文的TR-VGG-16模型;A5為在A4中多加1個(gè)Res2Net模塊的網(wǎng)絡(luò)模型;A6為以A5為基礎(chǔ)再多添加1個(gè)Res2Net模塊的網(wǎng)絡(luò)模型。 不同模型準(zhǔn)確率和參數(shù)減少量對比結(jié)果見表3。

表3 不同模型準(zhǔn)確率和參數(shù)減少量對比
由表3可知,將A1與A2、A3網(wǎng)絡(luò)準(zhǔn)確率進(jìn)行對比,引入遷移學(xué)習(xí)的A2、A3網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率分別為89.33%和90%,均高于A1的70%;由A3與A1、A2的參數(shù)量對比可得,隨著遷移學(xué)習(xí)和深度可分離卷積的引入,網(wǎng)絡(luò)參數(shù)量由原來的138.95 M分別減少至38.72 M和12.65 M。由此可知,遷移學(xué)習(xí)和深度可分離卷積的使用,不僅可以提高網(wǎng)絡(luò)識(shí)別準(zhǔn)確率,相較于傳統(tǒng)VGG-16網(wǎng)絡(luò)還能明顯減少網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量。
為進(jìn)一步證明Res2Net模塊的加入對網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的影響,對加入不同數(shù)量的Res2Net塊的網(wǎng)絡(luò)進(jìn)行準(zhǔn)確率驗(yàn)證。由表3的A3、A4、A5、A6模型可以看出,加入1個(gè)Res2Net模塊時(shí),其網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率最高,達(dá)到96.33%。而隨著加入的Res2Net模塊增多,其識(shí)別率反而大幅度下降。究其原因,由于Res2Net模塊的不斷疊加,使網(wǎng)絡(luò)模型深度加深,網(wǎng)絡(luò)參數(shù)量劇增,訓(xùn)練過程出現(xiàn)過擬合現(xiàn)象,最終導(dǎo)致網(wǎng)絡(luò)識(shí)別準(zhǔn)確率退減。
本文基于改進(jìn)的VGG-16分類網(wǎng)絡(luò)提出一種煤巖顯微組分圖像識(shí)別網(wǎng)絡(luò)模型TR-VGG-16。旨在通過該模型提升對小樣本煤巖顯微圖像組分識(shí)別的準(zhǔn)確度。在實(shí)驗(yàn)中,引入遷移學(xué)習(xí),解決小樣本數(shù)據(jù)集訓(xùn)練問題。通過用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積,用以減少網(wǎng)絡(luò)參數(shù)量。并且將加入Res2Net模塊的數(shù)量對模型識(shí)別準(zhǔn)確率的影響進(jìn)行驗(yàn)證分析。實(shí)驗(yàn)表明,本文方法可以在訓(xùn)練集數(shù)量較小的情況下對組分進(jìn)行準(zhǔn)確識(shí)別,同時(shí)還具有良好的訓(xùn)練穩(wěn)定性。本文方法識(shí)別準(zhǔn)確率為96.33%,其收斂速度較快,且具有穩(wěn)定的識(shí)別準(zhǔn)確率。盡管本文網(wǎng)絡(luò)模型有較好的識(shí)別效果,但因部分不同組分樣本進(jìn)行細(xì)化分類時(shí),存在類別紋理特征相似情況,網(wǎng)絡(luò)缺乏對這類組分細(xì)化辨識(shí)的能力,這種情況對網(wǎng)絡(luò)識(shí)別準(zhǔn)確率存在一定影響,后續(xù)研究可針對這一情況展開。