王一丁,姚 毅,李耀利,蔡少青,袁 媛
1.北方工業(yè)大學(xué) 信息學(xué)院,北京 100144
2.北京大學(xué) 藥學(xué)院,北京 100191
3.中國(guó)中醫(yī)科學(xué)院 中藥資源中心,北京 100700
利用中藥材粉末顯微鑒定的方法對(duì)中藥樣品進(jìn)行鑒別是其質(zhì)量監(jiān)控的一項(xiàng)關(guān)鍵技術(shù),顯微特征包括組織、細(xì)胞及其內(nèi)含物,如木栓組織、結(jié)晶、纖維、淀粉粒、花粉粒、導(dǎo)管、表皮細(xì)胞等。目前,關(guān)于中藥材粉末的顯微特征,有文字描述、墨線圖描繪及彩色照片三種常用的方法,但是這些特征描述和圖像在使用時(shí)多有不便,并且在比較和判斷過(guò)程中常常需要依據(jù)專家的經(jīng)驗(yàn),主觀因素過(guò)多,作為非專家的一般藥學(xué)人員很難勝任利用這些顯微鑒定資料進(jìn)行顯微鑒定的工作。因此,顯微鑒定的應(yīng)用受到了很大的限制。
近年來(lái),隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷發(fā)展以及人工智能的興起,運(yùn)用圖像處理算法、模式識(shí)別技術(shù)進(jìn)行中藥材顯微特征圖像的自動(dòng)識(shí)別的方法和應(yīng)用不斷產(chǎn)生。目前國(guó)內(nèi)已經(jīng)有了一些初步的工作,王亞杰[1]等人運(yùn)用分形分析、小波分析、灰度梯度共生矩陣三種方法來(lái)進(jìn)行特征提取,然后用K-近鄰分類(lèi)方法,得到較高準(zhǔn)確率;李輝等人[2]采用掃描電鏡法和X-射線衍射法獲得了藥用珍珠、混淆品及浙產(chǎn)珍珠粉的掃描電鏡圖,進(jìn)而鑒別真?zhèn)危煌跄偷热薣3]提取了牛膝和川牛膝兩種中藥材拼接橫切面顯微圖像的顏色、紋理等特征,Zscore標(biāo)準(zhǔn)化后進(jìn)行主成分分析,最后識(shí)別采用BP神經(jīng)網(wǎng)絡(luò)。此外,還有研究者運(yùn)用改進(jìn)型雙通道SqueezeNet[4]、RGB-HSV+TAM+MBAM[5]等深度學(xué)習(xí)的方法進(jìn)行了顯微圖像識(shí)別研究,取得了不錯(cuò)的效果。
值得注意的是,目前的中藥材顯微圖像識(shí)別方法都是在相同場(chǎng)景下進(jìn)行研究的,其中訓(xùn)練樣本和測(cè)試樣本都屬于同一個(gè)中藥材顯微圖像數(shù)據(jù)庫(kù)。在這種情況下,可以認(rèn)為測(cè)試集和訓(xùn)練集樣本的特征分布相似。但在實(shí)際應(yīng)用中,中藥材粉末顯微圖像往往是在不同的環(huán)境或不同的設(shè)備下采集的,在這種場(chǎng)景下,訓(xùn)練和測(cè)試的顯微圖像樣本在顏色、形態(tài)和大小等方面會(huì)有一定的不同,這就導(dǎo)致了它們的特征分布會(huì)有差異,識(shí)別方法的效果可能會(huì)大大降低。因此,對(duì)訓(xùn)練樣本和測(cè)試樣本屬于兩個(gè)不同的中藥材粉末顯微圖像數(shù)據(jù)庫(kù)的識(shí)別問(wèn)題進(jìn)行研究是非常值得的。針對(duì)以上問(wèn)題,本文將進(jìn)行3個(gè)方面的工作:(1)在所有中藥材粉末顯微圖像特征中表皮細(xì)胞具有的紋理特征最明顯,視覺(jué)上最容易區(qū)分,因此選用其作為本次實(shí)驗(yàn)的數(shù)據(jù)集進(jìn)行研究;(2)將局部二值模式圖(local binary patterns,LBP)和Canny邊緣檢測(cè)特征圖與RGB圖像進(jìn)行合并為5通道作為網(wǎng)絡(luò)的輸入,擴(kuò)充網(wǎng)絡(luò)輸入端的數(shù)據(jù)寬度,使得網(wǎng)絡(luò)可以學(xué)習(xí)與表達(dá)的東西更加豐富,有利于提高精確度;(3)改進(jìn)了SPP結(jié)構(gòu)并把其嵌入到輕量并且高效的EfficientNet網(wǎng)絡(luò)模型中,增大神經(jīng)網(wǎng)絡(luò)的深度同時(shí)去除冗余信息,通過(guò)更深的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征提取。
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),尤其是在圖像識(shí)別方面卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)十分出色。它主要是由輸入層、卷積層、池化層、全連接層和softmax層組成。卷積神經(jīng)網(wǎng)絡(luò)最早于1989年LeCun等人[6]提出,并用于計(jì)算機(jī)識(shí)別手寫(xiě)數(shù)字圖像;2012年,Krizhevsky與Hinton提出了AlexNet[7],成功采用ReLU作為網(wǎng)絡(luò)激活函數(shù),提出局部響應(yīng)歸一化(local response normalization,LRN)并且首次使用了Dropout層,目的是使一部分神經(jīng)元失活,避免模型過(guò)擬合;2015年,He等人提出了具有殘差連接的ResNet[8]網(wǎng)絡(luò),有效解決了當(dāng)深層神經(jīng)網(wǎng)絡(luò)的深度到達(dá)一定深度后,擬合能力反而更差的問(wèn)題;2017年,谷歌提出了深度可分離卷積(depthwise separable convolution),以此為基礎(chǔ)搭建了輕量化網(wǎng)絡(luò)MobileNet[9],同時(shí)允許用戶修改網(wǎng)絡(luò)寬度與輸入分辨率這兩個(gè)參數(shù),從而適配到不同的應(yīng)用環(huán)境中;2019年,谷歌提出了EfficientNet[10],即用一種新的模型縮放方法對(duì)網(wǎng)絡(luò)深度(depth)、網(wǎng)絡(luò)寬度(width)和輸入圖像分辨率(resolution)三個(gè)維度進(jìn)行合理并高效的搭配,不僅比別的網(wǎng)絡(luò)快很多,而且精度也更高。
考慮到不同批次,不同環(huán)境下采集到的中藥材粉末表皮細(xì)胞顯微圖像本身在形態(tài)上會(huì)有不同,以及其本身具有復(fù)雜紋理的特點(diǎn),選擇特征提取能力強(qiáng)和對(duì)跨庫(kù)數(shù)據(jù)識(shí)別精度高的網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),同時(shí)也考慮到網(wǎng)絡(luò)的識(shí)別速度以及后續(xù)部署等問(wèn)題,需要模型的參數(shù)量不能過(guò)大。綜上本文使用EfficientNet作為對(duì)跨庫(kù)中藥材粉末顯微圖像的基礎(chǔ)分類(lèi)網(wǎng)絡(luò),其運(yùn)用網(wǎng)絡(luò)搜索技術(shù)來(lái)對(duì)網(wǎng)絡(luò)的圖像分辨率、深度以及寬度三個(gè)參數(shù)進(jìn)行搜索,進(jìn)而得出最平衡的搭配,這樣高效的網(wǎng)絡(luò)不僅參數(shù)量小而且可以很好地學(xué)習(xí)到圖像的深層語(yǔ)義信息,因此對(duì)于分類(lèi)任務(wù)來(lái)講更具有魯棒性。
EfficentNet是由多個(gè)MBConv模塊構(gòu)成的,MBConv中包含深度可分離卷積、Swish激活函數(shù)以及Dropout層,并將注意力機(jī)制嵌入到模塊中,其結(jié)構(gòu)如圖1所示。

圖1 MBConv結(jié)構(gòu)圖Fig.1 MBConv schematic diagram
EfficientNet-B0的網(wǎng)絡(luò)框架總共分成了9個(gè)模塊,第1個(gè)模塊就是一個(gè)卷積核大小為3×3步距為2的普通卷積層,第2~8個(gè)模塊都是在重復(fù)堆疊MBConv結(jié)構(gòu),而第9個(gè)模塊由普通的1×1的卷積層、平均池化層和全連接層組成。B1~B7的網(wǎng)絡(luò)結(jié)構(gòu)就是在B0的基礎(chǔ)上修改圖像的輸入分辨率、特征層的通道數(shù)以及卷積層數(shù)。由于EfficientNet共有8種結(jié)構(gòu),為了選出最優(yōu)結(jié)構(gòu)作為跨庫(kù)中藥材粉末顯微圖像的基礎(chǔ)網(wǎng)絡(luò),以RGB原圖作為輸入圖像做8組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。經(jīng)對(duì)比后發(fā)現(xiàn),EfficientNet-B2分類(lèi)效果最好,因此選用其作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行下一步的工作。

表1 EfficientNet B0~B7網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)結(jié)果Table 1 EfficientNet B0~B7 network comparison experiment results
在跨庫(kù)圖像識(shí)別任務(wù)中,由于圖像的分辨率、亮度、顏色等差異的干擾,單純的RGB圖像不能充分地讓網(wǎng)絡(luò)學(xué)習(xí)到兩個(gè)庫(kù)中同種中藥材顯微圖像所具有的共同特征。經(jīng)過(guò)分析發(fā)現(xiàn),不同庫(kù)中同種中藥材顯微特征圖像的紋理分布是相同的,利用這個(gè)特點(diǎn)可以幫助網(wǎng)絡(luò)更好地對(duì)數(shù)據(jù)進(jìn)行識(shí)別。因此本文首先將RGB圖像與不同的特征圖進(jìn)行融合,形成大于三通道的圖像數(shù)據(jù)送入分類(lèi)網(wǎng)絡(luò)中,目的是在訓(xùn)練過(guò)程中擴(kuò)充輸入數(shù)據(jù)的寬度來(lái)提供更豐富的數(shù)據(jù)信息,進(jìn)而提升跨庫(kù)數(shù)據(jù)分類(lèi)效果;其次,網(wǎng)絡(luò)對(duì)于增加的特征信息會(huì)出現(xiàn)處理瓶頸的問(wèn)題,因而會(huì)丟失部分信息,而SPP結(jié)構(gòu)具有的從不同角度進(jìn)行特征提取,之后再聚合的特點(diǎn)可以很好地解決瓶頸問(wèn)題,因此將SPP結(jié)構(gòu)進(jìn)行改進(jìn)(D-SPP)嵌入到網(wǎng)絡(luò)結(jié)構(gòu)中增加網(wǎng)絡(luò)的深度進(jìn)而應(yīng)對(duì)增加的特征紋理信息。改進(jìn)后的模型結(jié)構(gòu)如圖2所示,由于增加了卷積操作,會(huì)使得網(wǎng)絡(luò)的參數(shù)量有所上升,改進(jìn)前后的模型參數(shù)量如表2所示。

圖2 改進(jìn)后的EfficientNet-B2結(jié)構(gòu)Fig.2 Improved EfficientNet-B2 network architecture

表2 改進(jìn)前后網(wǎng)絡(luò)參數(shù)量對(duì)比Table 2 Comparison of network parameters before and after improvement
為了更好地研究多通道融合的方法,本文選取了多種特征圖作為備選,所選取的特征有:LBP、Canny、HOG以及Gabor。首先將每一個(gè)特征圖分別與RGB圖像融合形成四通道圖像送入網(wǎng)絡(luò)訓(xùn)練,實(shí)驗(yàn)結(jié)果如表3所示。

表3 四通道圖像實(shí)驗(yàn)對(duì)比結(jié)果Table 3 Four-channel image experiment comparison results
由表3可知,相較于原始分類(lèi)網(wǎng)絡(luò)采用的單一的RGB圖像作為輸入,融合了特征圖的數(shù)據(jù)由于擁有更豐富的語(yǔ)義信息,因此使得網(wǎng)絡(luò)識(shí)別率更高。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,結(jié)合了Gabor特征圖的效果最好準(zhǔn)確率達(dá)到了79.5%。接下來(lái)選取四種特征圖中的兩種與原圖進(jìn)行融合形成五通道圖像輸入網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表4所示。

表4 五通道圖像實(shí)驗(yàn)對(duì)比結(jié)果Table 4 Five-channel image experiment comparison results
由表4可知,相較于四通道圖像,五通道圖像由于融合了更多的信息,識(shí)別效果也有所提高,而RGB+LBP+Canny這種組合方式準(zhǔn)確率最高,達(dá)到了79.8%。接下來(lái)在四種特征圖中選取三種與原圖進(jìn)行融合形成六通道圖像輸入網(wǎng)絡(luò),之后再將四種特征全部與原圖進(jìn)行融合形成七通道圖像輸入網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

表5 六通道和七通道圖像實(shí)驗(yàn)對(duì)比結(jié)果Table 5 Comparison results of six-channel and seven-channel image experiments
由表5可知,相較于五通道圖像,六通道和七通道圖像并沒(méi)有在識(shí)別效果上有所提高,反而準(zhǔn)確率有所降低,是因?yàn)殡S著通道數(shù)的增加雖然會(huì)使得語(yǔ)義信息越來(lái)越豐富,但是也會(huì)使得噪聲、冗余信息越來(lái)越多,減弱神經(jīng)網(wǎng)絡(luò)對(duì)有用信息的判斷能力。通過(guò)以上三個(gè)實(shí)驗(yàn)結(jié)果可以看出,當(dāng)特征圖組合方式為RGB+LBP+Canny的效果是最好的,說(shuō)明LBP特征圖和Canny邊緣檢測(cè)兩種特征圖的組合更有助于豐富并且突出圖像的紋理信息,從而提升網(wǎng)絡(luò)跨庫(kù)識(shí)別能力。
2.1.1 局部二值模式(LBP image)
局部二值模式是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)非常有效的紋理描述特征,具有很多優(yōu)點(diǎn),比如旋轉(zhuǎn)不變性、平移不變性以及可以消除光照變化的問(wèn)題等,具體原理是,以3×3為窗口單位,若周?chē)袼刂荡笥谥行南袼刂担瑒t該像素點(diǎn)標(biāo)記為1,否則標(biāo)記為0,之后對(duì)鄰域像素進(jìn)行二進(jìn)制化,將所得的值與二值序列對(duì)應(yīng)相乘后相加即可得到中心像素的LBP值,具體過(guò)程是:

式中,s0為中心點(diǎn)像素的灰度值,s i(i=1,2,…,8)為領(lǐng)域像素的灰度值,K為將中心像素與鄰域像素的灰度值進(jìn)行比較得到的二值序列。中藥材粉末表皮細(xì)胞顯微圖像不同數(shù)據(jù)庫(kù)之間的原圖樣本和對(duì)應(yīng)的LBP特征圖如圖3和圖4所示,其中(a)和(b)分別代表丁香表皮細(xì)胞和砂仁表皮細(xì)胞,且每一個(gè)種類(lèi)左邊為庫(kù)1右邊為庫(kù)2。
通過(guò)圖3和圖4可以看出,丁香的表皮細(xì)胞具有塊狀的紋理特點(diǎn),而砂仁的表皮細(xì)胞具有條紋狀的紋理特點(diǎn),這些都能在LBP特征圖上很好地顯示出來(lái),因此可以作為區(qū)分不同種類(lèi)表皮細(xì)胞的依據(jù)使得網(wǎng)絡(luò)更能充分學(xué)習(xí)到不同類(lèi)的紋理信息。

圖3 表皮細(xì)胞顯微圖像1庫(kù)和2庫(kù)樣本1的示例Fig.3 Examples of sample 1 in library 1 and library 2 of epidermal cell microscopic images

圖4 表皮細(xì)胞顯微圖像1庫(kù)和2庫(kù)樣本的LBP特征圖Fig.4 LBP feature maps of samples in epidermal cell microscopic image in library 1 and library 2
2.1.2 Canny邊緣檢測(cè)(Canny image)
1986年Canny提出了Canny算子,Canny算子有三個(gè)規(guī)范,即邊緣點(diǎn)被誤報(bào)的概率低、檢測(cè)到的邊緣點(diǎn)盡可能位于真實(shí)邊緣的中心和單邊只有一個(gè)響應(yīng)。具體步驟是:
(1)高斯濾波:對(duì)圖像進(jìn)行降噪處理,增大邊緣的寬度。

式中,f(m,n)為原圖經(jīng)過(guò)灰度化之后位置在(m,n)像素點(diǎn)的灰度值,g(m,n)為經(jīng)過(guò)高斯濾波之后位置在(m,n)像素點(diǎn)的灰度值。
(2)計(jì)算梯度值和梯度方向:圖像梯度可以用來(lái)表示灰度值的變化程度和方向,因此可以看出來(lái)哪些像素點(diǎn)灰度值變化是最大的。

式中,g x(m,n)表示像素點(diǎn)在X方向上的梯度值,g y(m,n)表示像素點(diǎn)在Y方向上的梯度值。
(3)非極大值抑制:過(guò)濾不是邊緣的點(diǎn),使邊緣的寬度盡可能為1個(gè)像素點(diǎn)。原則是如果像素點(diǎn)在梯度方向上的梯度值是最大的,則為邊緣點(diǎn),否則不是邊緣,將灰度值設(shè)為0。
(4)雙閾值檢測(cè):通過(guò)第三步之后,仍然有很多可能的邊緣點(diǎn),進(jìn)一步設(shè)置像素的兩個(gè)閾值,即低閾值和高閾值,灰度變化大于高閾值的,設(shè)置為強(qiáng)邊緣,低于低閾值的,剔除掉。對(duì)于中間的像素點(diǎn),如果與確定為邊緣的像素點(diǎn)鄰接,則判定為邊緣;否則為非邊緣。
中藥材粉末表皮細(xì)胞顯微圖像不同數(shù)據(jù)庫(kù)之間的原圖樣本和對(duì)應(yīng)的Canny邊緣檢測(cè)特征圖如圖5和6所示,其中(a)和(b)分別代表丁香表皮細(xì)胞和砂仁表皮細(xì)胞,且每一個(gè)種類(lèi)左邊為庫(kù)1右邊為庫(kù)2。

圖5 表皮細(xì)胞顯微圖像1庫(kù)和2庫(kù)樣本2的示例Fig.5 Examples of sample 2 in library 1 and library 2 of epidermal cell microscopic images

圖6 表皮細(xì)胞顯微圖像庫(kù)1和庫(kù)2樣本的Canny特征圖Fig.6 Canny feature maps of samples in epidermal cell microscopic image in library 1 and library 2
通過(guò)以上兩幅圖可以看出,Canny邊緣檢測(cè)方法能夠很好地檢測(cè)出丁香表皮細(xì)胞的塊狀紋理和砂仁表皮細(xì)胞的條紋狀紋理,因此可以和LBP特征圖一起輔助網(wǎng)絡(luò)充分學(xué)習(xí)到圖像的紋理信息,進(jìn)而更好地區(qū)分不同種類(lèi)表皮細(xì)胞。
SPP-Net[11]是一種可以不用考慮圖像大小,輸出圖像固定長(zhǎng)度網(wǎng)絡(luò)結(jié)構(gòu),并且可以做到在圖像變形情況下表現(xiàn)穩(wěn)定,在圖像分類(lèi)和檢測(cè)領(lǐng)域有著非常廣泛的應(yīng)用。YOLOv4[12]目標(biāo)檢測(cè)算法在特征提取網(wǎng)絡(luò)后加入了SPP模塊,結(jié)構(gòu)如圖7所示,其主要是通過(guò)使用不同大小內(nèi)核的最大池化層得到特征圖局部區(qū)域感受野和接近全局的感受野信息,并進(jìn)行特征融合。這種融合不同尺度感受野的操作能有效豐富特征圖的表達(dá)能力,增加網(wǎng)絡(luò)的深度進(jìn)而增強(qiáng)網(wǎng)絡(luò)輸出特征的接受范圍,能夠更有效地應(yīng)對(duì)由于增加的特征信息網(wǎng)絡(luò)所出現(xiàn)的處理瓶頸問(wèn)題。

圖7 YOLOv4算法中SPP模塊結(jié)構(gòu)圖Fig.7 SPP module structure diagram in YOLOv4
具體操作是:輸入的特征圖通過(guò)一個(gè)卷積層后,分別經(jīng)過(guò)5×5、9×9、13×13三個(gè)不同尺寸的池化核做最大池化處理,再通過(guò)concat操作將得到的特征圖進(jìn)行通道的拼接,輸出的通道數(shù)變?yōu)樵ǖ罃?shù)的2倍,上述過(guò)程可表示為:

式中,E0∈R(N,W,H,C)為輸入特征圖,E1∈R(N,W,H,1/2C)為原特征圖經(jīng)過(guò)1×1卷積之后的結(jié)果,E2,E3,E4∈R(N,W,H,1/2C)為E1分別經(jīng)過(guò)5×5、9×9、13×13三個(gè)不同尺寸內(nèi)核做最大池化處理之后的特征圖,E5∈R(N,W,H,2C)為將E1、E2、E3、E4四個(gè)特征圖拼接的結(jié)果。
經(jīng)過(guò)分析,雖然上述結(jié)構(gòu)可以有效地提取圖像特征,但是由于其最后輸出的通道數(shù)是原特征圖的2倍,之后還需要進(jìn)行通道數(shù)調(diào)整操作,對(duì)于計(jì)算機(jī)來(lái)說(shuō)有不小的計(jì)算壓力,而且由于通道數(shù)增多特征圖的冗余信息也會(huì)增多。因此本文對(duì)SPP結(jié)構(gòu)進(jìn)行改進(jìn),將經(jīng)過(guò)三個(gè)不同的池化核之后的特征圖先進(jìn)行連接,然后通過(guò)1×1卷積恢復(fù)為原通道數(shù),再與輸入特征圖相加,改進(jìn)后的SPP結(jié)構(gòu)(D-SPP)如圖8所示。

圖8 改進(jìn)后的SPP模塊結(jié)構(gòu)圖Fig.8 Structure diagram of improved SPP module
這樣的結(jié)構(gòu)輸出通道數(shù)與原特征圖通道數(shù)相同,對(duì)于網(wǎng)絡(luò)的后續(xù)操作既減小了計(jì)算量又沒(méi)有破壞掉原特征圖的信息,而且還可以起到去除冗余信息的作用。上述過(guò)程可表示為:

式中,D0∈R(N,W,H,C)為輸入特征圖,D1∈R(N,W,H,1/2C)為原特征圖經(jīng)過(guò)1×1卷積之后的結(jié)果,D2,D3,D4∈R(N,W,H,1/2C)為D1分別經(jīng)過(guò)n1、n2、n3三個(gè)不同尺寸池化核處理之后的特征圖,D5∈R(N,W,H,C)為先將D2、D3、D4四個(gè)特征圖拼接,經(jīng)過(guò)1×1卷積調(diào)整通道數(shù)之后再與原特征圖相加的結(jié)果。
為了選取D-SPP結(jié)構(gòu)中的三種池化核大小的最優(yōu)搭配,將大小分別為3、5、7、9、13的池化核作為備選項(xiàng),進(jìn)行十組對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6所示。經(jīng)實(shí)驗(yàn)對(duì)比后發(fā)現(xiàn),池化核n1大小為3,池化核n2大小為7,池化核n3大小為9時(shí)分類(lèi)效果最好,因此D-SPP結(jié)構(gòu)采用最優(yōu)的池化核組合方式。

表6 不同池化核大小對(duì)比實(shí)驗(yàn)結(jié)果Table 6 Results of different pooling kernel size comparison experiments
將SPP結(jié)構(gòu)和D-SPP結(jié)構(gòu)分別嵌入到網(wǎng)絡(luò)中進(jìn)行對(duì)比實(shí)驗(yàn),輸入為RGB+LBP+Canny五通道圖像,并記錄訓(xùn)練過(guò)程總共100個(gè)epoch中的平均單epoch所用的時(shí)間,結(jié)果如表7所示。

表7 SPP模塊對(duì)比實(shí)驗(yàn)結(jié)果Table 7 Comparison experiment results of SPP module
從結(jié)果可以看出,將改進(jìn)的SPP模塊加入到網(wǎng)絡(luò)中雖然比原始EfficientnetB2增加了一部分訓(xùn)練時(shí)間,但是相比于改進(jìn)之前SPP結(jié)構(gòu)由于去除掉了冗余信息,單epoch訓(xùn)練時(shí)間縮短了13 s,這極大提升了訓(xùn)練的效率,而在準(zhǔn)確率方面,改進(jìn)后的SPP結(jié)構(gòu)相較于原始結(jié)構(gòu)準(zhǔn)確率提升了1.7個(gè)百分點(diǎn),比加入改進(jìn)前的SPP結(jié)構(gòu)準(zhǔn)確率提升了0.6個(gè)百分點(diǎn)。
實(shí)驗(yàn)的訓(xùn)練和測(cè)試環(huán)境為Windows操作系統(tǒng),使用Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn)模型算法。實(shí)驗(yàn)電腦CPU型號(hào)為intel至強(qiáng)E5,Nvidia GTX1080Ti顯卡,16 GB內(nèi)存,在集成開(kāi)發(fā)環(huán)境PyCharm中使用Python3.7語(yǔ)言來(lái)開(kāi)發(fā)。
實(shí)驗(yàn)使用的中藥材粉末顯微表皮細(xì)胞特征圖像數(shù)據(jù)集一共有1 198張圖片,其中1庫(kù)有809張圖片,2庫(kù)有389張圖片,兩個(gè)庫(kù)中數(shù)據(jù)均為26種,類(lèi)別均相同且為不同時(shí)間和環(huán)境下采集的中藥材顯微圖像。圖9和圖10展示了一些樣本數(shù)據(jù),可以看到,1庫(kù)和2庫(kù)種屬于同一類(lèi)別的數(shù)據(jù)在形態(tài),亮度,顏色等方面均有差異。選用1庫(kù)數(shù)據(jù)集中90%(728張)的圖片作為訓(xùn)練集,剩下10%(81張)作為驗(yàn)證集,2庫(kù)數(shù)據(jù)集中的圖片均作為測(cè)試集,來(lái)對(duì)模型進(jìn)行最后的驗(yàn)證。

圖9 表皮細(xì)胞1庫(kù)樣本圖Fig.9 Sample maps of epidermal cell in library 1

圖10 表皮細(xì)胞2庫(kù)樣本圖Fig.10 Sample maps of epidermal cell in library 2
為了網(wǎng)絡(luò)能夠更好地訓(xùn)練圖片,首先將輸入圖像統(tǒng)一調(diào)整到260×260大小,然后再將圖片所有的像素值除以255,歸一化到0~1之間,將訓(xùn)練集進(jìn)行隨機(jī)打亂,驗(yàn)證集和測(cè)試集均保持不變。選擇Adam作為模型參數(shù)優(yōu)化器,每一個(gè)批次訓(xùn)練16張圖片,損失函數(shù)采用softmax交叉熵?fù)p失函數(shù);訓(xùn)練周期為100輪;學(xué)習(xí)率的更新采用隨epoch增大階段性減小的策略,如圖11所示,初始學(xué)習(xí)率設(shè)置為0.01,此后每經(jīng)過(guò)20個(gè)epoch學(xué)習(xí)率縮減為原來(lái)的0.5,以此類(lèi)推。為了防止在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合現(xiàn)象,將使用圖像增強(qiáng)方法,即對(duì)訓(xùn)練圖像進(jìn)行水平翻轉(zhuǎn)和隨機(jī)角度旋轉(zhuǎn)。原始訓(xùn)練集一共有728張圖片,在通過(guò)過(guò)數(shù)據(jù)增強(qiáng)進(jìn)行數(shù)據(jù)擴(kuò)充后,訓(xùn)練集數(shù)量達(dá)到1 529張,是原始訓(xùn)練集的2.1倍。

圖11 學(xué)習(xí)率函數(shù)Fig.11 Learning rate function
為了驗(yàn)證所提模型的有效性,以及對(duì)跨庫(kù)中藥材粉末表皮細(xì)胞顯微圖像識(shí)別的魯棒性,將此模型與目前一些比較常用的分類(lèi)網(wǎng)絡(luò)模型做對(duì)比實(shí)驗(yàn),輸入為RGB+LBP+Canny五通道圖像,模型訓(xùn)練方法均與3.2節(jié)中所描述的方法相同,實(shí)驗(yàn)結(jié)果如表8所示。
從表8可以看出,本文所提出的方法針對(duì)26種不同庫(kù)的中藥材粉末表皮細(xì)胞顯微圖像數(shù)據(jù)集上取得了良好的效果,相比較于Xception網(wǎng)絡(luò)準(zhǔn)確率提高了3.1個(gè)百分點(diǎn),損失值減少了0.17,根據(jù)最開(kāi)始表1的數(shù)據(jù)可以看出相較于改進(jìn)之前的EfficientNet-B2準(zhǔn)確率提升了2.7個(gè)百分點(diǎn),損失值減少了0.17。為了進(jìn)一步說(shuō)明本文方法相較于其他圖像分類(lèi)方法的優(yōu)勢(shì),將使用ROC曲線來(lái)對(duì)模型的性能進(jìn)行可視化,ROC曲線可以很容易地查出一個(gè)分類(lèi)器在某個(gè)閾值時(shí)對(duì)樣本的識(shí)別能力,曲線越靠近左上角,即靈敏度越高,誤判率越低,分類(lèi)性能越好。如圖12所示,本文提出的方法其靈敏度和特異度之和最大,因此在實(shí)驗(yàn)中能夠取得優(yōu)于其他方法的效果。

表8 不同卷積神經(jīng)網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)結(jié)果Table 8 Comparative experimental results of different convolutional neural networks

圖12 不同模型在測(cè)試集上的ROC曲線和AUC值Fig.12 Performance of each CNN model on test set
通過(guò)對(duì)比六組實(shí)驗(yàn)的訓(xùn)練準(zhǔn)確率折線圖,可以發(fā)現(xiàn)RGB-LBP-Canny+D-SPP的方法在訓(xùn)練過(guò)程中收斂速度最快,70輪之后準(zhǔn)確率逐漸達(dá)到平穩(wěn)狀態(tài),最后的準(zhǔn)確率也是最高的。從曲線來(lái)看整個(gè)訓(xùn)練過(guò)程相比于其他方法更加的穩(wěn)定,沒(méi)有大幅度的波動(dòng)狀態(tài),訓(xùn)練準(zhǔn)確率折線圖如圖13所示。

圖13 訓(xùn)練準(zhǔn)確率折線圖Fig.13 Training accuracy line chart
并且為了充分驗(yàn)證所提出算法的有效性,本文將采用控制變量法與文獻(xiàn)[4]和文獻(xiàn)[5]所提出的方法進(jìn)行對(duì)比實(shí)驗(yàn),即采用文獻(xiàn)中所使用的導(dǎo)管顯微特征圖像分類(lèi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果與對(duì)應(yīng)文獻(xiàn)方法的結(jié)果進(jìn)行對(duì)比。文獻(xiàn)[4]采用15種中藥材導(dǎo)管顯微圖像,數(shù)據(jù)集包含4 568張圖片,其中訓(xùn)練集共3 928張圖片,測(cè)試集共640張圖片,實(shí)驗(yàn)結(jié)果如表9所示。

表9 不同分類(lèi)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)結(jié)果1Table 9 Comparison experimental resultsⅠof different classification networks
文獻(xiàn)[5]采用34種中藥材導(dǎo)管顯微圖像,數(shù)據(jù)集包含8 774張圖片,其中訓(xùn)練集包含7 986張圖片,驗(yàn)證集包含798張圖片,測(cè)試集包含788張圖片;實(shí)驗(yàn)結(jié)果如表10所示。

表10 不同分類(lèi)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)結(jié)果2Table 10 Comparison experimental resultsⅡof different classification networks
由表9和表10得出,本文所提出算法在使用導(dǎo)管顯微圖像數(shù)據(jù)集的情況下識(shí)別效果也比較不錯(cuò),可以看到相較于文獻(xiàn)[4],本文方法在其測(cè)試集準(zhǔn)確率上提高了5.2個(gè)百分點(diǎn);相較于文獻(xiàn)[5],本文方法在其測(cè)試集準(zhǔn)確率上提高了0.8個(gè)百分點(diǎn),結(jié)果證明了本文方法不僅適合解決跨庫(kù)中藥材粉末表皮細(xì)胞顯微圖像的分類(lèi)問(wèn)題,還可以解決類(lèi)似中藥材粉末顯微特征細(xì)胞的識(shí)別問(wèn)題。
經(jīng)過(guò)分析,針對(duì)中藥材粉末表皮細(xì)胞顯微圖像跨庫(kù)識(shí)別問(wèn)題提出了一種改進(jìn)型EfficientNet模型,首先將局部二值模式圖和Canny邊緣檢測(cè)特征圖與原RGB圖像合并,形成5通道圖像送入網(wǎng)絡(luò)豐富紋理信息,其次將改進(jìn)的SPP模塊嵌入到網(wǎng)絡(luò)中增強(qiáng)特征提取的同時(shí)去除冗余信息。經(jīng)實(shí)驗(yàn)證實(shí),所提方法對(duì)于跨庫(kù)識(shí)別問(wèn)題具有一定的有效性,識(shí)別率達(dá)到了81.5%,相比較于改進(jìn)之前提升了2.7個(gè)百分點(diǎn)。接下來(lái)的工作本文將考慮如何在不增加參數(shù)量的情況下也能獲得比較高的識(shí)別率,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行進(jìn)一步優(yōu)化,在保證精度的同時(shí)加快模型的識(shí)別速度。