999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進稠密膠囊網(wǎng)絡模型的植物識別方法

2020-06-04 01:06:16溫長吉張笑然劉淑艷于合龍
農(nóng)業(yè)工程學報 2020年8期
關鍵詞:植物特征模型

溫長吉,婁 月,張笑然,楊 策,劉淑艷,于合龍

基于改進稠密膠囊網(wǎng)絡模型的植物識別方法

溫長吉1,3,婁 月1,張笑然1,楊 策3,劉淑艷2,4,于合龍1※

(1. 吉林農(nóng)業(yè)大學信息技術學院,長春 130118; 2. 吉林農(nóng)業(yè)大學植物保護學院,長春 130118;3. 明尼蘇達大學食品、農(nóng)業(yè)與自然資源科學學院,美國圣保羅 55108; 4. 吉林農(nóng)業(yè)大學食藥用菌教育部工程研究中心,長春 130118)

植物識別意義重大,但是由于植物種類繁多,規(guī)模數(shù)據(jù)集標注和構建困難,因此植物物種識別作為精細分類任務仍然面臨巨大挑戰(zhàn)。該研究提出一種改進稠密膠囊網(wǎng)絡模型用于植物物種識別。首先,在網(wǎng)絡初始端引入自注意力層,通過增加特征圖中待識別區(qū)域的特征權值以降低背景信息對于識別任務的干擾。其次,在改進模型膠囊層間使用局部約束動態(tài)路由算法,實現(xiàn)局部區(qū)域內(nèi)膠囊路由選擇和轉換矩陣共享機制,降低網(wǎng)絡參數(shù)規(guī)模,減小網(wǎng)絡訓練學習計算負載。在試驗數(shù)據(jù)集上計算結果表明,當輸入圖片尺度為32×32像素時,該研究模型平均識別準確率為77.2%,參數(shù)規(guī)模僅為1.8 M。當輸入圖片尺度為227×227像素時,該研究模型平均識別準確率為95.1%,參數(shù)規(guī)模僅為5.2 M。試驗結果表明提出的改進稠密膠囊網(wǎng)絡模型在識別分類和降低模型參數(shù)規(guī)模上均有大幅提升。

植物;機器視覺;模型;膠囊網(wǎng)絡;自注意力機制;動態(tài)路由算法;深度學習

0 引 言

植物是生命的主要形態(tài)之一,據(jù)估算現(xiàn)存大約有310 000至420 000已知和未知植物物種。陸生植物和藻類所行使的光合作用幾乎是所有的生態(tài)系中能源及有機物質(zhì)的最初來源,因此植物在大多數(shù)的陸地生態(tài)系中屬于生產(chǎn)者,構建食物鏈的底層基礎,許多動物以植物作為其居所、氧氣和食物的提供者。但是伴隨人類活動加劇和自然環(huán)境不斷惡化,越來越多的植物瀕臨滅絕,據(jù)不完全統(tǒng)計約有22%的植物種類處于瀕危狀態(tài)[1]。植物等生物種類識別在維護植物物種多樣性,了解植物的生長特性、地理分布,構建生物種群多樣性數(shù)據(jù)庫,實現(xiàn)植物資源的合理開發(fā)與利用尤為迫切和必要。植物識別一般根據(jù)植物的花、果實、葉等器官的形態(tài)、紋理、顏色等特征完成識別分類工作。傳統(tǒng)的植物識別方法要求操作者擁有扎實的專業(yè)知識,譬如植物學家和園藝工人,但是對于復雜多樣的生態(tài)系統(tǒng),用于植物識別的信息獲取往往較為零散、不充分且不完整,并且識別過程存在工作量大,人為主觀性強等因素,因此植物識別分類成為一項非常困難的任務。

近些年,圖像分析和機器視覺技術飛速發(fā)展,在工業(yè)等領域得到成功應用,為相關技術在農(nóng)業(yè)等領域的應用奠定堅實的理論和技術基礎[2-7]。機器視覺技術應用于植物物種的自動識別成為研究熱點,一定程度上解決了人工識別主觀性強工作量較大的問題,對植物識別分類的研究主要集中在植物葉片圖像的識別方法上[8-13]。Guyer等[8-9]提出使用從葉片邊界的關鍵點(如沿邊界的角度位置和/或植物/樹葉質(zhì)心的局部極大值和極小值)等樹葉形狀特征用于葉片識別分類。Shearer和Holmes[10]提出了一種基于冠層剖面顏色紋理特征的植物識別方法,通過計算顏色屬性的強度、飽和度和色調(diào)對應的共生矩陣,構建顏色紋理特征建立判別分析模型用于植物識別。張善文等[11-13]在植物識別領域開展系列研究,通過對植物葉片利用小波變換提取植物葉片特征,通過局部信息和類別信息構造的類間散度矩陣和類內(nèi)散度矩陣進行差異化特征描述,利用樣本的局部信息、分類概率和類別信息定義權重矩陣構建目標函數(shù),實現(xiàn)植物的分類識別,在公開植物葉片圖像影像庫上取得90%以上較高的識別結果。

深度學習是近年來發(fā)展起來的圖像處理和數(shù)據(jù)分析技術,通過構建深層網(wǎng)絡結構實現(xiàn)多層次特征端到端自動學習,Krizhevsky等[14]提出的AlexNet在大規(guī)模圖片分類識別公開庫(ImageNet)針對傳統(tǒng)視覺技術取得突破性進展,此后在此基礎上更多更深的深度學習網(wǎng)絡結構被提出,譬如VGG[15],GoogLeNet[16]和DenseNet[17]等,并在植物識別領域得到廣泛關注和應用[18-26]。Reyes等[19]嘗試使用180萬幅圖像預訓練卷積神經(jīng)網(wǎng)絡,然后采用對網(wǎng)絡參數(shù)微調(diào)的策略用于植物識別分類。Grinblat等[20]嘗試提出利用深卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)識別植物葉片的葉脈紋理模式從而實現(xiàn)植物識別分類,并應用于白豆、紅豆和大豆3種豆科植物分類。Dyrmann等[21]提出利用卷積神經(jīng)網(wǎng)絡識別彩色圖像中植物物種,在總共10 413幅圖像(野外手持相機拍攝)訓練和測試,其中包含22種處于早期生長階段的雜草和作物,識別準確率達到86.2%。Lee等[22]嘗試利用CNN從輸入葉片影像數(shù)據(jù)中學習有效的葉特征,利用反卷積網(wǎng)絡對所選特征進行直觀性解釋,發(fā)現(xiàn)相比于葉片的輪廓特征,葉片葉脈的紋理特征對于描述和區(qū)分葉片種類更具代表性,并利用篩選的有效特征用于植物物種識別分類。在深度網(wǎng)絡模型的應用過程中,訓練包含數(shù)百萬參數(shù)的深層神經(jīng)網(wǎng)絡需要數(shù)以百萬計樣本的海量數(shù)據(jù),對比工業(yè)化海量數(shù)據(jù)采集和規(guī)模化數(shù)據(jù)集構建,農(nóng)業(yè)領域數(shù)據(jù)采集和海量規(guī)模化數(shù)據(jù)集構建限制深度網(wǎng)絡模型在領域內(nèi)的應用,因此Nguyen等[23]、Ghazi等[24]、鄭一力和張露[25]借鑒遷移學習中模型遷移思想,首先將經(jīng)典深度模型AlexNet、GoogLeNet、VGGNet和Inception V3等在ImageNet大型圖像庫上進行預訓練獲得海量圖像訓練下的普適特征網(wǎng)絡模型,然后將預訓練網(wǎng)絡應用于目標數(shù)據(jù)庫實現(xiàn)模型參數(shù)在目標庫上的微調(diào),在一定程度上解決訓練樣本不足的問題,上述遷移訓練模型分別在花卉數(shù)據(jù)集和葉片數(shù)據(jù)集上用于植物物種的識別分類。王生生等[26]提出一種自適應積節(jié)點結構學習,并利用貝葉斯矩匹配更新網(wǎng)絡參數(shù)的改進和積網(wǎng)絡模型,應用于無人機拍攝圖像中的雜草識別。

在針對深度神經(jīng)網(wǎng)絡的應用過程中,研究者發(fā)現(xiàn)更深的網(wǎng)絡結構盡管可以提升網(wǎng)絡性能,但是模型將更加復雜,大量參數(shù)和超參數(shù)需要調(diào)整,網(wǎng)絡需要更加龐大的數(shù)據(jù)集用于優(yōu)化學習[27-28]。另外傳統(tǒng)深度神經(jīng)網(wǎng)絡(如深度卷積神經(jīng)網(wǎng)絡、CNN等)層與層的信息路徑傳遞方式最常見的是池化操作(平均池和最大池等),然而簡單的池化操作容易造成區(qū)域目標位置姿態(tài)等重要空間位置信息的丟失,同時由于池化操作帶來的有限平移不變性同樣造成待識別目標區(qū)域的空間關系特征的丟失[29-30]。為了解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡無法準確反映其內(nèi)部特征層次關系的問題,Hinton等[31]提出膠囊網(wǎng)絡(Capsule Network,CapsNet)這一顛覆性概念和網(wǎng)絡模型,并于2017年Hinton和他的學生Sabour等[32]共同提出了基于動態(tài)路由算法的膠囊網(wǎng)絡模型,其基本思想是利用多個神經(jīng)元組建的膠囊作為單元取代傳統(tǒng)神經(jīng)網(wǎng)絡中單個神經(jīng)元,通過對位置、比例、方向和形狀等空間關系和圖像自身屬性信息進行編碼,因此對目標個體特征的描述和表示具有較為豐富的判別信息,更好的實現(xiàn)對于數(shù)據(jù)的理解和表示。同時膠囊網(wǎng)絡模型匹配動態(tài)路由算法,提升網(wǎng)絡對視角的平移不變性,通過單元的結構化設計也使得網(wǎng)絡更好的理解數(shù)據(jù)。由于膠囊網(wǎng)絡對比傳統(tǒng)網(wǎng)絡的優(yōu)勢,該網(wǎng)絡及其改進模型已經(jīng)被應用到多個任務領域,Jaiswal等[33]提出生成對抗膠囊網(wǎng)絡(Capsule GAN),即針對生成對抗網(wǎng)絡結構(Generative Adversarial Network,GAN)的判別器使用膠囊網(wǎng)絡替代原有的CNN結構,同時使用膠囊網(wǎng)絡的間隔損失函數(shù)構建GAN的目標函數(shù),生成對抗膠囊網(wǎng)絡在MNIST和CIFAR-10公開庫上用于半監(jiān)督分類取得較好的結果。Xiang等[34]提出一種兩階段多尺度膠囊網(wǎng)絡(Multi-Scale Capsule Network,MS-CapsNet),將深度卷積結構思想引入到經(jīng)典膠囊網(wǎng)絡,使用多層小尺度卷積核來減少可訓練參數(shù)的數(shù)目,然后利用高維膠囊對對象的語義信息進行編碼,利用低維膠囊對對象的淺層特征進行編碼,從而實現(xiàn)較為復雜對象特征的結構化描述。Mobiny和Van Nguyen[35]、LaLonde和Bagci[36]分別將改進膠囊網(wǎng)絡用于3D肺結節(jié)影像分類和大尺寸低通量CT掃描片中肺部區(qū)域分割任務上,并取得較為滿意的效果。Li等[37]將稻米圖像通過直方圖均衡化處理后的灰度圖像和利用超像素算法區(qū)域分割圖像輸入膠囊網(wǎng)絡實現(xiàn)稻米識別分類。Phaye等[38]提出的稠密膠囊網(wǎng)絡(Dense Capsule Networks,DCNet)借鑒DenseNet的結構設計思想,將Dense塊引入到經(jīng)典膠囊網(wǎng)絡取代其淺層卷積結構,實現(xiàn)網(wǎng)絡深層化用于獲取更加復雜的語義特征,同時不增加網(wǎng)絡參數(shù)規(guī)模,在手寫數(shù)據(jù)庫上對比傳統(tǒng)卷積網(wǎng)絡取得較好的識別結果。

綜合相關研究結論,首先,葉片作為植物的重要器官其普遍具有扁平易采集的特點,因此在植物識別任務中常作為首選器官,但是其受季節(jié)和環(huán)境因素影響外觀形態(tài)極易改變,并且某些植物類別間區(qū)分度較低,因此植物器官的多樣性識別對于植物物種識別具有重要意義。其次,相比葉片等其它植物器官識別,花冠在一定時期受外界環(huán)境影響較小,因此外部性狀較為穩(wěn)定,但是相比葉片等其它植物器官,花冠空間形態(tài)和顏色紋理特征較為復雜,因此對于花冠識別屬于精細分類范疇,對花冠的描述和表示要求提取特征具有較好的類間區(qū)分性。最后,規(guī)模化數(shù)據(jù)集構建和標注困難,直接影響現(xiàn)有基于深度學習模型的植物識別方法應用。

本研究的主要工作在于:

1)首次嘗試將膠囊網(wǎng)絡及其改進模型引入植物識別領域,應用于包括花卉和葉片等植物器官識別。

2)經(jīng)典膠囊網(wǎng)絡只使用淺層卷積提取特征,缺乏深層語義信息,因此對復雜數(shù)據(jù)集的分類任務魯棒性有限。本研究借鑒DCNet思想基礎上[38],在網(wǎng)絡模型初始端引入自注意力機制[39-40],通過增加前景待識別區(qū)域的特征權值以降低背景信息對于識別任務的干擾。

3)植物物種識別等精細分類問題一般樣本圖片尺度較大,而經(jīng)典膠囊網(wǎng)絡參數(shù)計算規(guī)模伴隨輸入數(shù)據(jù)尺度的提升而大幅提升,從而計算負載大幅增加,因此研究借鑒LaLond和Bagci[36]提出局部約束動態(tài)路由算法(locally-constrained dynamic routing algorithm)取代經(jīng)典動態(tài)路由算法中的全連接結構,實現(xiàn)局部區(qū)域內(nèi)膠囊路由選擇和轉換矩陣共享機制,降低網(wǎng)絡參數(shù)規(guī)模,適應小樣本數(shù)據(jù)集的訓練學習需求。

4)標注構建包括牡丹、君子蘭、芍藥、萬壽菊和風信子等15類,每類花卉90張共計1 350張花卉圖片的典型北方常見花卉數(shù)據(jù)集,充分考慮各類花卉花期地域分布差異,數(shù)據(jù)集構建時間跨度為2017年3月至2019年10月。

1 試驗數(shù)據(jù)集

試驗數(shù)據(jù)來自于網(wǎng)絡公開數(shù)據(jù)集和實拍等方式構建3個數(shù)據(jù)集,第1個數(shù)據(jù)集是牛津大學機器視覺研究組開源的花卉數(shù)據(jù)庫[41],包括水仙花(Daffodil)、雪花蓮(Snowdrop)和鈴蘭(Lily of the valley)等英國本土常見的17類花卉,每類花卉包含80張共計1 360張圖像(圖1),圖像個體姿態(tài)、光照和比例差異變化用于保證樣本的多樣性,并且部分個體類別間差異較小,例如蒲公英(Dandelion)和款冬(Coltsfoot)。第2個花卉數(shù)據(jù)集為本研究工作自建數(shù)據(jù)集,東北常見花卉數(shù)據(jù)集,通過植保專家及學生在郊外、公園和花卉養(yǎng)殖基地等實習現(xiàn)場,自然光條件下手機拍攝,為保證樣本多樣性取景方式包括單獨花冠取景、背景加花冠和整株植被的綜合拍攝方式,經(jīng)園藝專家標注確認等方式構建,包括君子蘭(Kaffir lily)、馬蘭花(Malan flower)、牡丹(Peony)和芍藥(Paeonia lactiflora)等15類,每類90張共計1 350張花卉圖片(圖2)。第3個數(shù)據(jù)集選用的是ImageCLEF 2013中植物數(shù)據(jù)集[42],該數(shù)據(jù)集由法國國家信息與自動化研究所(INRIA)和法國國家農(nóng)業(yè)研究中心(CIRAD)支持籌建,本研究選擇葉片數(shù)據(jù)集主要以法國地中海區(qū)域主要物種,樣本圖片采集方式包括葉片掃描圖片和自然背景拍攝的圖片,包括蜀葵(Common hollyhock)、羽葉槭(Boxelder maple)和白樺(Silver birch)等15類,每類75張共計1 125張植物葉片(圖3)。

注:數(shù)據(jù)來源 Nilsback和Zisserman[41]。

注:數(shù)據(jù)來源為本研究工作自建數(shù)據(jù)集。

注:數(shù)據(jù)來源Joly et al.[42]。

2 改進稠密膠囊網(wǎng)絡模型

2.1 膠囊神經(jīng)網(wǎng)絡

Hinton等[31]和Sabour等[32]首先提出膠囊神經(jīng)網(wǎng)絡模型,其網(wǎng)絡基本單元為膠囊,用膠囊取代傳統(tǒng)神經(jīng)網(wǎng)絡中的神經(jīng)元用于圖像的特征表示。膠囊被定義為一組神經(jīng)元的集合,其輸出為一個激活向量,激活向量用于預測目標對象在給定像素位置是否存在和目標對象的實例化參數(shù)。經(jīng)典膠囊網(wǎng)絡由3個基本功能層構成,即卷積層、主膠囊層和數(shù)字膠囊層,膠囊層學習采用動態(tài)路由算法。

2.1.1 動態(tài)路由算法

動態(tài)路由算法的基本實現(xiàn)思想為,子膠囊層激活膠囊通過變換矩陣對父膠囊層的膠囊實例化參數(shù)進行預測,當多個子膠囊預測一致時父膠囊層的膠囊被激活并輸出具有更大感受野的實體特征向量。動態(tài)路由算法主要由向量計算和路由選擇2部分構成,具體計算表達式如下:

1)膠囊層激活輸出向量計算,用非線性壓縮函數(shù)壓縮輸入向量用于表示輸入實體出現(xiàn)的概率,非線性壓縮函數(shù)如式(1)所示:

2)路由參數(shù)c,用于實現(xiàn)膠囊層間的動態(tài)路由選擇,具體計算如式(3)和式(4)所示:

2.1.2 損失函數(shù)

經(jīng)典膠囊網(wǎng)絡損失函數(shù)采用間隔損失函數(shù)(Margin Loss,L),具體計算如式(5)所示:

2.1.3 網(wǎng)絡結構

經(jīng)典膠囊網(wǎng)絡由編碼和解碼2個模塊構成。編碼器模塊結構如圖4a所示,該網(wǎng)絡為3層的淺層網(wǎng)絡結構,第1層為卷積層,使用256個9×9×1卷積核,激活函數(shù)為ReLU函數(shù),該層輸出20×20×256張量。第2層為主膠囊層(PrimaryCaps),主膠囊層包含32個主膠囊,主膠囊和卷積層相似,每個膠囊有8個9×9和步長為2的卷積核,該層接受卷積層提取的特征作為輸入,輸出為6×6×8×32張量。第3層為數(shù)字膠囊層(DigitCaps)在主膠囊層輸出的基礎上進行傳播和路徑更新,該層嵌入10個標準膠囊單元,輸出為16×10張量。

解碼器模塊試圖從最終的膠囊輸出結果重建輸入特征圖,使得整個網(wǎng)絡盡可能多地保留來自輸入的信息,以促進數(shù)字膠囊層的學習。另外重建結構起到正則化的作用,降低過擬合的風險。解碼器結構如圖4b所示,解碼器分別由512、1 024和784個神經(jīng)元的3個全連接層用于實現(xiàn)輸入特征圖重構。

注:圖片數(shù)據(jù)來源Sabour et al. [32]。卷積層中帶有256個9×9步長為1的卷積核,結果為20×20×256張量;主膠囊層中32為膠囊個數(shù),每個膠囊由8個6×6卷積核構成;Wij=[8×16]為膠囊層間的轉換矩陣;數(shù)字膠囊層中由16×10張量構成;||L2||為優(yōu)化目標函數(shù);全連接層分別為帶有512、1 024和784個神經(jīng)元;ReLU和Sigmoid均為激活函數(shù)。

2.2 改進稠密膠囊網(wǎng)絡模型

經(jīng)典膠囊網(wǎng)絡只使用淺層卷積提取特征,缺少深層語義信息表達。對于植物物種識別,植物待識別器官(如花和葉等)前景目標區(qū)域易受背景復雜區(qū)域干擾,降低識別準確率。大尺度圖像輸入增加網(wǎng)絡參數(shù)規(guī)模,從而增加網(wǎng)絡計算量。針對上述問題,本研究借鑒Phaye等[38]提出的DCNet,通過引入Dense塊,利用特征圖重用技術增加網(wǎng)絡深度,同時不增加甚至減少網(wǎng)絡參數(shù)規(guī)模,降低網(wǎng)絡計算量。

本研究又區(qū)別于DCNet,主要做出2方面改進,首先,在網(wǎng)絡模型初始端引入自注意力機制[39-40],通過增加前景待識別目標區(qū)域的特征權值以降低背景信息對于識別任務的干擾。自注意力模型是在傳統(tǒng)視覺注意力模型研究基礎上,由Zhang等[39]和Wang等[40]提出,借鑒全局長時依賴的思想構建非局部塊(non-local blocks),利用特征圖中所有位置的特征加權和計算對指定局部區(qū)域的注意力響應,即全局像素點對局部像素點的計算響應,實現(xiàn)特征間的全局依賴學習。自注意力模型可以幫助網(wǎng)絡模型在訓練學習的過程中更加關注圖像內(nèi)部區(qū)域的相關性,并且可以在小樣本和復雜背景下幫助網(wǎng)絡更好的提升分類性能[40]。

其次,經(jīng)典膠囊網(wǎng)絡采用的動態(tài)路由算法在提升網(wǎng)絡分類精度的同時,由于算法自身選擇子膠囊與父膠囊之間的全連接結構,網(wǎng)絡參數(shù)計算規(guī)模會伴隨輸入圖片尺度的提升而大幅提升,從而導致計算負載的大規(guī)模提升,因此經(jīng)典膠囊網(wǎng)絡不適用于輸入大尺度數(shù)據(jù),限制了網(wǎng)絡的使用范圍。本研究改進稠密膠囊網(wǎng)絡模型研究借鑒LaLond和Bagci[36]提出局部約束動態(tài)路由算法實現(xiàn)局部區(qū)域內(nèi)膠囊路由選擇和轉換矩陣共享機制,即子膠囊只能在一個預先定義的本地窗口路由到父膠囊,同時網(wǎng)絡中同一類型的膠囊的轉換矩陣共享。改進后的局部約束動態(tài)路由算法可以處理大尺度圖片如227×227像素。

本研究提出的改進稠密膠囊網(wǎng)絡模型(Modified Dense Capsule Network,Modified-DCNet)網(wǎng)絡結構如圖5所示,主要由5部分構成,依次為:卷積層、自注意力層、稠密層、局部約束動態(tài)路由層、分類和重構層。

注:f(x)、g(x)和h(x)分別為1×1步長為1的卷積核;Dense block稠密塊由6組卷積核構成,其中{Conv(1×1),Conv(3×3)}×6表示6組連續(xù)1×1和3×3步長均為1的卷積核;主膠囊層由56×56×32×16D張量構成(D表示維度);局部約束動態(tài)路由層中的5為預定義局部空間窗格的長和寬維度;||L2||為用于判別分類準確率的優(yōu)化目標函數(shù);重構模塊分別由128個1×1步長為1的卷積核,128個5×5步長為1的反卷積核和1×1步長為1的卷積核構成,卷積操作分別形成26×26×128維張量,32×32×128維張量。

2.2.1 自注意力模型

視覺注意力模型已經(jīng)成為眾多網(wǎng)絡模型的重要組成部分,由于其具有計算效率高、對圖像理解能力強的特點,因此在機器翻譯、目標識別、圖像內(nèi)容理解、顯著性檢測等領域得到廣泛應用[43]。視覺中的注意力機制基本思想是使系統(tǒng)學會忽略影像中的無關信息而關注重點區(qū)域。深度學習與視覺注意力機制結合的研究工作多集中于使用掩碼形成注意力機制[40,43]。

自注意力模型是在傳統(tǒng)視覺注意力模型研究基礎上,實現(xiàn)全局像素點對局部像素點的計算響應,實現(xiàn)特征間的全局依賴學習。實現(xiàn)思想是通過計算區(qū)域相似度和學習構建注意力圖掩模實現(xiàn),具體實現(xiàn)如下:

1)區(qū)域相似度和注意力掩模計算,定義()、()和()為1×1卷積核,實現(xiàn)特征圖上跨通道信息融合,計算如式(6)所示:

2)自注意力特征圖計算,計算如式(9)和式(10)所示:

2.2.2 局部約束動態(tài)路由算法

3)路由參數(shù)更新如式(13)所示:

2.2.3 損失函數(shù)

2.3.4 學習算法及網(wǎng)絡結構描述

步驟1:卷積特征提取,第1層利用128個5×5步長為2的卷積核提取特征圖;

步驟3:基于Dense塊的特征圖提取,為提升網(wǎng)絡的特征抽取和描述性能,在自注意力層基礎上連續(xù)接入2組Dense塊,為有效減少抽取特征空間維度信息丟失,在引入2組Dense塊中沒有池化層,每組Dense塊由6組1×1和3×3卷積構成,2組Dense塊之間由過渡層(transition layer)鏈接,過渡層由BN-Conv(1×1)構成,第1組Dense塊輸入為自注意力特征圖與BN-ReLU-Conv(3×3)抽取特征圖的串聯(lián),以防止注意力掩模造成特征圖信息丟失;

步驟5:重構層重構輸入樣本R,以第2主膠囊層為輸入,順次鏈接1×1卷積層,擴充特征圖維度卷積核為5×5步長為1的反卷積層和重構輸入樣本的1×1卷積層,輸出重構樣本R

3 結果與分析

為驗證本研究提出模型有效性,將本研究模型與經(jīng)典卷積神經(jīng)網(wǎng)絡AlexNet和VGG16,以及經(jīng)典膠囊網(wǎng)絡CapsNet和DCNet在分別在牛津花卉數(shù)據(jù)集、東北花卉數(shù)據(jù)集和葉片數(shù)據(jù)集上進行對比試驗。

3.1 試驗環(huán)境和參數(shù)設置

試驗環(huán)境為DELL圖形工作站,處理器為至強Xeon4210(8核2.45 GHz),內(nèi)存64 G,NVIDIA RTX1080Ti,11GBRAM,軟件試驗配置環(huán)境為,Ubuntu16.04操作系統(tǒng),配置安裝Anaconda3-5.2.0-Linux版本,python 3.6和2.7,Pytorch 0.4和1.0,以適應部分網(wǎng)絡對配置環(huán)境的需求。為有效增加樣本多樣性,首先對試驗數(shù)據(jù)集進行增廣處理,通過編寫python腳本文件對樣本分別采用旋轉和光照補償?shù)姆椒ǎD角度依次為90°、180°和270°,光照補償采用GrayWorld色彩均衡化方法,通過增廣處理將原數(shù)據(jù)集擴充5倍,為適應對比網(wǎng)絡的輸入要求,本研究提出Modified-DCNet、AlexNet和VGG16對應試驗數(shù)據(jù)集統(tǒng)一裁剪尺度為227×227像素,經(jīng)典膠囊網(wǎng)絡CapsNet和DCNet對應試驗數(shù)據(jù)集采用下采樣,尺度為32×32像素。同時為保證試驗結果穩(wěn)定性,試驗過程中對數(shù)據(jù)集采用5折交叉驗證,每組數(shù)據(jù)集樣本構成采用均勻采樣的原則。

試驗過程中AlexNet[14]和VGG16[15]均參照文獻中原型框架和參數(shù)設置方式,采用小批量梯度下降優(yōu)化算法,動量初始設置為0.9,權重衰減系數(shù)設置為0.000 5,學習率設置為0.01。CapsNet[32]、DCNet[38]和本研究網(wǎng)絡均采用學習率為0.001和權重衰減率為0.9的Adam優(yōu)化算法,所有卷積神經(jīng)網(wǎng)絡模型的損失函數(shù)采用交叉熵,膠囊網(wǎng)絡及其改進模型損失函數(shù)均采用間隔—重構損失函數(shù)。試驗過程中mini-batch尺度設置為32,最大試驗迭代數(shù)為500輪。在3個數(shù)據(jù)集對比試驗結果如表1所示,識別精度折線圖如圖6所示。

表1 識別結果對比

注:“—”表示由于網(wǎng)絡自身結構設計或僅存于理論計算結果,本研究并未試驗驗證;識別結果用平均識別準確率和標準差表示。

Note: “—” was not verified in the experiments due to the design of the network or the theoretical possibility only; results are represented with the average accuracy and standard deviation.

注:* 表示數(shù)據(jù)尺度為227×227像素和32×32像素的識別準確率可視化曲線。

3.2 試驗結果及分析

為驗證Modified-DCNet的有效性,分別從識別準確率和網(wǎng)絡參數(shù)規(guī)模2個角度進行試驗驗證和分析。試驗過程中對比網(wǎng)絡模型均參照論文中原型框架和參數(shù)設置方式,輸入圖片尺度分別采用227×227像素和32×32像素。從表1的試驗結果中可以看出,Modified-DCNet在3個數(shù)據(jù)集上輸入圖片尺度分別為227×227像素和32×32像素的平均識別準確率達到95.1%和77.2%,均有較大幅度的提升。表1中對比網(wǎng)絡模型參照文獻中原型框架設計和參數(shù)設置,其中AlexNet[14]網(wǎng)絡由于初始卷積層采用11×11的大尺寸卷積核,因此在輸入圖片尺度為32×32×3像素時致使卷積特征圖空間維信息損失嚴重,因此無試驗結果;VGG16[15]網(wǎng)絡僅針對最后一層全連接層調(diào)整輸出神經(jīng)元數(shù)量,調(diào)整后參數(shù)規(guī)模為134 M;CapsNet[32]和DCNet[38]在輸入圖片尺度為32×32×3像素時,利用原文框架設計和參數(shù)設置,當輸入圖片尺度為227×227×3像素時計算網(wǎng)絡參數(shù)分別為455 M和383 M,參數(shù)規(guī)模增幅巨大反觀試驗數(shù)據(jù)集規(guī)模較小,因此并無試驗驗證價值。

3.2.1 膠囊網(wǎng)絡及其改進模型對比試驗結果及分析

CapsNet、DCNet和本研究模型對比試驗結果如表1所示,本研究模型在牛津花卉數(shù)據(jù)集、東北花卉數(shù)據(jù)集和ImageCLEF 2013 葉片數(shù)據(jù)集上,當輸入圖片尺度為32×32像素時對比CapsNet和DCNet識別準確率分別提升了16.8%、15.9%、23.6%和12.1%、10.9%、15%。對比CapsNet,DCNet通過引入Dense塊平均識別準確率為64.5%,提升6.1%。DCNet模型參數(shù)規(guī)模為6.9 M,僅為CapsNet的84%。試驗結果表明加深網(wǎng)絡深度在一定程度上對于模型性能提升具有重要作用。

進一步分析表1的試驗結果表明,對比DCNet,本研究模型在初始端引入自注意力層后模型平均識別準確率為77.2%,平均識別準確率提升12.7%。圖7為隨機選擇輸入樣本的自注意力層特征可視化熱圖,在可視化熱圖中,一般對于注意力關注的高特征權值響應區(qū)域用偏暖色的高亮紅色進行表示,特征權值響應較低的區(qū)域,即弱關注和非關注區(qū)域,用偏冷色(即綠色和藍色)進行表示。自注意力層抽取特征圖的可視化熱圖如圖7b所示,自注意力特征圖與輸入圖片掩模操作后的可視化熱圖如圖7c所示,從圖7c中可以看出偏暖色的高亮紅色區(qū)域分布較為集中于待識別的花冠和葉片部分,偏冷色與除花冠和葉片外的背景區(qū)域分布較為趨近。因此從圖7的可視化結果可以看出,在稠密膠囊網(wǎng)絡結構中通過引入自注意力機制,可以實現(xiàn)為特征圖中待識別目標區(qū)域特征賦予高權值,背景區(qū)域特征賦予低權值。結合表1中本研究模型對比其他膠囊網(wǎng)絡模型在識別準確率上的大幅提升,試驗結果表明在網(wǎng)絡結構中引入自注意力機制在一定程度上可以降低背景區(qū)域?qū)τ谀繕俗R別的干擾,從而提升網(wǎng)絡模型的判別性能。

對表1的試驗結果進一步分析得出,當輸入圖片尺度為32×32像素時,本研究網(wǎng)絡模型的參數(shù)規(guī)模為1.8 M,在平均識別準確率大幅提升的同時參數(shù)規(guī)模僅為CapsNet的21.9%和DCNet的26%。在輸入圖片尺度為227×227像素時本研究模型的網(wǎng)絡參數(shù)規(guī)模為5.2 M,在輸入圖片尺度增幅約50倍的前提下,本研究網(wǎng)絡模型的參數(shù)規(guī)模增加2.8倍,僅為CapsNet參數(shù)規(guī)模的1.1%和DCNet的1.3%。因此本研究提出的改進稠密膠囊網(wǎng)絡模型在膠囊層間引入局部約束動態(tài)路由算法,對比經(jīng)典膠囊網(wǎng)絡的全連接動態(tài)路由結構,大幅降低網(wǎng)絡參數(shù)規(guī)模,降低網(wǎng)絡模型計算負載。

3.2.2 膠囊網(wǎng)絡及其改進模型對比傳統(tǒng)卷積神經(jīng)網(wǎng)絡試驗結果及分析

從表1試驗結果可以看出,針對不同輸入尺度圖片,本研究改進模型的性能對比其他網(wǎng)絡模型識別準確率均有一定幅度的提升。當輸入圖片尺度為227×227像素時,本研究模型在牛津花卉數(shù)據(jù)集、東北花卉數(shù)據(jù)集和ImageCLEF 2013 葉片數(shù)據(jù)集上平均識別準確率為95.1%,對比AlexNet和VGG16平均識別準確率分別提升了25.5%和8.6%,模型參數(shù)僅為AlexNet的8.6%,VGG16的3.7%。當輸入圖片尺度為32×32像素時,本研究模型、DCNet、CapsNet和VGG16平均識別準確率分別為77.2%、64.5%、58.4%和52.1%。本研究模型、DCNet、CapsNet的參數(shù)規(guī)模順次為VGG16的1.3%、6.1%和5.1%。分析表1的試驗結果可以得出,在有限模型復雜度條件下,膠囊網(wǎng)絡及其改進模型對比以VGG16為代表的卷積網(wǎng)絡在性能表現(xiàn)更為優(yōu)異。對比傳統(tǒng)卷積神經(jīng)網(wǎng)絡用標量作為神經(jīng)元的輸入輸出,膠囊網(wǎng)絡及其改進模型用向量作為膠囊輸入輸出均為,向量對于特征描述和表示可以更好的兼顧數(shù)據(jù)內(nèi)部固有的空間關系和語義信息,因此膠囊網(wǎng)絡及其改進模型在網(wǎng)絡結構上的顛覆性設計對于提升模型性能具有重要意義。

從表1的試驗結果可以看出,本研究模型和VGG16在不同輸入圖片尺度下,即227×227像素和32×32像素時,各自模型識別準確率均有大幅提升,由試驗結果得出輸入樣本的優(yōu)劣對于模型分類識別性能具有較大的影響如圖8。樣本集中圖片質(zhì)量優(yōu)劣直接體現(xiàn)在對于樣本類別差異性信息的描述和表示上,并直接影響到模型的分類性能,因此本研究改進稠密膠囊網(wǎng)絡模型采用局部約束動態(tài)路由算法,降低網(wǎng)絡參數(shù)規(guī)模,允許膠囊網(wǎng)絡及其改進模型輸入大尺度圖片尤為必要。

圖8 降采樣前后圖例

3.2.3 本研究網(wǎng)絡模型識別結果分析

本研究網(wǎng)絡模型在牛津花卉數(shù)據(jù)集、東北花卉數(shù)據(jù)集和ImageCLEF 2013 葉片數(shù)據(jù)集上,輸入數(shù)據(jù)集圖片尺度為227×227像素時,識別結果如圖9所示。

注:圖中數(shù)值為識別準確率,%,計算至小數(shù)點后兩位。

在花卉數(shù)據(jù)集上的識別結果如圖9a和9b所示,花卉數(shù)據(jù)集誤分可視化混淆矩陣如圖10所示。在牛津花卉數(shù)據(jù)集上,虎皮百合和歐洲櫻草識別準確率最高達到97%,銀蓮花和三色堇識別準確率最低為87%,其中銀蓮花誤分為雪花蓮和雛菊的誤分率分別為5%和8%,三色堇誤分為鳶尾花和潘紅花的誤分率分別為11%和2%。在東北花卉數(shù)據(jù)集上,馬蘭花的識別準確率最高為98%,牡丹和迎春花的準確識別率最低為87%,其中牡丹誤分為鳳仙花和芍藥的誤分率分別為4%和9%,迎春花誤分為金娃娃萱草的誤分率為13%。

花卉數(shù)據(jù)集誤分可視化混淆矩陣如圖10所示,結合圖9試驗結果進一步分析得出,主觀視覺在花卉識別過程中顏色紋理和外部形態(tài)特征是判別類別的重要依據(jù),當花卉顏色紋理特征較為單一,并且其顏色紋理特征與其他待識別花卉顏色紋理特征區(qū)分性較為明顯時,則該種花卉分類識別準確率較高。如果顏色特征區(qū)分性降低,則花卉形態(tài)特征是進行類間區(qū)分的主要依據(jù)。當顏色和外部形態(tài)特征差異性較小時,則容易發(fā)生誤分。以牛津花卉數(shù)據(jù)集識別結果為例,對17類花卉的誤分樣本進行整理,可視化混淆矩陣如圖10a所示,其中次對角線位置為誤分樣本。隨機選擇虎皮百合和鳶尾花為例,虎皮百合花冠在顏色紋理特征大多呈現(xiàn)偏紅色并且花瓣上帶有深色斑點,其顏色紋理特征與其他花卉類別區(qū)分度較為明顯(除貝母外),因此外虎皮百合識別準確率較高。觀察貝母數(shù)據(jù)集,貝母花冠顏色也多呈現(xiàn)偏紅色,而且花瓣帶有深色網(wǎng)紋狀斑點。圖10a中虎皮百合與貝母的可視化混淆矩陣次對角線位置樣本,二者在外部形態(tài)差異相對較小,因此誤分樣本僅存在于這2類花卉,圖9a試驗結果驗證該結論。鳶尾花花冠存在多種顏色,其顏色紋理特征多樣性降低其與其他花卉類別的可區(qū)分性。但是鳶尾花花冠獨特的外部形態(tài)特征,使得其誤分樣本僅出現(xiàn)在三色堇中,如圖10a所示。

注:每個可視化混淆矩陣中次對角線位置為對應誤分類別的樣本圖片,下同。

Note: The subdiagonal position in each visual confusion matrix was the sample images corresponding to the misclassification, the same below.

圖10 牛津和東北常見花卉數(shù)據(jù)集誤分可視化混淆矩陣

Fig.10 Visual confusion matrix for misclassification of Oxford and Northeast China flower datasets

在ImageCLEF 2013 葉片數(shù)據(jù)集上,從表1和圖9c的試驗結果可以看出,本研究模型對綠蘿和龜背竹的識別準確率最高為99%,在柿子樹和富貴榕樣本上的識別準確率相對較低分別為88%和89%,其中柿子樹分別以7%和5%的誤分率誤分為冬青和紙桑,富貴榕以11%的誤分率誤分為萬年青。進一步對比分析表1和圖9試驗結果表明,本研究模型在ImageCLEF 2013 葉片數(shù)據(jù)集的平均識別準確率最高,其原因可能在于葉片數(shù)據(jù)集樣本圖片采集方式包括葉片掃描圖片和自然背景拍攝的圖片,圖片大多為單張葉片,背景多為較為簡單的純色(白色)背景,掃描葉片色彩和邊緣清晰,因此對比花卉數(shù)據(jù)集,ImageCLEF 2013葉片樣本在外部形態(tài)、色彩紋理上復雜度相對較低。為進一步驗證上述結論,本研究工作整理葉片數(shù)據(jù)集誤分可視化混淆矩陣如圖11,圖中次對角線位置為誤分樣本。以識別率較低的富貴榕為例,富貴榕誤分為萬年青,從圖11誤分結果觀察發(fā)現(xiàn),對比葉片掃描圖片,誤分樣本采集方式多為自然背景下拍攝,背景較為復雜影響樣本的準確識別。另外在誤分圖片中,誤分葉片間具有較為相似的邊緣紋理形態(tài)。

圖11 ImageCLEF 2013葉片數(shù)據(jù)集誤分可視化混淆矩陣

4 結 論

膠囊網(wǎng)絡作為一種全新的網(wǎng)絡結構,對比傳統(tǒng)卷積神經(jīng)網(wǎng)絡的標量輸入輸出形式,膠囊網(wǎng)絡使用向量用于特征描述和表示,可以有效兼顧數(shù)據(jù)內(nèi)部固有的空間關系和語義信息。本研究借鑒DCNet基礎上提出一種改進稠密膠囊網(wǎng)絡模型用于植物物種識別這一精細分類任務中。針對植物物種識別過程中復雜背景區(qū)域影響植物器官(如花和葉等)識別問題,本研究在網(wǎng)絡結構初始端引入自注意力機制,通過增加前景待識別區(qū)域的特征權值以降低背景信息對于識別任務的干擾。針對大尺寸圖片輸入導致膠囊層間參數(shù)規(guī)模激增,網(wǎng)絡學習訓練負載增加的問題,本研究在膠囊層間使用局部約束動態(tài)路由算法,實現(xiàn)局部區(qū)域內(nèi)膠囊路由選擇和轉換矩陣共享機制,降低網(wǎng)絡參數(shù)規(guī)模,以適應大尺寸圖片訓練學習要求。為驗證本研究提出改進膠囊網(wǎng)路模型的有效性,構建包括君子蘭、牡丹和芍藥等15類共計1 350張東北常見花卉數(shù)據(jù)集。

本研究提出的改進稠密膠囊網(wǎng)絡模型在牛津花卉數(shù)據(jù)集、東北花卉數(shù)據(jù)集和ImageCLEF 2013 葉片數(shù)據(jù)集上的試驗結果表明,當輸入圖片尺度為32×32像素時的對比試驗結果表明,本研究模型平均識別準確率為77.2%,對比CapsNet、DCNet和VGG16平均識別準確率分別提升18.8%、12.7%和25.2%,參數(shù)規(guī)模僅為CapsNet的21.9%,DCNet的26%和 VGG16的1.3%。當輸入圖片尺度為227×227像素時,本研究模型平均識別準確率為95.1%,對比AlexNet和VGG16平均識別準確率分別提升了25.5%和8.6%,參數(shù)僅為AlexNet的8.6%和VGG16的3.7%。上述試驗結果驗證本研究改進模型在提升識別準確率和降低參數(shù)規(guī)模方面的有效性。

[1] Dethier V G. Mechanism of host‐plant recognition[J]. Entomologia Experimentalis et Applicata, 1982, 31(1): 49-56.

[2] Liao Ke, Paulsen M R, Reid J F, et al. Corn kernel breakage classification by machine vision using a neural network classifier[J]. Transactions of the American Society of Agricultural and Biological Engineers, 1993, 36(6): 1949-1953.

[3] Gomes J F S, Leta F R. Applications of computer vision techniques in the agriculture and food industry: A review[J]. European Food Research and Technology, 2012, 235(6): 989-1000.

[4] 何東健,張海亮,寧紀鋒,等. 農(nóng)業(yè)自動化領域中計算機視覺技術的應用[J]. 農(nóng)業(yè)工程學報,2002,18(2):171-175.

He Dongjian, Zhang Hailiang, Ning Jifeng, et al. Application of computer vision technique to automatic production in agriculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2002, 18(2): 171-175. (in Chinese with English abstract)

[5] 馮青春,趙春江,王曉楠,等. 基于視覺伺服的櫻桃番茄果串對靶測量方法[J]. 農(nóng)業(yè)工程學報,2015,31(16):206-212.

Feng Qingchun, Zhao Chunjiang, Wang Xiaonan, et al. Fruit bunch measurement method for cherry tomato based on visual servo[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(16): 206-212. (in Chinese with English abstract)

[6] 溫長吉,王生生,于合龍,等. 基于改進蜂群算法優(yōu)化神經(jīng)網(wǎng)絡的玉米病害圖像分割[J]. 農(nóng)業(yè)工程學報,2013,29(13):142-149.

Wen Changji, Wang Shengsheng, Yu Helong, et al. Image segmentation method for maize diseases based on pulse coupled neural network with modified artificial bee algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(13): 142-149. (in Chinese with English abstract)

[7] 陳娟,陳良勇,王生生,等. 基于改進殘差網(wǎng)絡的園林害蟲圖像識別[J]. 農(nóng)業(yè)機械學報,2019,50(5):194-202.

Chen Juan, Chen Liangyong, Wang Shengsheng, et al. Pest recognition based on improved residual network[J]. Transactions of the Chinese Society for Agriculture Machinery, 2019, 50(5): 194-202. (in Chinese with English abstract)

[8] Guyer D E, Miles G E, Schreiber M M, et al. Machine vision and image processing for plant identification[J]. Transactions of the American Society of Agricultural and Biological Engineers, 1986, 29(6): 1500-1507.

[9] Guyer D E, Miles G E, Gaultney L D, et al. Application of machine vision to shape analysis in leaf and plant identification[J]. Transactions of the American Society of Agricultural and Biological Engineers, 1993, 36(1): 163-171.

[10] Shearer S A, Holmes R G. Plant identification using color co-occurrence matrices[J]. Transactions of the American Society of Agricultural and Biological Engineers, 1990, 33(6): 1237-1244.

[11] 張善文,王獻峰. 基于加權局部線性嵌入的植物葉片圖像識別方法[J]. 農(nóng)業(yè)工程學報,2011,27(12):141-145.

Zhang Shanwen, Wang Xianfeng. Method of plant leaf recognition based on weighted locally linear embedding[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(12): 141-145. (in Chinese with English abstract)

[12] 張善文,張傳雷,程雷. 基于監(jiān)督正交局部保持映射的植物葉片圖像分類方法[J]. 農(nóng)業(yè)工程學報,2013,29(5):125-131.

Zhang Shanwen, Zhang Chuanlei, Cheng Lei. Plant leaf image classification based on supervised orthogonal locality preserving projections[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(5): 125-131. (in Chinese with English abstract)

[13] 張善文,王獻鋒,王震,等. 基于概率局部判斷映射的植物分類方法[J]. 農(nóng)業(yè)工程學報,2015,31(11):215-220.

Zhang Shanwen, Wang Xianfeng, Wang Zhen, et al. Probability locality preserving discriminant projections for plant recognition[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(11): 215-220. (in Chinese with English abstract)

[14] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2012: 1097-1105.

[15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, https://arxiv.org/abs/1409.1556.

[16] Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.

[17] Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 4700-4708.

[18] Kamilaris A, Prenafeta-Boldu F X. Deep learning in agriculture: A survey[J]. Computers and Electronics in Agriculture, 2018, 147(1): 70-90.

[19] Reyes A K, Caicedo J C, Camargo J E. Fine-tuning deep convolutional networks for plant recognition[J].Cross Language Evaluation Forum: Working Notes, 2015, 1391.

[20] Grinblat G L, Uzal L C, Larese M G, et al. Deep learning for plant identification using vein morphological patterns[J]. Computers and Electronics in Agriculture, 2016, 127(9): 418-424.

[21] Dyrmann M, Karstoft H, Midtiby H S. Plant species classification using deep convolutional neural network[J]. Biosystems Engineering, 2016, 151(11): 72-80.

[22] Lee S H, Chan C S, Mayo S J, et al.How deep learning extracts and learns leaf features for plant classification[J]. Pattern Recognition, 2017, 71(11): 1-13.

[23] Nguyen T T N, Van Tuan T L L, Vu H, et al. Flower species identification using deep convolutional neural networks[C]//AUN/SEED-Net Regional Conference for Computer and Information Engineering. 2016, https://www.researchgate.net/publication/308322586.

[24] Ghazi M M, Yanikoglu B, Aptoula E. Plant identification using deep neural networks via optimization of transfer learning parameters[J]. Neurocomputing, 2017, 235(4): 228-235.

[25] 鄭一力,張露. 基于遷移學習的卷積神經(jīng)網(wǎng)絡植物葉片圖像識別方法[J]. 農(nóng)業(yè)機械學報,2018,49(S1):361-366.

Zheng Yili, Zhang Lu. Plant leaf image recognition method based on transfer learning with convolutional neural networks[J]. Transactions of the Chinese Society for Agriculture Machinery, 2018, 49(S1): 361-366. (in Chinese with English abstract)

[26] 王生生,王順,張航,等. 基于輕量和積網(wǎng)絡及無人機遙感圖像的大豆田雜草識別[J]. 農(nóng)業(yè)工程學報,2019,35(6):89-97.

Wang Shengsheng, Wang Shun, Zhang Hang, et al. Soybean field weed recognition based on light sum-product networks and UAV remote sensing images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(6): 89-97. (in Chinese with English abstract)

[27] Sa L, Ge Zongyuan, Dayoub F, et al. DeepFruits: A fruit detection system using deep neural networks[J]. Sensors, 2016, 16(8): 1222-1244.

[28] Mohanty S P, Hughes D P, Salathé M. Using deep learning for image-based plant disease detection[J]. Frontiers in Plant Science, 2016, 7(9): 1419-1428.

[29] Cohen T, Welling M. Group equivariant convolutional networks[C]//International Conference on Machine Learning. 2016: 2990-2999.

[30] Worrall D E, Garbin S J, Turmukhambetov D, et al. Harmonic networks: Deep translation and rotation equivariance[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5028-5037.

[31] Hinton G E, Krizhevsky A, Wang S D. Transforming auto-encoders[C]//International Conference on Artificial Neural Networks. Springer, Berlin, Heidelberg, 2011: 44-51.

[32] Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules[C]//Advances in Neural Information Processing Systems. 2017: 3856-3866.

[33] Jaiswal A, AbdAlmageed W, Wu Yue, et al. CapsuleGAN: Generative adversarial capsule network[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018, https://arxiv.org/abs/1802.06167.

[34] Xiang Canqun, Zhang Lu, Tang Yi, et al. MS-CapsNet: A novel multi-scale capsule network[J]. IEEE Signal Processing Letters, 2018, 25(12): 1850-1854.

[35] Mobiny A, Van Nguyen H. Fast CapsNet for lung cancer screening[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2018: 741-749.

[36] LaLonde R, Bagci U. Capsules for object segmentation[J]. Statistics, 2018,https://arxiv.org/abs/1804.04241.

[37] Li Yu, Qian Meiyu, Liu Pengfeng, et al. The recognition of rice images by UAV based on capsule network[J]. Cluster Computing, 2019, 22(6): 1-10.

[38] Phaye S S R, Sikka A, Dhall A, et al. Dense and diverse capsule networks: Making the capsules learn better[J]. Computer Science, 2018. https://arxiv.org/abs/1805.04001.

[39] Zhang Han, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[J]. Statistics, 2018, https://arxiv.org/abs/1805.08318.

[40] Wang Xiaolong, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7794-7803.

[41] Nilsback M E, Zisserman A. A visual vocabulary for flower classification[C]// Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. IEEE, 2006, 2: 1447-1454.

[42] Joly A, Hervé G, Bonnet P, et al. The imageclef plant identification task 2013[C]// Acm International Workshop on Multimedia Analysis for Ecological Data. ACM, 2013: 1-27.

[43] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

Plant recognition method based on a improved dense CapsNet

Wen Changji1,3, Lou Yue1, Zhang Xiaoran1, Yang Ce3, Liu Shuyan2,4, Yu Helong1※

(1.,130118,; 2.130118,; 3.55108,; 4,,130118,)

The recognition of plant and other biological species is of great significance in maintaining plant species diversity, understanding plant growth characteristics and geographical distribution, constructing a biodiversity database, and realizing the rational development and utilization of plant resources. But plant recognition and classification are still very challenging tasks. In this study, the classical capsule network and its modified models were applied to the fined classification task of plant species recognition. Based on the idea of DCNet, a modified dense capsule network was proposed.Firstly, the self-attention mechanism was introduced as the network layer. By this method, the interference background information to the recognition task was reduced by assigning the high weight value of the target feature. Secondly, the locally-constraint dynamic routing algorithm was used between the capsule layers in the modified-DCNet. By sharing the transformation matrix in the predefined local grid, it reduced the load of network parameter calculation and adapted to the small sample datasets for training and learning. To verify the model of this study, three datasets were used, Oxford Flower datasets, the Normal flower datasets in Northeast China and ImageCLEF 2013 leaf datasets. Oxford Flower dataset was an open-source flower dataset consisting of common 17 types of flowers in the UK proposed by the machine vision research group of Oxford University. Every category contains 80 images. There was a total of 1 360 images. The changes in individual morphology, light, and proportion of the images were used to ensure the diversity of the samples. And the differences between some individual categories were small. The Normal flower dataset in Northeast China was a self-built dataset for this study. The dataset was composed of common flowers in Northeast China in which were 15 categories and a total of 1 360 images. The pictures were taken on the spot in suburbs, parks and flower breeding bases under sunlight condition. The images were marked and confirmed by experts. ImageCLEF 2013 leaf dataset was supported by INRIA and CIRAD. The main species were obtained in the Mediterranean region of France. There were 15 kinds of leaves, in a total of 1 125 plant leaves. The collection method of sample images included leaf scanning and taking pictures outdoors. The comparative experimental results showed that the average recognition accuracy of the Modified-DCNet proposed in this study was 77.2% on the three datasets when the input image scale was 32 × 32 pixels. Compared with CapsNet, DCNet, and VGG16, the average recognition accuracy improved by 18.8%, 12.7%, and 25.2%, respectively. The parameter size was only about 1.6 M which was only 1.3% of VGG16. When the input image scale was 227×227 pixels, the average recognition accuracy of this model was 95.1%. The average recognition accuracy was improved by 25.5% and 8.6% compared with AlexNet and VGG16, respectively. In this study, the model parameter size was 5.2 M which was only 8.6% of AlexNet and 3.7% of VGG16. Under the same conditions, the experimental results showed that the performance of these models was improved compared to AlexNet, VGG16, CapsNet, and DCNet. By using the locally-constrained dynamic routing algorithm, the scale of this model parameters was greatly reduced, which was more suitable for large-scale image classification and recognition. From the experimental results, when the input image was 227 × 227 pixels, the model parameter size was only 1.1% of CapsNet, and 1.3% of DCNet. When the input image was 32 × 32 pixels, these models were only 21.9% of CapsNet, and 26% of DCNet. The larger the image size was the more the improvement of the scale. Meanwhile, larger images often had more information, so the recognition accuracy was higher. Furtherly, the experimental results on three datasets showed that the highest recognition accuracy on the ImageCLEF 2013 leaf dataset was 97.2%. In this way, low sample complexity led to a high recognition rate. At the same time, through analyzing the results of the experiments in this study, the main distinctive features among flower datasets were color features, following by morphological features. When the color and morphological features of a certain type of a dataset were relatively monotonic, the recognition accuracy was higher.

plants; computer vision; models; capsule network; self-attention mechanism; dynamic routing algorithm; deep learning

溫長吉,婁月,張笑然,等. 基于改進稠密膠囊網(wǎng)絡模型的植物識別方法[J]. 農(nóng)業(yè)工程學報,2020,36(8):143-155.doi:10.11975/j.issn.1002-6819.2020.08.018 http://www.tcsae.org

Wen Changji, Lou Yue, Zhang Xiaoran, et al. Plant recognition method based on a improved dense CapsNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(8): 143-155. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.08.018 http://www.tcsae.org

2020-01-30

2020-03-10

國家自然科學基金重點項目(U19A2061);國家重點研發(fā)技術專項(2017YFD0502001);國家自然科學基金面上項目(11372155,61472161);吉林省自然科學基金(20180101041JC);吉林省教育廳科研規(guī)劃重點課題(2016186,JJKH20180659KJ)

溫長吉,博士,副教授,主要從事模式識別、農(nóng)業(yè)信息化等方面研究。Email:chagou2006@163.com

于合龍,博士,教授,主要從事知識表示與推理、農(nóng)業(yè)信息化等方面研究。Email:264496469@qq.com

10.11975/j.issn.1002-6819.2020.08.018

S24; TP391.41

A

1002-6819(2020)-08-0143-13

猜你喜歡
植物特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
哦,不怕,不怕
將植物穿身上
3D打印中的模型分割與打包
植物罷工啦?
主站蜘蛛池模板: 精品国产一二三区| 国产午夜人做人免费视频中文| 无码电影在线观看| 动漫精品啪啪一区二区三区| 日本免费新一区视频| 黄色在线不卡| 国产日韩欧美一区二区三区在线| 免费国产无遮挡又黄又爽| 亚洲欧美在线综合图区| 亚洲无码高清免费视频亚洲| 亚洲天堂久久久| 亚洲无码免费黄色网址| 欧美日韩中文国产| 国产尤物jk自慰制服喷水| 青青青国产视频手机| 国产亚洲欧美在线人成aaaa| 人妻丰满熟妇AV无码区| 在线播放真实国产乱子伦| 超碰aⅴ人人做人人爽欧美 | 青青国产视频| 国产高清在线观看91精品| 国产黄网永久免费| 在线国产欧美| 97视频免费在线观看| 中文一区二区视频| 欧美亚洲综合免费精品高清在线观看| 亚洲欧美精品日韩欧美| 久久久黄色片| 国产色婷婷视频在线观看| 国产精品香蕉在线观看不卡| 久久香蕉国产线看精品| 亚洲无码高清一区| 国产精品hd在线播放| 免费看一级毛片波多结衣| 欧美亚洲激情| 99草精品视频| 欧美中文字幕一区| 久久久久久久久久国产精品| 国产主播一区二区三区| 自拍欧美亚洲| 国产亚洲精品资源在线26u| 亚洲综合国产一区二区三区| 91色综合综合热五月激情| 98精品全国免费观看视频| 国产免费好大好硬视频| 免费激情网站| 久久久精品国产SM调教网站| 中文字幕无码av专区久久| 国产黑丝一区| 成人无码一区二区三区视频在线观看 | 日韩A级毛片一区二区三区| 中文字幕天无码久久精品视频免费| 国模在线视频一区二区三区| 污网站在线观看视频| 免费人成在线观看视频色| 国产毛片网站| 亚洲午夜福利精品无码不卡| 色婷婷成人网| 91色国产在线| 无码一区18禁| 亚洲欧美综合另类图片小说区| 在线免费看片a| 国产成人午夜福利免费无码r| 国产精品浪潮Av| 又黄又爽视频好爽视频| 久久精品丝袜| 亚洲一区色| 成年人久久黄色网站| 久久精品嫩草研究院| jijzzizz老师出水喷水喷出| 国产精彩视频在线观看| 综合五月天网| 亚洲精品第五页| 国产又色又爽又黄| 国产成a人片在线播放| 久久精品欧美一区二区| V一区无码内射国产| 午夜少妇精品视频小电影| 免费在线成人网| 日本一区二区三区精品视频| 中字无码精油按摩中出视频| 亚洲欧美在线综合图区|