陳 燕 李 想 曹 勉 胡小春 王令強
(1.廣西大學計算機與電子信息學院, 南寧 530004;2.廣西多媒體通信與網(wǎng)絡技術(shù)重點實驗室, 南寧 530004;3.廣西財經(jīng)學院大數(shù)據(jù)與人工智能學院, 南寧 530007; 4.廣西大學農(nóng)學院, 南寧 530004)
維管束為植物體輸送水分、無機鹽和有機物質(zhì),在“庫-源-流”系統(tǒng)中扮演“流”的重要角色[1]。玉米莖稈倒伏與莖稈微觀表型,如截面面積、截面不同區(qū)域的面積占比、維管束數(shù)量和各維管束面積等性狀密切相關(guān)[2]。機械組織比例等表型性狀影響莖稈的機械強度[3],從而影響作物的抗倒伏性能。由于大規(guī)模獲取莖稈截面微表型參數(shù)工作量大、效率低、測量指標有限,作物的倒伏研究主要局限在莖稈的形態(tài)學性狀和力學指標,而對莖稈的組織解剖學特征研究則較少[4]。
圖像分割就是把圖像分成若干個特定的、具有獨特性質(zhì)的區(qū)域并提出感興趣目標的技術(shù)。圖像分割方法是對圖像中屬于特定類別的像素進行分類的過程。通過對圖像的分割,以充分理解圖像中的內(nèi)容,便于對圖像各部分的關(guān)聯(lián)性進行分析。傳統(tǒng)的圖像分割方法基于灰度值的不連續(xù)和相似的性質(zhì),易受限于特定的圖像特征而欠缺泛化能力;基于深度學習的圖像分割技術(shù)是利用卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)強大的特征提取能力來理解圖像中每個像素所代表的真實物體[5],從而具有較好的穩(wěn)健性和適應性。基于深度學習的圖像分割有語義分割與實例分割,皆可在像素級別區(qū)分物體輪廓。TERAMOTO等[6]用基于U-net的語義分割方法識別溝槽剖面圖內(nèi)的水稻根系分布。FETTER等[7]提出一種使用深度卷積神經(jīng)網(wǎng)絡的系統(tǒng)來識別和統(tǒng)計銀杏顯微圖像中的氣孔,識別準確率達到98.1%,提供了針對作物微觀表型智能化研究范例。劉文波等[8]提出改進SOLO v2的實例分割方法對番茄葉部病害進行分割和識別,可保證算法的實時性和準確性。熊俊濤等[9]用Mask R-CNN對大豆葉片進行實例分割,平均分割準確率達到88.3%。文獻[10]列舉了深度學習在作物表型研究中具有代表性的工作,為作物表型的智能化識別提供了穩(wěn)健的解決方案。
基于深度學習方法在特征提取方面的優(yōu)勢明顯,無需對特征進行設(shè)計就可以實現(xiàn)對圖像特征的提取,但目前應用于作物微表型識別或組織解剖學特征的研究還很少。目前對作物莖稈微表型結(jié)構(gòu)參數(shù)的獲取和分析普遍采用顯微鏡[11]或作物成像專用電子計算機斷層掃描(Computed tomography,CT)[12]獲得莖稈截面微表型圖像,再利用傳統(tǒng)圖像分割方法對圖像進行處理。徐勝勇等[13]使用基于OpenCV的濾波、邊緣檢測等操作,對各個組織結(jié)構(gòu)進行獨立的閾值分割、拼接等操作,以此為基礎(chǔ)測量各種參數(shù),并將各種參數(shù)、性狀特征進行統(tǒng)計分析。趙歡等[14]利用基于圖形學的區(qū)帶表型解析方法,可獲取莖稈不同節(jié)間相關(guān)表型的多項指標。但此類方法對圖像目標與背景色差弱或亮度差異小,存在氣泡、過曝或曝光不足時,所獲性狀參數(shù)易出現(xiàn)較大誤差。目前僅有文獻[15]和文獻[16]是基于CNN對作物微表型識別進行研究。WU等[15]利用作物CT成像并基于SegNet 架構(gòu)的語義分割水稻莖稈微表型,用于提取水稻莖稈性狀特征參數(shù)。陳燕等[16]基于U-net架構(gòu)的語義分割對普通光學顯微鏡成像的小麥莖稈截面的組織結(jié)構(gòu)進行分割和量化,獲得小麥維管束和功能區(qū)域的表型參數(shù),為獲取小麥莖稈的微表型參數(shù)提供了較為準確的方法。
雖然語義分割和實例分割都可在像素級別對物體進行分割,但是語義分割只能分割一類對象,導致無法區(qū)分同一類別之間的不同對象;而實例分割可針對特定物體的像素進行分類、直接分割出不同個體,從而可區(qū)分不同的實例個體。玉米莖稈截面的維管束分布密集,后期需要獲得每個維管束的質(zhì)心、面積性狀參數(shù)等,除了要識別出維管束,還需區(qū)分他們的不同個體。文獻[16]提出的語義分割方法可以識別截面的維管束,但相鄰較近的個體易被識別為同一個維管束實例。
目前較為成熟的實例分割方法以Mask R-CNN[17]為代表,其分割目標通常為自然場景物體,適用于檢測數(shù)量少、物體形狀尺寸差異較大的目標。但玉米莖稈截面微表型參數(shù)的數(shù)量大、面積小且分布密集,已有的實例分割方法并不直接適用。而且,以Mask R-CNN為基礎(chǔ)的網(wǎng)絡普遍存在架構(gòu)設(shè)置不適用、推理速度較慢、占用顯存較多的問題[17]。因此,本文選用具有復合擴張能力的EfficientDet[18]作為基礎(chǔ)網(wǎng)絡架構(gòu),增加掩膜分支以實現(xiàn)實例分割,通過減少輸出特征圖的尺度數(shù)量構(gòu)造新的實例分割網(wǎng)絡Eiff-BiFPN,以提高推理速度、減少顯存的占用,從而實現(xiàn)對維管束的分割。文獻[16]對截面功能區(qū)域的分割是以MobileNet作為骨干網(wǎng)絡,但文中對小麥的截面只分為2個功能區(qū)域,識別難度較低,適合選用較為輕量型的MobileNet網(wǎng)絡。由于玉米莖稈截面需要分成表皮、周皮和髓區(qū)3個區(qū)域,而且不同功能區(qū)域之間還具有易混淆性,如果直接將文獻[16]的功能區(qū)域分割網(wǎng)絡用于玉米莖稈截面的功能區(qū)域分割,其準確率較低。因此本文選用提取特征能力更強的ResNet[19]作為骨干網(wǎng)絡,并與Unet[20]融合成為Res-Unet網(wǎng)絡模型用于玉米莖稈截面的功能區(qū)域分割。
數(shù)據(jù)集包含116份不同的玉米種質(zhì)材料,由廣西農(nóng)業(yè)科學院玉米研究所和廣西大學提供,品種有美玉27、天桂糯932、福華甜、CML161、CML171、Gui39722、Guizhao18421、PH6WC和昌7-2等,可代表溫帶和亞熱帶地區(qū)主要的玉米種質(zhì)資源。各玉米品種在試驗田的種植密度每公頃約75 000株,行長3 m,行寬0.65 m,每行種植15株,水肥管理同大田生產(chǎn)。
玉米節(jié)間莖稈徒手切片,厚度0.2~0.5 mm,用5%間苯三酚(乙醇與水的體積比為95∶5)和濃鹽酸染色,染色時間2 min,steREO Discovery.V20體視顯微鏡拍照,放大倍數(shù)為6.7~15,圖像存儲格式為TIF,分辨率為1 790像素×1 370像素。共獲取圖像180幅,其中113幅來自不同種質(zhì)材料的抽雄期莖稈自頂向下最后3個節(jié)間,其余67幅來自剩余3種樣本材料處于不同生長期的莖稈。因此,數(shù)據(jù)集中的圖像具有莖稈解剖特征的多樣性。
使用Labelme工具對每幅圖內(nèi)維管束的輪廓和功能區(qū)域的輪廓進行標注,將玉米莖稈截面分為表皮區(qū)、周皮區(qū)、髓區(qū)3個區(qū)域,得到的標注圖樣例如圖1所示。為了全面地驗證模型效果,數(shù)據(jù)集按獨立同分布的原則劃分,選擇156幅作為訓練集,其余24幅樣本作為驗證集。
本文用于玉米截面分割的網(wǎng)絡模型由兩部分組成,第1部分用于功能區(qū)域分割,以ResNet作為基準網(wǎng)絡,并與Unet融合成Res-Unet網(wǎng)絡,用于檢測、分割表皮、周皮和髓區(qū)3個功能區(qū)域;第2部分用于維管束的分割,以EfficientNet為基準網(wǎng)絡,改變BiFPN的連接方式和層數(shù),增加掩膜輸出分支,用于檢測、分割每個維管束實例。
功能區(qū)域分割用語義分割方法。選用ResNet作為骨干網(wǎng)絡,并與Unet融合成為Res-Unet網(wǎng)絡模型,用于分割截面的表皮區(qū)、周皮區(qū)和髓區(qū)。功能區(qū)分割網(wǎng)絡模型Res-Unet由解碼器和編碼器兩部分組成,網(wǎng)絡結(jié)構(gòu)如圖2所示。輸入玉米莖稈截面樣本的彩色圖像,經(jīng)過圖像預處理和圖像增強操作之后,通過編碼器ResNet對輸入圖像進行下采樣,獲取4種尺度分別為16×16×2 048、32×32×1 024、64×64×512、128×128×256的特征圖,經(jīng)過特征融合與拼接后,輸出所有功能區(qū)域分割后的彩色掩膜。

圖2 功能區(qū)域分割網(wǎng)絡模型Fig.2 Architecture of function zone segmentation network
編碼器的基礎(chǔ)卷積塊由殘差模塊組成,使用恒等映射使卷積層在輸入特征的基礎(chǔ)上學習新的特征,再提取圖像的語義特征,如輪廓、邊緣、顏色等信息。解碼器對編碼器生成的特征圖進行拼接,再利用淺層網(wǎng)絡中的語義信息輔助位置信息對圖像進行分割,并將特征精確定位并映射到圖像上。為了減少冗余計算量,根據(jù)分割結(jié)果將樣本圖裁剪為該玉米莖稈截面的最小外接矩形截圖,作為第2部分模型的輸入。
維管束分割采用實例分割方法,選用具有復合擴張能力的EfficientNet[21]作為基準網(wǎng)絡,在雙向特征金字塔BiFPN[18]結(jié)構(gòu)中減少輸出特征圖的尺度數(shù)量,通過改變內(nèi)部的連接方式以高效提取圖像特征,同時添加基于錨框的邊界框輸出分支(Box head)和類別輸出分支(Class head)兩部分,然后由檢測框(Proposal boxes)輸出到掩膜輸出分支(Mask head),構(gòu)建基于目標檢測的實例分割網(wǎng)絡Eiff-BiFPN,具體結(jié)構(gòu)如圖3所示。將圖像輸入基準網(wǎng)絡后,通過BiFPN獲得3種不同尺寸的特征圖,經(jīng)過檢測輸出、分類輸出與分割輸出分支結(jié)構(gòu)得到最后的維管束分割結(jié)果。

圖3 維管束分割網(wǎng)絡模型Fig.3 Architecture of vascular bundles segmentation network
2.2.1基準網(wǎng)絡
深度學習算法大都通過擴大網(wǎng)絡規(guī)模來提升網(wǎng)絡泛化能力,提高預測精度。擴大卷積網(wǎng)絡結(jié)構(gòu)只對網(wǎng)絡的深度、寬度和分辨率參數(shù)進行微調(diào)。為了在有限的計算資源內(nèi)獲得更高的精度,同時也為了減少調(diào)參的工作量,EfficientNet從網(wǎng)絡的深度d、寬度w(通道數(shù))和輸入圖像的尺寸r(分辨率)3個維度上進行復合擴張。網(wǎng)絡深度、寬度和分辨率的縮放存在如下關(guān)系
(1)
式中dratio——網(wǎng)絡深度縮放系數(shù)
wratio——寬度縮放系數(shù)
rratio——分辨率縮放系數(shù)
φ——縮放系數(shù)
設(shè)定φ=1,通過網(wǎng)格搜索得到dratio、wratio和rratio的最優(yōu)解,通過相應的d、w和r構(gòu)造了最小網(wǎng)絡規(guī)模的最優(yōu)模型B0[19]。φ越大,網(wǎng)絡的3個維度擴張越多,模型消耗的資源也越大,模型的精確度也越高,φ取值為1~7的整數(shù)。
2.2.2改進的BiFPN結(jié)構(gòu)
特征圖金字塔(FPN)[22]可對經(jīng)過骨干網(wǎng)絡后得到的不同尺寸的特征圖進行多尺度加權(quán)的特征提取與融合。BiFPN為雙向特征圖金字塔結(jié)構(gòu),除保持FPN自上而下和自下而上的連接外,增加了特征圖之間的跨層和跳躍連接。與FPN相比,BiFPN的特征提取能力更強,網(wǎng)絡參數(shù)更少,運行速度卻更快。
文獻[19]采用5層BiFPN結(jié)構(gòu),先將P5進行下采樣生成P6和P7,再將P3~P7共5層的特征圖進行融合。但由于P6和P7的尺寸只占原輸入的1/64與1/128,分辨率太小,在下采樣過程中容易丟失小目標的特征信息,P6和P7兩層不適用于針對維管束這類小目標的檢測任務,因此本文改變了原來的BiFPN結(jié)構(gòu)及其內(nèi)部的連接方式,只保留3層的BiFPN結(jié)構(gòu)。具體結(jié)構(gòu)如圖4所示,僅將P3~P5共3層的特征圖進行融合,使網(wǎng)絡更好地學習到小目標信息,提升維管束邊緣細節(jié)的分割效果。其中藍色箭頭和紅色箭頭為跨層連接,弧線形箭頭為跳躍連接。灰色虛線框是一個基本單元,左邊白色一列為各層的輸入,中間一列為跨層連接,右邊一列獲得輸入的雙向連接和同層的跳躍連接,同時右邊一列也作為下一個單元的輸入。此單元重復堆疊3次即構(gòu)成一個完整的BiFPN結(jié)構(gòu),并輸出3幅尺寸為32×32×64、64×64×64、128×128×64的特征圖。

圖4 多層BiFPN結(jié)構(gòu)對比Fig.4 Comparison of BiFPN structure with multiple-layers
2.2.3檢測輸出分支結(jié)構(gòu)
檢測輸出分支采用基于錨定框的檢測方法,包括對應邊界框輸出頭(Box head)和類別輸出頭(Class head)兩部分(圖3)。以每個像素為中心生成9個錨框,錨框采用大、中、小3個不同的尺寸,分別為0.5、1、2;3個比例的策略分別為1、21/3、22/3。如特征圖的下采樣率為8,尺寸為32×32,則該特征圖共生成9×32×32個錨框。
經(jīng)過BiFPN輸出的每一層特征圖分別輸入到對應邊界框輸出頭(Box head)和類別輸出頭(Class head)進行處理。Box head 輸出格式為[bs、a×4,h,w],Class head 輸出格式為[bs,a,h,w],其中bs是批量大小,a是特征圖中一個像素點錨定框的數(shù)量,h是特征圖的高。Box head的輸出為每個錨框?qū)俗⒖虻?個頂點回歸值,Class head的輸出則為每個錨框內(nèi)是否包含維管束的分類結(jié)果。當判定錨框包含真實值時,將與標注邊界框重合50%以上的錨框標記為正例。
2.2.4分割輸出分支結(jié)構(gòu)
經(jīng)過檢測分支后,可獲得每個維管束的檢測框(Proposal boxes)(圖3),然后通過分割輸出分支(Mask head)分割出框內(nèi)的維管束掩膜。分割輸出分支由3層卷積組成,將輸入的特征圖通道壓縮至3層,輸出檢測框區(qū)域像素的預測結(jié)果。在訓練過程中,使用標注框提取出相應特征圖內(nèi)的像素,使用RoIAlign[17]將其全部統(tǒng)一對齊到固定尺寸之后,得到每個檢測框內(nèi)的維管束輪廓掩膜。在推理過程中,選出置信度較高的檢測框,將框內(nèi)的特征圖像素送入掩膜輸出分支,得到框內(nèi)維管束輪廓掩膜,再將這些維管束掩膜根據(jù)檢測框的位置還原回原圖像,即可得到圖像的維管束實例分割掩膜圖像。
實驗硬件環(huán)境為B365M-POWER、32 GB內(nèi)存、NVIDIA GeForce RTX 3090顯卡、24 GB顯存、操作系統(tǒng)為Ubuntu 7.5.0,編程語言為Python 3.8,深度學習框架為Pytorch 1.7.0。
由于數(shù)據(jù)集中樣本數(shù)量較少,所以在訓練階段需要對原始數(shù)據(jù)集進行圖像增強處理,以提高訓練數(shù)據(jù)集內(nèi)樣本的多樣性,增強網(wǎng)絡的泛化性能。在功能區(qū)域分割部分,使用隨機翻轉(zhuǎn)、高斯模糊、亮度對比度變化、自適應直方圖均衡等圖像增強操作。圖像增強處理后再做統(tǒng)一的歸一化操作,目的是移除圖像中相同部分,凸顯圖像特征。歸一化具體操作將圖像RGB三通道內(nèi)所有像素各減去固定的均值,并除以標準差,將所有像素標準化處理。本文使用的均值和標準差均為ImageNet統(tǒng)計的均值和標準差,分別為[0.485, 0.456, 0.406]和[0.229, 0.224, 0.225]。
骨干網(wǎng)絡和特征提取部分的網(wǎng)絡權(quán)重可通過遷移學習將已在大規(guī)模數(shù)據(jù)集ImageNet上訓練好的網(wǎng)絡權(quán)重遷移過來,以提高網(wǎng)絡的收斂速度。整個網(wǎng)絡模型的下游解碼器和輸出分支部分,需要在訓練過程中對權(quán)重進行微調(diào)。
模型訓練中,功能區(qū)域分割網(wǎng)絡的訓練最大迭代次數(shù)設(shè)為100,批量大小為2,圖像縮放尺寸為512×512;維管束分割網(wǎng)絡訓練的最大迭代次數(shù)為200,批量大小為1,圖像縮放尺寸為1 024像素×1 024像素。
在預置錨框的設(shè)置上,采用的3種不同比例尺寸為20、21/3、22/3,3種不同長寬比為1∶1、1.25∶0.8、0.8∶1.25,即在特征圖的每一個像素上設(shè)置9個不同尺寸、不同長寬比的錨框。在3層BiFPN中,錨框最大邊長為95.2像素,最小邊長為9.6像素。
損失函數(shù)用于度量預測值和真實值的差距,可衡量模型預測的好壞,在深度學習模型中起到?jīng)Q定網(wǎng)絡優(yōu)化的作用。由于整個玉米莖稈橫截面的分割由2個相對獨立的網(wǎng)絡模型組成,對維管束分割是由檢測網(wǎng)絡架構(gòu)增加掩膜分支構(gòu)成,因此功能區(qū)域分割的Res-Unet需要一個損失函數(shù),維管束分割網(wǎng)絡中不同的輸出分支需要不同的損失函數(shù)。
(1)功能區(qū)域分割網(wǎng)絡使用交叉熵損失函數(shù)Lce
Lce(yi,pi)=yilgpi+(1-yi)lg(1-pi)
(2)
式中yi、pi——第i個樣本的真實值和預測值
(2)在維管束分割網(wǎng)絡中,Class、Box和Mask 3個頭分支分別使用不同的損失函數(shù),以評價每個頭分支的損失,最后再用3個損失函數(shù)的加權(quán)和作為維管束分割網(wǎng)絡總的損失,以評價整個維管束分割網(wǎng)絡的性能。
Class head選用適合于密集型物體檢測任務的焦點損失函數(shù)focal loss[22],表示為
(3)
式中α、γ——超參數(shù),α∈(0,∞)
Lclass——焦點損失函數(shù)
調(diào)整參數(shù)α以解決前景框和背景框數(shù)量不均衡的問題;取γ∈(0,∞),調(diào)整γ以提高難區(qū)分實例的損失權(quán)重、降低簡單樣本的損失權(quán)重。
Box head選用帶參數(shù)的回歸損失函數(shù)Huber loss[23],表示為
(4)
式中Lbox——回歸損失函數(shù)
δ——閾值參數(shù),表示真實值與預測值的偏差
當δ~0時,Huber loss會趨向于平均平方誤差MAE;當δ~∞,Huber loss會趨向于平均絕對誤差MSE。因此,Huber loss結(jié)合了MSE和MAE的優(yōu)點,相比于最小二乘的線性回歸,可降低對異常點的敏感性。
Mask head選用二元交叉熵損失函數(shù)BCE loss,表示為
Lmask=-[yilgpi+(1-yi)lg(1-pi)]
(5)
在式(2)的基礎(chǔ)上,使用獨熱編碼計算出所有框?qū)λ蓄悇e進行二分類概率的均值。
上述3個輸出頭分支的損失加權(quán)和作為維管束分割網(wǎng)絡的總體損失Lv,表示為
Lv=WclassLclass+WboxLbox+WmaskLmask
(6)
式中Wclass、Wbox、Wmask——Class、Box和Mask輸出頭的權(quán)重,取1、800、0.2
此外,選用對超參數(shù)不敏感的AdamW模型優(yōu)化器,學習率動態(tài)調(diào)整器為ReduceLROnPlateau,使每個參數(shù)都具有動態(tài)學習率,初始學習率設(shè)置為10-3,當驗證集損失值在10個迭代周期內(nèi)未下降時,將全局學習率縮小為原來的1/2。
3.4.1DICE系數(shù)
骰子系數(shù)(DICE coefficient)是一種集合相似度度量指標,用于表示2個樣本的相似程度[24]。取值范圍為0~1,其中1表示預測結(jié)果和實際結(jié)果完全重合,0表示預測結(jié)果和實際結(jié)果完全不相交,因此DICE系數(shù)越接近1表示網(wǎng)絡的性能越好。本文用DICE系數(shù)從玉米莖稈截面功能區(qū)域在像素級別上評價網(wǎng)絡模型的分割性能。
(7)
式中DICE——DICE系數(shù),%
XTP——預測為正例的正例像素數(shù)
XFP——預測為負例的正例像素數(shù)
XFN——預測為負例的負例像素數(shù)
3.4.2平均精度
平均精度(AP)表示精確率-召回率(Precision-recall)曲線與坐標軸所圍面積。
由于使用單個指標評價目標檢測模型有一定的局限性,因此使用AP作為目標檢測和實例分割的評價指標。給定一個閾值t(一般取0.5~0.9)用于表示預測框與真實框的重復置信度。如果交并比(IOU)大于t,則預測樣本為正例。例如t取值為0.7,則AP70的度量值是表示預測框與真實框的重疊區(qū)域大于兩種區(qū)域并集面積的70%及以上,才能被判定為正例。因此t越大,對應的AP就越小,評價指標就越嚴格,預測樣本被認為是正例就越困難。一般情況下,t越小,對應的AP就越大。
3.4.3平均絕對誤差
平均絕對誤差(MAPE)是衡量預測準確性的統(tǒng)計指標。MAPE可避免誤差相互抵消,能準確反映實際預測誤差的大小。
由于功能區(qū)域和維管束的分割分別由兩個獨立的網(wǎng)絡完成,因此在對實驗結(jié)果進行分析時也分別對2個不同的網(wǎng)絡模型及其性能進行評價分析。
使用本文方法對玉米莖稈截面功能區(qū)域和維管束的分割效果示例如圖5所示。圖5展示了4種具有代表性的不同品種或不同生長期的玉米莖稈截面分割結(jié)果。其中圖5b為對功能區(qū)域分割的結(jié)果,紅色為表皮區(qū)域,綠色為周皮區(qū)域,藍色為髓區(qū)區(qū)域;圖5c為對維管束分割的結(jié)果,圖中不同顏色的掩膜代表不同的維管束實例。

圖5 功能區(qū)分割與維管束分割結(jié)果Fig.5 Results of functional zone segmentation and vascular bundles segmentation
3.5.1功能區(qū)域分割網(wǎng)絡性能分析
先分析本文所設(shè)計的用于功能區(qū)域分割網(wǎng)絡Res-Unet的性能,再用DICE系數(shù)作為功能區(qū)域分割性能的評價指標,分析對表皮、周皮和髓區(qū)3個功能區(qū)域的分割性能。
3.5.1.1網(wǎng)絡模型性能分析
主要分析針對骨干網(wǎng)絡ResNet不同層數(shù)的構(gòu)造對各功能區(qū)域分割的DICE系數(shù),以選擇合適的層數(shù)搭建實用的Res-Unet網(wǎng)絡。
基于不同層數(shù)的Res-Unet模型對功能區(qū)域分割的DICE系數(shù)如表1所示。由表1可看出,當骨干網(wǎng)絡為ResNet18時對功能區(qū)域分割效果最好,3個區(qū)域的DICE都達到84%以上,平均DICE達到88.17%,其中髓區(qū)區(qū)域的DICE達到93.61%。其中,對表皮區(qū)域分割準確率略低的原因可能是部分切片較厚,用顯微鏡拍攝圖像的表皮邊緣出現(xiàn)陰影。此外,隨著骨干網(wǎng)絡層數(shù)增加,表1中各區(qū)域的DICE沒有明顯提升,這說明隨著網(wǎng)絡模型的深度增加,模型出現(xiàn)了過擬合現(xiàn)象。

表1 不同骨干網(wǎng)絡下的DICE對比Tab.1 Comparison of DICE under different backbones %
3.5.1.2與其他文獻方法對比分析
與文獻[16]方法進行對比,結(jié)果如表2所示。由表2可得,本文方法在功能區(qū)域上的分割性能整體優(yōu)于文獻[16]的方法。

表2 DICE對比Tab.2 Comparison of DICE %
根據(jù)表3可知,本文方法所獲取的參數(shù)在MAPE上與文獻[16]相比有明顯降低,在功能區(qū)域平均面積上降低38.232個百分點。由于文獻[16]中有關(guān)功能區(qū)域劃分不一致,表皮區(qū)域面積雖然具有一定誤差,但尚在可接受范圍內(nèi),但是對于周皮區(qū)域面積與髓區(qū)區(qū)域面積的獲取上幾乎呈現(xiàn)出無法識別的狀態(tài),與人工標注值誤差巨大。

表3 功能區(qū)分割網(wǎng)絡的平均絕對誤差對比Tab.3 Comparison of MAPE in function area segmentation network %
3.5.2維管束分割網(wǎng)絡性能分析
先分析本文所設(shè)計的用于維管束分割網(wǎng)絡Eiff-BiFPN的性能,再用AP作為評價指標分析維管束分割的性能。
3.5.2.1網(wǎng)絡模型性能分析
首先分析維管束分割在EfficientNet不同級別縮放系數(shù)的性能,再分析在不同層數(shù)BiFPN的性能,以選擇最合適的結(jié)構(gòu)用于Eiff-BiFPN網(wǎng)絡分割維管束。
基于3層BiFPN使用不同縮放系數(shù)的EfficientNet訓練,維管束分割AP性能如表4所示。由表4可知,系數(shù)為B4的分割效果最好。

表4 不同骨干網(wǎng)絡的維管束分割網(wǎng)絡的AP (使用3層BiFPN)Tab.4 AP of vascular bundles segmentation network under different backbones (with three layers BiFPN) %
基于EfficientNet-B4,使用不同層數(shù)的BiFPN做訓練,維管束分割AP性能如表5所示。由表5可知,3層BiFPN的特征提取效果最好。

表5 不同BiFPN結(jié)構(gòu)的維管束分割網(wǎng)絡的AP (以EfficientNet-B4為骨干網(wǎng)絡)Tab.5 AP of vascular bundles segmentation network under different of BiFPN (with EfficientNet-B4 as backbone) %
骨干網(wǎng)絡縮放系數(shù)越小、BiFPN特征圖層級越少,網(wǎng)絡越容易因為缺少充分利用數(shù)據(jù)而出現(xiàn)欠擬合的現(xiàn)象;骨干網(wǎng)絡縮放系數(shù)越大、BiFPN特征圖層級越多,網(wǎng)絡越容易因為訓練數(shù)據(jù)中的細節(jié)和噪聲而出現(xiàn)過擬合的現(xiàn)象。通過對比實驗分析,骨干網(wǎng)絡為EfficientNet-B4、使用3層BiFPN的網(wǎng)絡能夠獲得最好的分割結(jié)果。
3.5.2.2網(wǎng)絡模型預測結(jié)果可視化分析
為直觀體現(xiàn)維管束分割任務的效果,利用驗證集的24個樣本的維管束數(shù)量和維管束平均面積分析預測結(jié)果和原始標注的擬合程度,如圖6所示。從圖6a可見,兩個數(shù)值回歸到最小二乘法擬合直線上。圖6b為測試集中每個樣本的維管束平均標注面積和預測面積的曲線,從圖中可見,大部分樣本的預測值與標注值較為接近,部分甚至幾乎一致,但也有少部分差異較大,其中差異最大達到0.019 7 mm2,這與人工標注原始圖像存在一定誤差有關(guān)。

圖6 維管束數(shù)量與面積的預測結(jié)果Fig.6 Prediction results of vascular bundle number and area
3.5.2.3與其他文獻方法對比分析
選擇在維管束數(shù)量、維管束面積方面與文獻[16]的方法對比。由于玉米的莖稈截面微表型形態(tài)比小麥復雜,文獻[16]網(wǎng)絡模型無法對玉米莖稈截面微表型特征進行良好的訓練和擬合。根據(jù)表6可知,本文方法所獲取的參數(shù)在MAPE上與文獻[16]相比有明顯降低,在維管束數(shù)量和面積上分別降低16.268、1.768個百分點。

表6 維管束分割網(wǎng)絡的平均絕對誤差對比Tab.6 Comparison of MAPE in vascular bundle segmentation network %
從表7可見,在AP50∶70上本文方法更優(yōu),其中只有AP70值略低。

表7 AP值對比Tab.7 Comparison of AP %
在維管束的分割任務上,與應用最廣泛的實例分割網(wǎng)絡Mask R-CNN模型進行對比,比較的指標除了AP之外,還對存儲內(nèi)存占用量和推理內(nèi)存占用量兩方面進行比較,結(jié)果如表8所示。

表8 所需內(nèi)存對比Tab.8 Comparison of memory
在存儲內(nèi)存占用量和推理內(nèi)存占用量方面,本文方法均比Mask R-CNN所需要的內(nèi)存少。其中,Mask R-CNN推理單幅圖像占用的顯存就超過 24 GB,因此必須使用壓縮圖像算法才能完成維管束的分割任務。而本文方法在不使用壓縮算法處理的情況下,單幅圖像推理占用顯存僅為13 GB,節(jié)省50%。因此,即使是在推理階段,Mask R-CNN方法的實用性也較差。
(1)在功能區(qū)域分割任務中,平均DICE達到88.17%;在維管束實例分割任務中,AP50達到88.78%,AP50∶70達到72.80%。
(2)與常用的實例分割網(wǎng)絡Mask R-CNN相比,本文方法在不同閾值下的AP指標表現(xiàn)更佳,且不需用壓縮算法即可完成推理,所需存儲內(nèi)存占用量更少,獲取參數(shù)的平均絕對誤差更低。
(3)與文獻[16]相比,本文方法的功能區(qū)域分割網(wǎng)絡更適用于玉米莖稈,DICE系數(shù)更高;在維管束數(shù)量和面積上分別降低16.268、1.768個百分點,在功能區(qū)域平均面積上降低38.232個百分點。