王琢 汪雅婷 宋文龍 莫沖
摘? 要:為了保證植物葉片圖像采集質量,提高植物表型葉片圖像分割精度,建立一種基于深度學習的葉片圖像分割方法。以Caffe深度學習框架為基礎,構建全卷積神經網絡(FCN),采用有監督的學習方法,通過對數據集標注、數據集標簽制作,實現葉片圖像的分割。該方法充分發揮了FCN不限制輸入圖像的大小,實現端到端的圖像分割的特點。同時采用數據增強方法,解決了在葉片數據集稀缺條件下,訓練時間長,不容易收斂的問題。實驗結果表明,深度學習在植物葉片分割中效果顯著,像素準確率達到了91%,Mean IU達到了78.52%,技術指標優于大部分傳統圖像分割算法。
關鍵詞:全卷積神經網絡;圖像分割;數據增強;植物葉片
中圖分類號:S781.1; Q6-3 文獻標識碼:A 文章編號:1006-8023(2019)01-0042-05
Abstract: In order to ensure the image acquisition quality of plant leaves and improve the image segmentation accuracy of plant phenotypes, a segmentation method based on deep learning was established. Based on the Caffe deep learning framework, a full convolutional neural network (FCN) was constructed. The supervised learning method was adopted to realize the segmentation of the leaf image by labeling datasets and creating dataset labels. This method fully utilized the feature that the FCN did not limit the size of the input image and achieved end-to-end image segmentation. At the same time, the data augmentation method was used to solve the problem that the training time was long and the convergence was not easy under the condition that the blade data set was scarce. The experimental results showed that the deep learning effect was remarkable in the division of plant leaves, pixel accuracy reached 91%, Mean IU reached 78.52%, technical indicators was better than most of the traditional image segmentation algorithm.
Keywords:Fully convolutional neural networks; image segmentation; data enhancement; plant leaves
0 引言
植物是地球上物種數量最多、分布最廣泛的生命形式。它是生態資源中最重要的部分,植物在人類生活中扮演著十分重要的角色。葉片是植物制造營養物質的器官,是其生長和結果的基礎。利用植物葉片進行植物分類和識別是最有效、最經濟的方法。而有效識別植物葉片的前提是把植物葉片從背景中分離出來,這是植物葉片圖像處理中的關鍵環節。只有通過植物葉片圖像的合理分割,對植物的分析才成為可能。葉片圖像分割的本質是將像素進行分類,利用機器視覺和圖像處理技術將植物葉片從背景中分割出來。很多傳統的圖像分割技術,例如直方圖閾值法、邊緣檢測法、基于區域的方法以及基于隨機場的方法等,都是利用植物葉片圖像的邊緣像素灰度值大幅度劇烈變化,其本質仍然僅僅利用到了圖像灰度特征信息[1-6]。此類方法在單葉片及簡單場景下能夠獲得較好的分割效果,但對于解決復雜背景尤其是葉片在線無損檢測中分割效果不理想,受背景噪聲、環境場景影響較大,系統魯棒性較差,不能夠給出有效的語義信息。
隨著現代高性能計算的發展,在人工智能領域中深度學習技術越來越多的應用到了科學研究與工業生產之中,其中卷積神經網絡(convolutional neural network,CNN)是深度學習網絡應用最為普遍的的一種[7-10]。針對復雜背景下葉片分割效果不理想,受背景噪聲、環境場景影響較大,系統魯棒性較差等問題,提出一種利用全卷積神經網絡(FCN)[11-14]的深度學習葉片圖像分割方法,使用有監督學習的方法訓練FCN用于植物葉片檢測。
1 研究方法
1.1葉片分割網絡模型結構
卷積神經網絡(CNN)所構建的是多層具有自主學習的網絡架構,在圖像分類中應用最為廣泛,但CNN網絡在特征抽象過程中往往容易丟失圖像的細節信息,對對象輪廓描述不清,因此在圖像分割領域CNN網絡存在局限性,應用較少。
針對CNN在圖像細節處理中存在的問題,加州大學伯克利分校的Jonathan Long等人提出了改進型網絡架構,端到端的Fully Convolutional Networks(FCN)[15-22]。
FCN和CNN的最大區別在于它將CNN中的全連接層都轉換成了卷積層。圖像作為輸入數據進入FCN網絡,前面的5個卷積層與CNN網絡是相同的,但后三層的全連接層替換為卷積層。與CNN全連接層之后的一維輸出不同,FCN卷積層后的輸出仍然是二維矩陣。
通過對植物葉片特征的分析,研究中所使用的全卷積神經網絡,是在VGG-16網絡模型的基礎上,去掉了softmax層。VGG-16是牛津大學計算機視覺組(Visual Geometry Group)和Google DeepMind公司的研究員共同開發的深度卷積神經網絡[23-24],網絡模型如圖1所示。
表1展示了全卷積網絡模型中部分卷積層和池化層的參數設置,其中:Conv*-*表示卷積層,Pool*表示池化層。由表1可以看出,隨著圖像每次卷積的操作,圖像的維度就會增加。因此需要池化操作對圖像進行降維。然后再進行下一次的卷積過程。另外,由于模型訓練的數據集數量有限,模型容易出現過擬合現象。為了防止過擬合,在訓練模型中加入Dropout層。Dropout是目前深度學習中最常用的方法。其本質就是丟棄掉部分模型參數,提高模型的魯棒性。在全連接層前的卷積層加入Dropout層,可以有效地減少過擬合。
1.2 數據采集
獲取圖像數據是數據集制作的前提。研究葉片圖像分割的算法,數據集需要有原圖像以及圖像的標簽(label)兩部分。為了獲得足夠的標注的葉片圖像數據集,采用從Internet檢索公共數據集的方法,檢索到CVPPP數據集。
CVPPP全稱是COMPUTER VISION PROBLEMS IN PLANT PHENOTYPING,即“計算機視覺在植物表型方面的挑戰”是歐洲IMT高級研究院為推動植物葉片研究而舉辦的研討會。為了推動葉片分割領域的發展,展示在植物圖像中分割所有葉片圖片的困難性,IMT研究院組織了葉片分割挑戰賽(Leaf Segmentation Challenge,LSC),LSC挑戰賽提供了植物表型數據集。該數據集提供帶注釋的成像數據,并為植物葉片分割、檢測、跟蹤以及分類和回歸問題提出合適的評估標準。
由于CVPPP數據集提供的圖像標簽無法直接作為本研究實驗圖片標簽使用,因此對葉片圖像進行了重新標注。
全卷積神經網絡進行有監督的訓練過程中需要對應人工標注過的分割圖片,在實驗中使用是麻省理工學院(MIT)的開源標注工具Labelme,Labelme是一個圖形圖像注釋工具,使用Qt作為圖形界面,并支持語義和實例分段的注釋。所以實驗中對數據集進行人工標注。
研究中選取煙草和擬南芥兩種植物在不同時間段的葉片圖片圖像,圖像大小:500×500像素;水平分辨率:96 DPI;垂直分辨率:96 DPI;位深度:24。
1.3 數據增強
數據增強是深度學習中非常常用的一種擴增數據集的方法。因為圖像是高維的并包括各種巨大的變化因素。即使模型已經使用了卷積和池化技術對部分評議保持不變,沿訓練圖像每個方向平移幾個像素的操作通常也可以大大改善泛化。卷積神經網絡需要優化提高深度學習模型最好的辦法是使用更多的數據進行訓練。CVPPP數據集經過整理后得到的數據圖片及標簽圖片共760張,這個數據量是十分有限的。為了提高訓練數據數量與數據質量,以及減少訓練模型時的過擬合現象,研究中采取了一些常用的數據增強方法,如平移變換、旋轉變換。數據增強后的部分葉片圖像。
1.4模型訓練
實驗中將數據集劃分為兩部分,總數的80%為訓練集用來進行模型訓練,20%為測試集對模型進行測試驗證。因為在全卷積神經網絡中無需限制輸入圖像的大小,因此這里采用的數據集圖片尺寸不相同。最終將葉片圖像數據集劃分為6 240張訓練圖片和1 360張測試圖片。
2 實驗結果與分析
按照1.2中描述的網絡模型進行訓練后完成了網絡模型參數的設定,設計了按照3種不同跳躍層結構下和不同迭代次數下的實驗方案。
3種不同的方案上采樣方式分別命名為FCN-8s、FCN-16s、FCN-32s。實驗中,通過對1 360張測試圖片的實驗,對這3種方式分別進行了測試。研究中采用經典的圖像分割評判指標Mean IU(平均IU)。Mean IU是圖像分割的度量指標,為通過預測像素值與作為最終指標原始像素的總和的正確交集,在每個類上計算IU,之后平均獲得Mean IU。
表2為FCN-32s、FCN-16s和FCN-8s 3種上采樣結構準確率的對比,從表中可以獲得3種上采樣的像素準確率、平均準確率和Mean IU。
從表2中可以看出:無論是像素準確率、平均準確率和Mean IU ,FCN-8s都是最高的,像素準確率達到了91.87%。平均準確率達到了87.83%,Mean IU為78.52%,模型對葉片圖像具有良好的適應性和較高的準確率。其平均準確率低于像素準確率,是因為平均準確率的計算綜合了圖像中全部類別的信息,測試集數據量大也是導致平均準確率和Mean IU低的原因。
在3種不同上采樣方式的分割結果。FCN-32s情況下的分割圖片十分粗糙,基本無法看出葉片圖像的形狀。FCN-16s情況下分割輪廓有明顯改善,而FCN-8s的分割結果與標簽圖片十分接近,葉片輪廓清晰,形狀與原圖一致。因此可得出結論,FCN-8s下的分割結果最為理想,實驗中選擇FCN-8s網絡結構。
實驗搭建的卷積神經網絡求解目標是最小化損失函數。訓練狀態曲線,縱坐標為loss值和準確率,橫坐標為模型的迭代次數。
為了可視化模型的數據,將保存后的不同迭代次數下的模型進行測試,通過比較可以證實,實驗迭代5萬次時的分割效果最好。
綜上所述,模型在迭代5萬次的情況下,FCN-8s的網絡結構對葉片圖像的分割效果最好。而FCN-8s的網絡結構對于葉片的輪廓刻畫的最好,且對葉片細節信息的展示比較好。準確率高,Mean IU 達到了78.52%。
3 結論
研究中提出將深度學習用于對植物葉片進行圖像分割,并綜合應用FCN,數字圖像處理技術對葉片圖像進行了分析。由于選取的葉片數據集數量不足,使用了平移變換和旋轉變換兩種數據增強的方法,抑制了模型的過擬合。針對葉片圖像分割細節缺失的問題,對FCN模型3種不同方式上采樣網絡結構進行了研究和分析,通過實驗對比,得出FCN-8s情況下的葉片圖像分割效果最好。像素準確率達到了91%,Mean IU達到了78.52%。通過實驗對比模型在不同迭代次數下的表現,驗證了模型的適應性和穩定性。
【參 考 文 獻】
[1]羅希平,田捷,諸葛嬰,等.圖像分割方法綜述[J].模式識別與人工智能,1999(3):300-312.
LUO X P, TIAN J, ZHU G Y, et al. A survey on image segmentation methods[J]. Pattern Recognition and Artificial Intelligence, 1999(3):300-312.
[2]張善文,張云龍,尚怡君.1種基于Otsu算法的植物病害葉片圖像分割方法[J].江蘇農業科學,2014,42(4):337-339.
ZHANG S W, ZHANG Y L, SHANG Y J. 1 Image segmentation method of plant disease leaf based on otsu algorithm[J]. Jiangsu Agricultural Science, 2014, 42(4):337-339.
[3]軒永倉.基于全卷積神經網絡的大田復雜場景圖像的語義分割研究[D].西安:西北農林科技大學,2017.
XUAN Y C. Research on the semantic segmentation of complex scene image of field based on fully convolutional networks[D]. Xi an: Northwest Agriculture and Forestry University, 2017.
[4]INGROUILLE M J, LAIRD S M. A quantitative approach to oak variability in some north London woodlands[J]. London Naturalist, 1986, 65: 35-46.
[5]FRANZ E, GEBHARDT M R, UNKLESBAY K B.? Shape description of completely visible and partially occluded leaves for identifying plants in digital images[J]. Transaction of the ASEA, 1991, 34(2): 673-681.
[6]YONEKAWA S, SAKAI N, KITANI O. Identification of idealized leaf types using simple dimensionless shape factors by image analysis[J]. Transactions of the ASABE, 1996, 39(4):1525-1533.
[7]SODERKVIST O J O. Computer vision classification of leaves from Swedish trees[D]. Linkoping: Linkoping University, 2001.
[8]VILLENA-ROMAN J, LANA-SERRANO S, CRISTOBAL J C G. DAEDALUS at ImageCLEF 2011 plant identification task: using SIFT keypoints for object detection[C]. Amsterdam: CLEF 2011 Labs and Workshop, 2011:19-22.
[9]ROSSATTO D R, CASANOVA D, KOLB R M, et al. Fractal analysis of leaf-texture properties as a tool for taxonomic and identification purposes: a case study with species from Neotropical Melastomataceae (Miconieae tribe)[J]. Plant Systematics and Evolution, 2011, 291(1-2):103-116.
[10]MALLAH C, COPE J, ORWELL J. Plant leaf classification using probabilistic integration of shape, texture and margin features[J]. Acta Press, 2013, 3842(4):107-111.
[11]周昌雄.基于活動輪廓模型的圖像分割方法研究[D].南京:南京航空航天大學, 2005.
ZHOU C X. Research on method of image segmentation based on active contour model[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2005.
[12]馮林,管慧娟,荊燾,等.基于分水嶺變換和核聚類算法的圖像分割 大連理工大學學報, 2006, 46(6):851-856.
FENG L, GUAN H J, JING T, et al. A method of image segmentation based on watershed translation and kernel clustering[J]. Journal of Dalian University of Technology, 2006, 46(6):851-856.
[13]秦緒佳,杜軼誠,張素瓊,等.基于邊緣信息C_V模型的醫學圖像分割方法[J].小型微型計算機系統,2011,32(5):972-977.
QIN X J, DU Y C, ZHANG S Q, et al. Boundary information based C_V model method for medical image segmentation[J]. Journal of Chinese Computer Systems, 2011, 32(5):972-977.
[14]程玉柱,蔡云飛.基于分數階CV模型的木材缺陷圖像分割算法[J].林業機械與木工設備,2018,46(4):44-47.
CHENG Y Z, CAI Y F. Wood defect image segmentation algorithm based on fractional order CV model[J]. Forestry Machinery & Woodworking Equipment, 2018, 46(4):44-47.
[15]何寧, 張朋. 基于邊緣和區域信息相結合的變分水平集圖像分割方法[J].電子學報, 2009, 37(10):2215-2219.
HE N, ZHANG P. Varitional level set image segmentation method based on boundary and region information[J]. Acta Electronica Sinica, 2009, 37(10):2215-2219.
[16]沙莎, 彭麗, 羅三定. 邊緣信息引導的閾值圖像分割算法[J]. 中國圖象圖形學報, 2010, 15(3):490-494.
SHA S, PENG L, LUO S D. A threshold image segmentation algorithm directed by edge information[J]. Journal of Image and Graphics, 2010, 15(3):490-494.
[17]董金勇, 王建侖, 李道亮,等. 田間棗樹葉片復雜目標圖像綜合分割方法[J]. 農業機械學報, 2011, 42(1):165-170.
DONG J Y, WANG J L, LI D L, et al. Complex target image of field Jujube leaf segmentation based on integrated technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2011, 42(1):165-170.
[18]王建侖. 田間葉片圖像分割與單幅三維重建的機器視覺算法研究[D]. 北京:中國農業大學, 2013.
WANG J L. Study on field leaf image segmentation and 3D reconstruction from a single image machine vision algorithms[D]. Beijing: China Agricultural University, 2013.
[19]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.
[20]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[21]HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[22]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1097-1105.
[23]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. Computer Vision and Pattern Recognition, IEEE, 2015:3431-3440.
[24]林開顏, 吳軍輝, 徐立鴻. 彩色圖像分割方法綜述[J]. 中國圖象圖形學報, 2005, 10(1):1-10.
LIN K Y, WU J H, XU L H. A Survey on color image segmentation techniques[J]. Journal of Image and Graphics, 2005, 10(1):1-10.