韓仲志 萬劍華
(中國石油大學(華東) 地球科學學院1,青島 266580)(青島農業大學理學與信息科學學院2,青島 266109)
基于Kernel-ICA和X-ray成像的品種分類研究
韓仲志1,2萬劍華1
(中國石油大學(華東) 地球科學學院1,青島 266580)(青島農業大學理學與信息科學學院2,青島 266109)
對農作物品種正確分類是作物分類學的重要內容,為考察X-ray成像技術對小麥品種分類研究的有效性,基于軟X-ray成像儀采集的3品種(Kama, Rosa and Canadian)每個品種70個籽粒,共210個籽粒樣本的X-ray掃描圖像,并針對其7個形態幾何特征(面積、周長、緊致度、籽粒長度 、寬度、偏斜度、種子腹溝長度),提出了一種使用Kernel-ICA的方法先對特征進行優化,再進行小麥品種的聚類與識別的方法,并與K-means、C-means 2種聚類方法以及基于工神經網絡(ANN)和支持向量機(SVM)2種識別方法的分類結果進行比較,結果發現:分類正確率從高到低分別為:Kernel-ICA、SVM、C-means、 K-means、BP-ANN,分類正確率分別為: 91.9%、90.5%、89.5%、87.1%、86.9%。研究提出的Kernel-ICA的方法,聚類優化和識別能力較強,對軟X-ray成像的小麥品種進行分類,已基本上滿足農藝上對小麥品種分類需要,對農作物種質資源鑒別和作物品種分類研究具有積極意義。
小麥 Kernel-ICA X-ray成像 品種分類
作物的種子是作物重要的生理器官,其外觀表現是基因型與環境互作用的結果,具有重要的植物分類學意義。計算機視覺代替人眼,廣泛應用于植物種質資源的鑒定。在可見光區,基于圖像處理,楊錦忠等[1]研究了玉米仔粒、果穗的品種DUS測試方法、韓仲志等[2-3]研究了花生、玉米種子的品種識別問題,并提取了50多個應用于作物分類學的特征。計算機視覺在水稻等其他作物上有廣泛應用[4],小麥方面,Dubey B.P.[5]使用神經網絡用來對小麥品種進行識別。然而這些研究僅限于可見光圖像。M. Charytanowicz 等[6]研究了X-ray圖像的小麥品種分類問題,提出一種基于梯度的聚類算法對小麥X-ray圖像進行特征分析,并與K均值聚類方法進行了比較。
基于此數據本研究擬從識別和聚類2個角度研究小麥種子X-ray圖像的植物分類學方法,分別使用了SVM識別模型和基于核函數(Kernel)獨立分量分析(K-ICA)聚類模型,與BP神經網絡和K均值聚類算法相比,識別和聚類效果更好。
數據來源為著名的加州大學爾灣分校的UCI機器學習數據庫[7],數據為波蘭農業物理研究所位于盧布林實驗田種植的3個品種(Kama, Rosa and Canadian),每個樣本70個籽粒,共210個籽粒樣品,通過KODAK X-ray 儀,獲得籽粒內部結構的軟X-ray成像,成像大小為13 cm×18 cm,然后用平板式照片掃描儀(Epson Perfection V700)掃描,分辨率為600 dpi,8 bit灰度階,保存為位圖文件格式(bitmap)以備后用。圖1為其中1幅圖像。

圖1 小麥籽粒的X-ray圖像
首先測量了每個籽粒采集了7個幾何特征:面積(area A), 周長(perimeter P), 緊致度(compactness C=4pA/P2),籽粒長度 (length of kernel),寬度(width of kernel), 偏斜度(asymmetry coefficient)and 種子腹溝長度(length of kernel groove)。將3個品種依次編號為1-3,這些特征可以很方便的從二值圖像上得出,對種子偏斜度和腹溝長度的定義請參見文獻[2]。
表1是特征數據的均值表,圖2為特征數據分布的箱形圖,均值表和箱型圖反應了特征數據的大致分布。UCI提供的數據存在部分空值(NAN),預處理時用同類的鄰值代替。

表1 特征數據的均值表

圖2 特征數據分布箱型圖
研究涉及到的聚類方法主要有BP神經網絡(BP-ANN)[8]、支持向量機(SVM)[9]、K-均值(K-means)、C-均值(C-means)、核獨立分量分析(Kernel—ICA,K-ICA)[10-11]。
獨立分量分析(ICA,Independent Component Analysis),源于盲信號分離(BSS),最早是解決“雞尾酒會”的混合語音信號分解問題,它一種基于數據高階統計量(四階統計量)的非高斯信號處理方法,用于特征的優化可以從中找到最為獨立的特征,這樣就從一定程度上減少了數據之間的冗余,提高了數據的可分性。 K-ICA算法是在特征優化過程中利用了核函數的思想,核函數的作用是避免計算高維變換,直接用低維度的參數帶入核函數來計算高維度的向量的內積,K-ICA可選擇的核函數有:高斯核函數(gaussian)、多項式核函(poly)、埃爾米特核函數(hermite),當然用戶也可以根據自己的需要創建核函數。另外在做數據的獨立分量分析之前需要先對數據進行白化和中心化,可選擇使用主分量分析(PCA)對特征數據進行去相關。獨立分量分析雖然能在最大程度上找到獨立分量,但是并沒有好的方法對獨立分量的順序和幅值方向進行標記,這往往會導致幅值為負的情況出現,需要增加一些后處理手段進行校正。
在進行識別或聚類之前,首先需要對數據進行白化,然后進行PCA,按照主分分量的貢獻率進行排序,得到7維的特征映射features,在使用K-ICA之間隨機生成初始混合矩陣W,得到混合向量x=features×W;使用K-ICA求得解混合矩陣Wcca,求得sestimate=Wcca×features′,然后使用K均值進行分類。
圖3a、圖3b是使用K均值(Kmeans)和C均值(Cmeans)聚類的結果,在聚類時初始的聚類中心,是在3個類別中分別隨機獲取一個作為初始的聚類中心。圖3c是使用k-ICA的聚類結果。從圖3直觀上可明顯看出,經過K-ICA變換后聚類效果更好,數據的可分性增強。
圖4為2種方法的聚類識別結果,可以看出,只有少量的樣本聚類錯誤,絕大部分樣本聚類結果正確。
表2列出了3個類別的聚類樣本數和識別結果,樣本數上反應了2種聚類效果基本相當,都是判別為第2類的減少,判斷為第1類和第3類的增加,其中第3類增加明顯。從識別結果上看,Kernel-ICA的識別結果達到91.9%,較Kmeans聚類的87.1%有了明顯的提高。由于K-ICA算法進行了數據白化,所以其聚類中心只是相對值。可以使用反白化的手段找到其絕對值,有待進一步研究。

表2 聚類每類的結果

圖4 經KICA變換前后K均值的識別結果
首先用神經網絡進行品種識別,選用的神經網絡模型為BP神經網絡,3層神經網絡,隱含層采用取5,采用(特征數+類別數)的一半經驗數;支持向量機進行識別。選用的核函數是徑向基RBF核函數,其中的2個參數C和gamma可由系統默認給出。
訓練和測試過程采用7折交叉驗證法,即隨機選取70組數據中的60組作為訓練集,10組作為測試集。
圖5中形象地顯示了其中1次訓練集和預測集的識別結果,圖5a為訓練集數據識別結果,圖5b為測試集數據識別結果。總體上來看預測效果均比較好。

圖5 ANN、SVM方法識別結果
圖6是2種方法的預測相對誤差,可以看出SVM識別模型比BP神經網絡識別模型具有較大的優勢。

圖6 ANN、SVM的誤差
為了詳細比較SVM和ANN 2種模型的預測性能,主要采用4個參數指標:平均平方誤差(Mean squared error,MSE)和平均相關系數(Squared correlation coefficient,R2)、識別率(correct recognition rata,%)和時間(t)評價時間衡量模型對回歸問題的性能, MSE越小、R2越接近于1模型的性能越好。模型性能結果見表3。
表3中的模型預測性能指標對模型的性能進行了量化,從表3不難看出SVM的總體性能較ANN的預測性能好,訓練集的性能普遍比測試集好,這是可以理解的。測試集預測性能表明了模型的泛化能力,比較研究人工神經網絡(ANN)和支持向量機(SVM)的識別模型,其訓練集和測試集識別率分別為93.9%、94.4%和80.0%、86.7%,誤差比較小。

表3 ANN和SVM模型預測性能指標
數據分布箱形圖反應了范圍不同,在進行識別時由于其量綱的不同,數據之間沒有可比性,因此需要對數據進行歸一化。將所有數據都歸一化到相同的范圍。然而這樣操作隱含著一個前提假設是,各個特征對品種識別的貢獻是相同的,事實上,各個特征對品種識別的貢獻率是不同的,因此可考慮特征加權,單特征ROC曲線下面積可作為權值的一種參考,方法有待進一步研究。
交叉驗證法(CV,Cross Validation)是廣泛采用的模型驗證方法,本研究采用的是7折交叉驗證,由于是隨機選擇的訓練樣本和測試樣本,所以每次試驗樣本不同,致使每次識別結果也不同,沒有特別說明則是基于統計10次的平均值。
X-ray成像廣泛應用與醫學領域,然而基于此技術對農產品種子進行鑒別研究資料匱乏,本文利用該技術對小麥種子的識別,充分說明該技術農業應用是可行的,對推動農業領域的X-ray應用具有積極意義。
在進行品種識別時使用了210個籽粒樣本,所采集的樣本數量較少,另外數據是基于UCI數據庫已經測得的數據進行的,UCI數據庫是國際廣泛使用的機器視覺數據庫,其運算結果具有廣泛的推廣意義。如果適當使用國內種植面積較為廣泛的品種試驗,將更有現實意義。
本研究是基于一種新的方法(Kernel-ICA)應用在先進技術(X-ray成像技術)在新的領域(小麥品種分類)而進行的前瞻性和探討性的研究,目前來看與實際市場應用還有一段的距離,普及使用也需要較長的時間,不過作為一種前瞻性研究,具有一定的價值,為相關技術新領域應用具有積極的意義。X-ray成像作為一種先進醫用電磁波透射技術,雖然不能提供外觀、顏色等信息,但能對組織器官的密度和厚度進行直接成像,能超精細反應其形態和全貌,小麥種子作為重要的生物學器官,X-ray技術能夠反映出常規CCD不能反應的內部信息,可有效應用與品種分類。另外,X-ray成像可精細反映密度信息,所以該技術同樣可廣泛應用于對其品質的分析中。
分類識別是基于某些參數進行的,分類結果好壞與參數的選擇具有重要關系,Kernel-ICA是一種有效的參數優化方法,并巧妙地解決了高維獨立性問題,當然,特征參數的提取與優化,有很多其他的有價值的手段和方法,具有商業價值的分類技術需要對相關方法進行系統性的比較、模型優化與規模化測試,需要進一步做大量的工作。
基于210個軟X-ray成像儀采集的3品種(Kama, Rosa and Canadian)X-ray掃描圖像,從而提取的7個形態幾何特征分別,并使用交叉驗證法,比較研究人工神經網絡(ANN)和支持向量機(SVM)的識別模型,發現在小樣本情況下 SVM模型識別結果穩定可靠,比較了K-means、Kernel-ICA 2種聚類方法,發現經過Kernel-ICA特征提取后明顯地提高了算法的聚類性能,通過軟X-ray實現的分類與聚類模型,識別率達到92%左右,已基本上滿足農業上對小麥品種鑒別需要,該方法對農作物種質識別具有積極意義。
[1]楊錦忠,張洪生,趙延明,等.玉米穗粒重與果穗三維幾何特征關系的定量研究[J].中國農業科學,2010,43(21):4367-4374
[2]韓仲志,趙友剛.花生莢果圖像品種識別與DUS測試研究[J].作物學報,2012.38(3):535-540
[3]韓仲志,趙友剛,楊錦忠. 基于籽粒RGB圖像獨立分量的玉米胚部特征檢測[J].農業工程學報,2010,26(3):222-226
[4]Sakai N, Yonekawa S, Matsuzaki A, et al. Two-dimensional image analysis of the shape of rice and its application to separating varieties[J]. Journal of Food Engineering, 1996, 27(4): 397-407
[5]Dubey B P, Bhagwat S G, Shouche S P, et al. Potential of artificial neural networks in varietal identification using morphometry of wheat grains[J]. Biosystems engineering, 2006, 95(1): 61-67 Dubey B P, Bhagwat S G, Shouche S P, et al. Potential of artificial neural networks in varietal identification using morphometry of wheat grains [J]. Biosyst Eng, 2006, 95(1): 61-67
[6]Charytanowicz M, Niewczas J, Kulczycki P, et al. Complete gradient clustering algorithm for features analysis of x-ray images[M].Information technologies in biomedicine. SpringerBerlin Heidelberg, 2010: 15-24
[7]Frank A, Asuncion A. UCI Machine Learning Repository [http://archive. ics. uci. edu/ml].Irvine, CA: University of California[J]. School of Information and Computer Science, 2010
[8]Gardner M W, Dorling S R. Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences[J]. Atmospheric environment, 1998, 32(14): 2627-2636
[9]Chang C C, Lin C J. LIBSVM: a library for support vector machines [EB/OL]. http://www.csie.ntu.edu.tw/-cjlin/libsvm . 2011
[10]Francis R Bach, Michael I. Jordan. Kernel Independent Component Analysis[R].Technical Report, University of California, Berkeley.2001
[11]Francis R. Bach, Michael I. Jordan. Kernel Independent Component Analysis[J].The Journal of Machine Learning Research archive, 2003,3(3):1-48.
Varity Classification Based on Kernel-ICA and X-ray Image
Han Zhongzhi1,2Wan Jianhua1
(School of Geosciences, China University of Petroleum(East China)1, Qingdao 266580)(Natural and Information Science College, Qingdao Agricultural University2, Qingdao 266109)
The crop variety of correct classification is an important part of crop taxonomy, to investigate effectiveness of the X-ray imaging technology to study the classification of wheat varieties, 3 varieties are collected based on soft X-ray imager (Kama, Rosa and Canadian), and 70 grains are collected for each variety with a total of 210 grain samples of X-ray image, and for geometric features of its 7 forms (area, perimeter, compactness, grain length, width, skewness, seed ventral furrows length), and put forward the method of using Kernel-ICA to optimize the characteristics first and then carrying out clustering and identification of wheat varieties, and compare with classification results of K-means, C-means two kinds of clustering methods and two kinds of identification methods of recognition model based on artificial neural network (ANN) and support vector machine (SVM). Results: the correct classification rate from high to low is: Kernel-ICA, SVM, C-means, K-means, BP-ANN, the correct rate of classification are 91.9%, 90.5%, 89.5%, 87.1% and 86.9%. The method proposed in this paper Kernel-ICA, clustering optimization and recognition ability are the strongest, the classification of soft X-ray imaging of wheat varieties by using this method, has basically met the agricultural requirements for wheat variety classification, this method has a positive significance on crop genetic resources identification and crop variety classification study.
wheat, Kernel ICA, X-ray Image, variety classification
S126
A
1003-0174(2016)06-0123-05
國家自然科學基金項目(31201133),青島市科技發展計劃(14-2-3-52-nsh)
2014-10-16
韓仲志,男,1981年出生,副教授,計算機視覺與信號處理
萬劍華,男,1966年出生,教授,計算機技術與資源信息工程