李鴻強,孫 紅,李民贊*
(1.河北建筑工程學院 數理系,河北 張家口 075000;2.中國農業大學 現代精細農業系統集成研究教育部重點實驗室,北京 100083)
馬鈴薯是繼小麥、稻谷和玉米之后全球第四大重要的糧食作物。目前,利用光譜技術對馬鈴薯塊莖品質檢測主要集中于馬鈴薯的缺陷[1-5]及內部品質[6-7],鮮見應用于馬鈴薯微型種薯品種檢測的報道。馬鈴薯微型種薯(又稱原原種)是用脫毒的試管苗移栽或扦插最初產生的種薯,質量約1~20 g,其經濟價值高,經過多年發展已有較多品種,為保證品種的純度,開展馬鈴薯微型種薯種類無損鑒別研究,有助于馬鈴薯生產的良性發展。
模式識別是最常用的一種借助于數學方法進行光譜模式區分和識別的綜合方法。光譜定性分析的模式識別方法有判別分析(DA)[8]、BP神經網絡[9]、支持向量機(SVM)[10-13]。DA是一種線性分類器,其原理是將帶上標簽的數據點通過投影方法,投影到維度更低的空間中,使得投影后的點會形成按類別區分為一簇一簇的情況,相同類別的點將會在投影后的空間中更接近。對于K個類別的分類問題,每個類別對應一個分類公式,將待識別對象代入分類公式,得到K個分類值,其最大值決定待識別對象的類別。BP神經網絡是一種多層的前向型神經網絡,該網絡中信號為前向傳播,誤差的調整過程從最后的輸出層依次向之前各層逐漸進行,標準的BP網絡采用梯度下降算法,網絡權值沿著性能函數的梯度反向調整,該網絡模式識別是一種有監督的模式識別方法,通常具有一個或多個Sigmoid隱含層和線性輸出層。SVM是Vapnik等[14]于1992年首先提出的機器學習方法,可用作模式識別,其理論基礎是結構風險最小化的近似實現,能較好地解決小樣本、非線性、高維數和局部極小點等實際問題。基于此,本研究采用高光譜分析技術和模式識別方法,對大西洋等8種馬鈴薯微型種薯的分類檢測方法進行研究。
“蓋亞(Gaia Sorter)”高光譜分選儀,配卓立漢光公司Image-λ“譜像”系列高光譜相機[15-16];Gaia Sorter高光譜成像系統由鏡頭(OL23)、面陣CCD偵測器(LT365)、光譜儀(V17E)、均勻光源(2套溴鎢燈)、電控移動平臺、計算機及控制軟件等部件組成;攝像頭分辨率為320×256 pix,光譜范圍為860~1 745 nm,光譜分辨率為5 nm,光譜采樣點為6.3 nm,光譜通道數為256。
實驗所用馬鈴薯微型種薯為大西洋(24個)、荷蘭-14(28個)、荷蘭十五041(50個)、荷蘭十五Q8(60個)、冀張薯12號(24個)、冀張薯8號(31個)、興佳2號(24個)和Y2(36個) 8個品種總計276個樣本。其中大西洋馬鈴薯還原糖含量低,主要用作油炸馬鈴薯片,中熟品種;荷蘭-14為紅皮黃肉,鮮食中熟品種;荷蘭十五041為黃皮黃肉,鮮食早熟品種;荷蘭十五Q8為黃皮黃肉,鮮食中熟品種;冀張薯12號為白皮白肉,鮮食高產中熟品種;冀張薯8號為白皮白肉,鮮食晚熟品種;興佳2號為黃皮黃肉,鮮食中熟品種;Y2為黃皮黃肉,晚熟品種。8種種薯,生長周期和內在品質各有特點。
高光譜圖像數據采集前,先預熱系統,以消除基線漂移的影響。對高光譜成像儀進行調焦,設定曝光時間,調整輸送裝置速度,調整鏡頭高度,保證得到清晰的圖像。供試樣品去除表面雜質,常溫靜置24 h,采集光譜數據,調試后的采集參量為:鏡頭高度26.5 cm,前進速度0.75 cm/s,回退速度3 cm/s,曝光時間25 ms。利用系統自帶Spec View軟件進行采集控制,每個樣本對應一個包含影像信息和光譜信息的三維數據立方體,由于1 700~1 745 nm波長范圍的光譜重疊嚴重,因此選擇860~1 700 nm的數據進行分析,共256個波長。
利用光譜采集系統自帶的Spec View軟件進行黑白校正,使用ENVI 5.1軟件從校正后的圖像中獲取5~6個10像素×10像素的感興趣區域(Region of interest,ROI),獲得原始光譜數據。數據處理均在MATLAB R2013b環境中進行。
1.4.1 光譜預處理光譜預處理[17]采用Z-Score標準化、Savitzky-Golay卷積平滑、一階導數。Z-Score標準化是基于原始數據的均值和標準差進行數據的標準化方法,其計算采用原始數據減去原始數據的均值,得到的差再除以原始數據的標準差。Savitzky-Golay卷積平滑通過移動窗口,利用最小二乘法進行最佳擬合,以最小二乘擬合系數為數字濾波響應函數進行原光譜的卷積平滑處理。本研究采用11點Savitzky-Golay卷積平滑,將Savitzky-Golay系數W=[-36,9,44,69,84,89,84,69,44,9,-36]代入公式(1)求解:
(1)

一階導數可消除基線漂移或平緩背景干擾的影響,本研究使用4點差分公式計算一階微分光譜:
(2)
式中,xi表示波長i處的原始光譜反射率數據;f′(xi)表示波長i處的微分光譜反射率;h表示差分時的步長(本研究取h=2)。
1.4.2 分類模型性能評價方法模型鑒定效果的評價指標為正確識別率和錯誤識別率。
正確識別率=(正確接收的樣品個數/測試樣品個數)×100%
錯誤識別率=(錯誤接收的樣品個數/測試樣品個數)×100%

圖1 8個品種種薯的原始光譜圖Fig.1 Raw spectra of eight seed potatos
8個品種種薯的平均原始光譜見圖1,其光譜反射率總體變化趨勢一致,均在960~1 100、1 160~1 200、1 410~1 510 nm之間表現出不同程度的深吸收;在880~920、1 060~1 100、1 260~1 300 nm范圍內表現為不同程度的局部強反射,在915 nm處的光譜反射率出現尖峰,在915~956 nm和1 122~1 149 nm范圍內的光譜反射率出現急速下降。大西洋品種在885~1 130 nm之間的反射率在8個品種種薯樣品中最低,而在1 370~1 660 nm之間的反射率最高。荷蘭-14在920~1 400 nm之間的反射率最高。荷蘭十五041和荷蘭十五Q8在整個波段反射率處于中等水平,荷蘭十五Q8在1 100~1 370 nm時的反射率整體高于荷蘭十五041,而在1 370~1 635 nm的反射率又整體低于荷蘭十五041。冀張薯12號在860~930 nm的反射率在8個品種種薯中最高。冀張薯8號與冀張薯12號的反射率變化規律相似,但在整個波段中的反射率低于冀張薯12號。Y2品種在1 400~1 510 nm的反射率在8個品種種薯中最低,之后反射率平穩上升。興佳2號與Y2品種的反射率變化規律較相似,但在1 510 nm之前各點反射率比Y2高,而在1 510 nm后反射率回升速度低于Y2。
由此可見,8個品種種薯樣本的光譜反射率總體變化趨勢一致,但彼此間存在一定差異,為后續依據光譜反射率建立微型種薯分類模型奠定了基礎。
對原始光譜進行標準化、Savitzky-Golay平滑和一階導數光譜預處理,以預處理后的數據所建SVM模型的測試性能作為預處理方法的選擇依據,最終確定標準化、11點Savitzky-Golay平滑和步長為2的一階差分導數的組合光譜預處理為本實驗的最佳預處理方法。對處理后的光譜數據進行主成分分析,得前3個主成分的累積貢獻率為95.12%,表明前3個主成分基本包含了原始光譜的大部分信息。
以前3個主成分為分類參數,研究8種馬鈴薯微型種薯的分類方法[18]。考慮到種類較多,首先,選用泛化能力強的支持向量機進行探索分類。所建支持向量機分類模型的測試結果如下:大西洋測試正確率50.00%,荷蘭-14測試正確率75.00%,荷蘭十五041測試正確率96.67%,荷蘭十五Q8測試正確率51.28%,冀張薯8號測試正確率100%,冀張薯12號測試正確率25.00%,興佳2號測試正確率50.00%,Y2測試正確率為31.25%。總測試正確率為49.14%,測試錯誤率為50.86%,由此可見,8個品種用一個模型分類判別的效果較差,需分組、分步驟建立檢測模型。

圖2 樣本得分圖Fig.2 Sample score chart
圖2為樣本1,3主成分得分圖。由圖可見,3類樣本類間重疊較少,存在明顯的界限,類內又具有聚集性。其它5個品種分布在大西洋、荷蘭-14、荷蘭十五041之間。因此,首先將大西洋、荷蘭-14、荷蘭十五041和其它5個品種看成4個類別建立模型。再對其它5個品種分組探索分類模型。以此類推,分組、分步驟建立8個品種的分類檢測模型。
2.4.1 大西洋、荷蘭-14、荷蘭十五041和其它品種的線性判別分類模型將大西洋、荷蘭-14、荷蘭十五041和其它品種分為4組,設置類別標簽依次為“1,2,3,4”,以1,3主成分得分作為分類變量,建立以上4個類別種薯的線性判別分類模型。訓練集160個樣本,測試集116個樣本。
測試集測試混淆結果如表1所示。大西洋(4個)測試正確率75.00%,荷蘭-14(8個)測試正確率87.50%,荷蘭十五041(30個),測試正確率92.86%,其它品種(74個)測試正確率87.84%。大西洋、荷蘭-14、荷蘭十五041測試錯誤樣本均被測試為其它品種,其它品種樣本被錯誤測試為大西洋和荷蘭-14樣本有8個,占錯誤測試樣本的87.50%。由此可見,大西洋、荷蘭-14、荷蘭十五041三者之間線性分類界限分明。線性判別模型的平均正確識別率為88.79%,可作為大西洋、荷蘭-14、荷蘭十五041和其它品種的分類模型。

表1 大西洋、荷蘭-14、荷蘭十五041和其它品種的線性分類測試結果Table 1 Classification test results of Daxiyang,Holland-14,Holland fifteen 041 and other
2.4.2 荷蘭十五Q8、冀張薯8號、冀張薯12號、興佳2號與Y2的分類模型對“2.4.1”中其它品種種薯應用BP神經網絡分類建模,測試集測試混淆結果見表2。由表2數據計算得:荷蘭十五Q8測試正確率41.03%,冀張薯8號測試正確率54.55%,冀張薯12號測試正確率50.00%,興佳2號測試正確率50.00%,Y2測試正確率93.75%。Y2樣本的測試準確率較高,冀張薯8號的測試準確率也高于其它品種,Y2樣本被錯誤識別的1個樣本被測試為興佳2號,冀張薯8號的5個樣本被錯誤識別為Y2。冀張薯8號和Y2對其它品種非線性判別分析界限較明顯,但此二者間的分類界限模糊。

表2 荷蘭十五Q8、冀張薯8號、冀張薯12號、興佳2號和Y2的BP網絡分類測試結果Table 2 Classification test results of BP neural network for Holland fifteen Q8,Jizhangshu 8,Jizhangshu 12,Xingjia 2 and Y2
2.4.3 荷蘭十五Q8、冀張薯12號、興佳2號與冀張薯8號、Y2分類模型由“2.4.2”分類模型的測試結果可知,冀張薯8號和Y2分類特性較相似,兩者不易區分,荷蘭十五Q8、冀張薯12號和興佳2號相互之間均有誤判。因此,將冀張薯8號和Y2合并作為一類,荷蘭十五Q8、冀張薯12號和興佳2號合并作為另一類,分別進行2分類建模。
應用BP神經網絡分類建模,測試集測試混淆結果顯示第一類(荷蘭十五Q8、冀張薯12號、興佳2號)47個測試樣本的測試正確率為91.49%,4個測試為第二類(冀張薯8號和Y2),測試錯誤率8.51%。第二類(冀張薯8號和Y2)27個測試樣本的測試正確率為96.30%,測試錯誤率為3.70%。由此可見,兩類分類模型均有很高的分類精度,測試集正確識別率均在90%以上,平均正確識別率為93.24%。
2.4.4 荷蘭十五Q8、冀張薯12號、興佳2號分類模型應用支持向量機對荷蘭十五Q8、冀張薯12號、興佳2號進行分類建模。結果顯示:荷蘭十五Q8的測試正確率為89.74%,4個錯誤測試為興佳2號,測試錯誤率10.26%。冀張薯12號的測試正確率75.00%,1個錯誤測試為荷蘭十五Q8,測試錯誤率25.00%。興佳2號的測試正確率為75.00%,1個錯誤測試為荷蘭十五Q8,測試錯誤率25.00%。平均正確識別率為87.23%。
2.4.5 冀張薯8號、Y2分類模型應用BP神經網絡對冀張薯8號、Y2建立分類模型,結果顯示:冀張薯8號的測試正確率為72.73%,3個測試為Y2品種,測試錯誤率27.27%。Y2的測試正確率為81.25%,3個測試為冀張薯8號,測試錯誤率18.75%。平均正確識別率為77.78%。
以第1和第3主成分作為分類變量,應用判別分析、BP神經網絡、支持向量機對大西洋、荷蘭-14、荷蘭十五041、荷蘭十五Q8、冀張薯12號、冀張薯8號、興佳2號和Y2高光譜分類檢測方法進行了研究。由于類別較多,且類間特征差別較小,難以建立8個馬鈴薯微型種薯的統一分類模型,即使是泛化能力最好的SVM模型,平均測試正確率也僅49.14%,因此需分步驟、分組建模。最終建立了3層的分組、分層檢測策略:第1層采用線性判別分析模型將待測樣本判別為大西洋、荷蘭-14、荷蘭十五041或其它品種,平均正確識別率達88.79%。第2層采用BP神經網絡模型將其它品種樣本判別為2類,一類冀張薯8號和Y2,另一類為荷蘭十五Q8、冀張薯12號和興佳2號,平均正確識別率達93.24%。第3層利用支持向量機分類模型荷蘭十五Q8、冀張薯12號和興佳2號3個品種,平均正確識別率達87.23%,利用BP神經網絡分類模型區分冀張薯8號和Y2品種,平均正確識別率達77.78%。表明高光譜分析技術可用于馬鈴薯微型種薯的類別檢測。