樊書祥 黃文倩 郭志明 張保華 趙春江 錢曼
1(西北農林科技大學機械與電子工程學院,楊凌712100)
2(北京市農林科學院,北京農業智能裝備技術研究中心,北京100097)
可溶性固形物(Soluble solids content,SSC)是包括可溶性糖、酸、纖維素等成分的綜合型指標,是評價蘋果內部品質的重要參數[1]。蘋果可溶性固形物含量的快速有效檢測對于蘋果的生產流通,保證采后的果品品質至關重要。與傳統破壞性檢測方法相比,近紅外光譜技術以其無損、快速、低成本的優點,在水果品質與安全檢測方面得到了越來越廣泛的應用[2]。
國內外學者對蘋果可溶性固形物近紅外光譜檢測,進行了大量研究。Liu 等[3]利用富士蘋果的傅里葉近紅外光譜實現了蘋果可溶性固形物的有效檢測。Peris 等[4,5]先后分析了溫度變化、季節和品種差異對蘋果可溶性固形物近紅外光譜檢測模型的影響;Bobelyn 等[6]以Golden Delicious 和Pink Lady 兩種蘋果為例簡要分析了產地差異對可溶性固形物檢測模型的影響。與此同時,文獻[7,8]結合特征波長優選算法,在簡化蘋果可溶性固形物近紅外光譜檢測模型的同時,提高了模型預測精度。
富士蘋果在我國蘋果生產中占有重要地位,其產地分布范圍廣,不同產區因土壤、光照、氣候不同,蘋果外觀特征和內部品質也存在一定差異[9]。趙杰文等[10]利用富士蘋果傅里葉光譜信息結合支持向量機實現了產地分類。但先前的研究在富士蘋果產地差異對于可溶性固形物近紅外光譜檢測模型的影響以及如何減小這種影響方面鮮有報道。因此,本研究以產自新疆阿克蘇、山東肥城、山東棲霞和陜西宜川的富士蘋果為實驗對象,應用基于x-y 共生距離(SPXY)的樣本劃分方法,選取更具有代表性的樣本作為校正集,建立和比較單一產地和混合產地的蘋果可溶性固形物近紅外光譜檢測模型,并結合光譜特征波長變量優選,嘗試在提高模型的穩定性和預測精度的基礎上簡化模型,為在實際生產中準確預測蘋果可溶性固形物提供參考。
實驗用樣本選自我國富士蘋果主產區,挑選無缺陷和損傷的共368 個樣品,其中產自新疆阿克蘇76 個,山東棲霞72 個,山東肥城160 個以及陜西宜川60 個。將蘋果表面清洗干凈,依次編號,標記采集區域。實驗前,將蘋果樣品從冰箱取出,放置12 h,使樣本溫度與室溫達到一致,以避免溫度對光譜測量結果產生影響[11]。
實驗采用AntarisⅡ傅立葉變換近紅外光譜儀(Thermo Science Co.,USA)采集蘋果樣品在標記點區域的光譜信息,波段范圍設置為3800 ~14000 cm-1,掃描次數32,分辨率4.0 cm-1。光譜測量完成后使用數字阿貝折光儀(ARIAS 500,Reichert Technologies,New York,USA)進行SSC 含量測定。每個樣品從對應標記部位切取一定厚度果肉,經紗布過濾擠汁滴于折光儀鏡面,讀取并記錄讀數。
基于x-y 共生距離的樣本劃分方法(Sample set partitioning based on joint x-y distances,SPXY)以Kennard-Stone 算法為基礎,同時考慮樣本的x 變量(光譜數據)和y 變量(SSC 值)的歐氏距離[12]。為了確保樣本在x 和y 空間的具有相同的權重,標準化的xy 的距離公式為:

其中,N 為樣本總數,dx(p,q)和dy(p,q)表示任意兩個樣本p,q 之間在x 變量和y 變量的歐式距離。其最大優勢在于能夠有效覆蓋多維空間,獲得的校正集樣本具有較強代表性[13]。因此應用SPXY 算法分別對4 個產地的蘋果樣本進行校正集和預測集的劃分。
偏最小二乘(PLS)算法穩定性好且抗干擾能力強[14],分別利用PLS 建立單一產地的蘋果可溶性固形物近紅外光譜檢測模型,以及混合2 種產地、3 種產地和所有4 種產地蘋果樣本的混合產地可溶性固形物近紅外光譜檢測模型。為衡量所建模型的預測精度,利用建立好的模型分別預測4 個單一產地下的預測集樣本及所有產地的預測集樣本。
因光譜變量之間存在大量的冗余和共線性信息[15],采用競爭性自適應重加權算法(Competitive adaptive reweighted sampling,CARS)和連續投影算法(Successive projections algorithm,SPA)篩選蘋果可溶性固形物近紅外光譜特征波長。CARS 采用自適應加權采樣技術保留PLS 模型中回歸系數絕對值大的波長變量,并根據交互驗證均方根誤差最小值獲取與所測組分性質相關的波長變量[16]。SPA 利用向量的投影分析,在大量波長變量之間篩選含有最少冗余信息的變量組,使變量之間共線性達到最?。?7]。
為減小光譜儀首尾噪聲影響,選擇4000 ~10000 cm-1共3112 個波長點進行分析。圖1 為368個蘋果樣品的原始光譜信息,僅從圖1 難以看出不同產地蘋果樣本的光譜信息差異。對所有蘋果樣本光譜數據進行主成分分析可得,前6 個主成分(Principal component,PC)可代表原始光譜99.99%的信息。應用Kruskal-Wallis 檢驗對前6 個主成分進行差異性檢驗,當p <0.05 時說明差異性顯著。該檢驗方法為非參數檢驗,對總體分布的正態性和方差齊性不作要求[18]。檢驗結果如表1 所示,所有主成分對應的p <0.05,說明不同產地下的蘋果光譜信息存在明顯差別。
樣本劃分前經異常值檢驗未發現異常樣本。根據SPXY 方法,分別從新疆阿克蘇(AKS)、山東肥城(FC)、山東棲霞(QX)和陜西宜川(YC)4個產地的蘋果樣本中依次挑選出用于建模的校正集樣本。以76 個阿克蘇蘋果為例,首先確定校正集的樣本數為60,根據公式(1)計算所有76 個樣本中任意兩樣本之間的距離,獲取距離最大的兩樣本點,然后從剩余樣本集中選取到已獲得的樣本點距離最遠的樣本,重復此過程直到獲取60 個樣本為止,剩余的16 個樣本作為預測集。不同產地蘋果樣本的劃分及對應的SSC 測量值分布如表2 所示。從表2 可知,每個產地下校正集樣本的可溶性固形物含量分布范圍均大于預測集樣本,有利于構建更加穩定可靠的檢測模型。

圖1 蘋果樣本原始光譜圖Fig.1 Near infrared specra of apple sampls

表1 前6 個主成分的Kruskal-Willis 檢驗結果Table 1 Kruskal-Willis test results of first six principal component (PC)scores

表2 蘋果可溶性固形物含量實測值的統計結果Table 2 Statistic values of soluble solids content (SSC)(°Brix)of apples
分別利用產自新疆阿克蘇、山東肥城、山東棲霞、陜西宜川的校正集樣本建立其對應的單一產地可溶性固形物近紅外光譜檢測模型,其預測相關系數(Rp)和預測均方根誤差(Root mean square error of prediction,RMSEP)如表3 所示。對于同一產地的蘋果樣本,其校正集建立的單一產地模型對其預測集樣本均實現了較好預測。但在實際生產中,對未知樣本進行預測時,若先根據其光譜信息判定其產地信息,再根據對應產地下的模型預測可溶性固形物,一定程度上可提高預測精度,但工作量大,不利于實際生產。比較可知,利用某單一產地下的檢測模型預測其它不同產地蘋果的可溶性固形物時會產生較大誤差,Rp也有不同程度下降。因此,建立混合產地模型更具現實意義。

表3 單一產地的可溶性固形物檢測模型預測結果Table 3 Prediction results of local origin models for prediction of SSC in apples
將不同產地蘋果的校正集樣本混合,建立混合產地的蘋果可溶性固形物近紅外光譜檢測模型,對4 個單一產地的預測集樣本,以及所有產地的預測集樣本的預測結果見表4。隨著校正集蘋果產地混合數量的增加,模型的預測精度不斷提升。混合所有4 種蘋果產地的校正集建立的模型對各預測集樣本均取得了較好結果。通過以上對比可知,當校正集包含更多產地的蘋果樣本光譜信息時,建立的模型對未知產地蘋果的可溶性固形物預測會取得更好的結果,減小蘋果的產地差異對于可溶性固形物近紅外光譜檢測的影響。

表4 混合產地可溶性固形物檢測模型預測結果Table 4 Prediction results of hybrid origin models for prediction of SSC in apples
為簡化模型,提高模型預測精度,在4000 ~10000 cm-1全波段范圍內,采用CARS 算法對混合有4 種蘋果產地的校正集樣本的光譜進行可溶性固形物特征波長篩選。因每運行一次CARS 算法其最優采樣次數略有不同,嘗試運行CARS 算法50 次,選取交互驗證均方根誤差(Root mean square error of cross validation,RMSECV)最小的一次,圖2 為此次CARS 算法對可溶性固形物特征波長的篩選過程。由圖2 可見,當采樣次數為47 次時,其RMSECV 達到最小值,此時對應建模變量數為102 個。將挑選的特征波長作為輸入變量,建立蘋果可溶性固形物預測模型,結果如表5 所示。與全波段所建模型相比,其預測結果略有提升,建模變量數由全波段建模的3112 減少到102,模型得到了大大簡化。

圖2 基于CARS 算法的特征變量篩選Fig.2 Plot of variable selection by competitive adaptive reweighted sampling algorithm (CARS)

表5 蘋果可溶性固形物不同偏最小二乘模型預測結果Table 5 Prediction results of different PLS models for prediction of SSC in apples
CARS 算法剔除了大量無關信息,但其挑選的波長仍存在一定共線性,且對于實際生產建模變量依然眾多。因此采用SPA 算法對經CARS 選擇后的102 個變量進一步優選,得到4013,4302,4458,4539,4898,5029,5264,5299,6007,6282,6620,7312,8641,8745,9295 和9497 cm-1共16 個特征波長變量,并建立對應的蘋果可溶性固形物近紅外光譜檢測模型,結果如表5 所示。與CARS-PLS 模型相比,基于CARS-SPA 篩選的16 個特征波長建立的模型更為簡單,其對所有產地的預測集樣本檢測時Rp=0.978,RMSEP 為0.441°Brix。通過比較還發現,CARS-SPA-PLS 模型對于每種產地的蘋果單獨預測時其預測相關系數均大于0.92。該模型對不同產地預測集樣本的預測值和其實際測量值之間的散點圖如圖3 所示。通過特征波長篩選,在保證模型精度的前提下,模型得到了進一步簡化,為實現今后蘋果可溶性固形物在線檢測提供參考。

圖3 CARS-SPA-PLS 模型的預測集樣本的實際值和預測值散點圖Fig.3 Measured versus predicted values for SSC by the CARS-SPA-PLS model
本研究嘗試以4 種不同產地的富士蘋果為研究對象,探討了蘋果的產地差異對近紅外光譜檢測模型的影響。相比單一產地和其它混合產地模型,混合4 種產地蘋果的校正集建立的模型取得了理想的預測結果,結合CARS-SPA 篩選的16 個特征波長變量,模型得到了進一步的簡化,其預測相關系數和預測均方根誤差分別為0.978 和0.441°Brix。結果表明,含有更多產地的蘋果樣本建立的校正模型,結合有效篩選的特征波長,可以實現蘋果可溶性固形物含量的準確預測,減小蘋果產地差異對可溶性固形物近紅外光譜檢測的影響,為實際生產中利用近紅外光譜技術實現蘋果可溶性固形物含量的準確、在線檢測提供理論基礎。
1 Mendoza F,Lu R,Ariana D Cen H,Bailey B.Postharvest Biol.Tec.,2011,62(2):149 -160
2 Nicola? B M,Beullens K,Bobelyn E,Peirs A,Saeysa W,Theron K I,Lammertyn J.Postharvest Biol.Tec.,2007,46(2):99 -118
3 Liu Y,Ying Y.Postharvest Biol.Tec.,2005,37(1):65 -71
4 Peirs A,Scheerlinck N,Nicola? B M.Postharvest Biol.Tec.,2003,30(3):233 -248
5 Peirs A,Tirry J,Verlinden B,Verlinden B,Darius P,Nicola? B M.Postharvest Biol.Tec.,2003,28(2):269 -280
6 Bobelyn E,Serban A S,Nicu M,Lammertyn J,Nicola? B M,Saeys W.Postharvest Biol.Tec.,2010,55(3):133 -143
7 Zou X,Zhao J,Huang X,Li Y.Chemometr.Intell.Lab.Syst.,2007,87(1):43 -51
8 OUYANG Ai-Guo,XIE Xiao-Qiang,ZHOU Yan-Rui,LIU Yan-De.Spectroscopy and Spectral Analysis,2012,32(10):2680 -2684
歐陽愛國,謝小強,周延睿,劉燕德.光譜學與光譜分析,2012,32(10):2680 -2684
9 GUO Zhi-Ming,HUANG Wen-Qian,PENG Yan-Kun,WANG Xiu,TANG Xiu-Ying.Chinese J.Anal.Chem.,2014,42(4):513 -518
郭志明,黃文倩,彭彥昆,王秀,湯修映.分析化學,2014,42(4):513 -518
10 ZHAO Jie-Wen,HU Huai-Ping,ZOU Xiao-Bo.Transactions of the Chinese Society of Agricultural Engineering,2007,23(4):149 -152
趙杰文,呼懷平,鄒小波.農業工程學報,2007,23(4):149 -152
11 FAN Shu-Xiang,HUANG Wen-Qian,LI Jiang-Bo,ZHAO Chun-Jiang,ZHANG Bao-Hua.Spectroscopy and Spectral Analysis,2014,34(8):2089 -2093
樊書祥,黃文倩,李江波,趙春江,張保華.光譜學與光譜分析,2014,34(8):2089 -2093
12 SHANG Liang,GU Jing-Si,GUO Wen-Chuan.Transactions of the Chinese Society of Agricultural Engineering,2013,29(17):257 -264
商亮,谷靜思,郭文川.農業工程學報,2013,29(17):257 -264
13 Galv?o R K H,Araujo M C U,José G E,Pontes M J C,Silva E C,Saldanha T C B.Talanta,2005,67(4):736 -740
14 Li J,Huang W,Zhao C,Zhang B.J.Food Eng.,2013,116(2):324 -332
15 ZHANG Chu,LIU Fei,KONG Wen-Wen,ZHANG Hai-Liang,HE Yong.Transactions of the Chinese Society of Agricultural Engineering,2013,29(20):270 -277
張初,劉飛,孔汶汶,章海亮,何勇.農業工程學報,2013,29(20):270 -277
16 Li H,Liang Y,Xu Q,Cao D.Anal.Chim.Acta,2009,648(1):77 -84
17 Araújo M C U,Saldanha T C B,Galv?o R K H,Yoneyama T,Chame H C,Visani V.Chemometr.Intell.Lab.,2001,57(2):65 -73
18 Yao Y,Chen H,Xie L,Rao X.J.Food Eng.,2013,119(1):22 -27